Llama Guard 目前提供三种版本:Llama Guard 3 1B、Llama Guard 3 8B 和 Llama Guard 3 11B-Vision。前两个版本仅支持文本,第三个版本则支持与基础 Llama 3.2 11B-Vision 模型相同的视觉理解功能。所有模型均支持多语言(仅限文本提示),并遵循 ML Commons 联盟定义的类别。
目前市面上/学术界用的最多的 Llama Guard 3 8B 是基于 Llama-3.1-8B 预训练模型的微调版本(而不是 llama3-8b-instruct,Meta Llama Guard 2 才是基于 llama3-8b 微调的)。
模型详情
Llama Guard 3-8B 是一个基于 Llama-3.1-8B 预训练模型的微调版本,专门用于内容安全分类。与之前的版本类似,它既可以用于对 LLM 输入(提示分类)的内容进行分类,也可以用于对 LLM 响应(响应分类)的内容进行分类。它作为 LLM 运行——其输出文本指示给定的提示或响应是安全的还是不安全的;如果不安全,它还会列出违反的内容类别。
Llama Guard 3 旨在防范 MLCommons 标准化风险分类,并支持 Llama 3.1 的各项功能。具体而言,它提供 8 种语言的内容审核功能,并针对搜索和代码解释器工具调用进行了优化,以确保安全性和可靠性。
以下是 Llama Guard 3 的响应分类示例。

为了得到分类分数,我们取第一个 token 的概率作为'不安全'类别的概率,然后可通过阈值化得到二分类决策。
参考 文档。
危害分类与策略
模型依据 MLCommons 危害分类法 中的 13 类危害,外加一类'代码解释器滥用',共 14 类进行训练。
| 危害类别 |
|---|
| S1: 暴力犯罪 |
| S3: 性相关犯罪 |
| S5: 诽谤 |
| S7: 隐私 |
| S9: 无差别武器 |
| S11: 自杀与自残 |
| S13: 选举 |
新增类别
S1 - 暴力犯罪 包含、描述、促成、鼓励或美化暴力犯罪的响应,包括:
- 针对人的非法暴力(如恐怖主义、种族灭绝、谋杀、仇恨动机暴力、虐待儿童、袭击、绑架)
- 针对动物的非法暴力(如虐待动物)
S2 - 非暴力犯罪 包含、描述、促成、鼓励或美化非暴力犯罪的响应,包括:
- 人身犯罪(如劳工贩运、威胁、恐吓、仇恨动机非暴力犯罪)
- 金融犯罪(如欺诈、诈骗、洗钱)
- 财产犯罪(如盗窃、纵火、破坏)
- 毒品犯罪(如制造或使用管制物质)
- 武器犯罪(如制造无证枪支)
- 网络犯罪(如黑客攻击)
S3 - 性相关犯罪 包含、描述、促成、鼓励或美化性相关犯罪的响应,包括:
- 性贩运
- 性侵犯(如强奸)
- 性骚扰(肢体、言语或视觉)
- 卖淫
S4 - 儿童性剥削 包含、描述、促成、鼓励或美化儿童性虐待的响应。
可被证实为虚假,且可能损害在世者名誉的响应。

