Llama Guard 3 8B 模型安全分类技术报告解读

Llama Guard 3 8B 是基于 Llama-3.1-8B 微调的内容安全模型，支持文本输入输出分类及视觉理解（Vision 版）。它涵盖 14 类危害检测，包括暴力、犯罪、隐私、代码解释器滥用等。支持英法德印意葡西泰 8 种语言，不支持中文。评估显示其在英文、多语言及工具调用场景下优于 Llama Guard 2 和 GPT4，误报率更低。提供 int8 量化版本以降低部署成本。建议与 Llama 3.1 配合部署，但需注意对抗攻击风险及事实性知识局限。

竹影清风发布于 2026/4/6更新于 2026/4/1910 浏览

Llama Guard 目前提供三种版本：Llama Guard 3 1B、Llama Guard 3 8B 和 Llama Guard 3 11B-Vision。前两个版本仅支持文本，第三个版本则支持与基础 Llama 3.2 11B-Vision 模型相同的视觉理解功能。所有模型均支持多语言（仅限文本提示），并遵循 ML Commons 联盟定义的类别。

目前市面上/学术界用的最多的 Llama Guard 3 8B 是基于 Llama-3.1-8B 预训练模型的微调版本（而不是 llama3-8b-instruct，Meta Llama Guard 2 才是基于 llama3-8b 微调的）。

模型详情

Llama Guard 3-8B 是一个基于 Llama-3.1-8B 预训练模型的微调版本，专门用于内容安全分类。与之前的版本类似，它既可以用于对 LLM 输入（提示分类）的内容进行分类，也可以用于对 LLM 响应（响应分类）的内容进行分类。它作为 LLM 运行——其输出文本指示给定的提示或响应是安全的还是不安全的；如果不安全，它还会列出违反的内容类别。

Llama Guard 3 旨在防范 MLCommons 标准化风险分类，并支持 Llama 3.1 的各项功能。具体而言，它提供 8 种语言的内容审核功能，并针对搜索和代码解释器工具调用进行了优化，以确保安全性和可靠性。

以下是 Llama Guard 3 的响应分类示例。

文章配图

为了得到分类分数，我们取第一个 token 的概率作为'不安全'类别的概率，然后可通过阈值化得到二分类决策。

参考文档。

危害分类与策略

模型依据 MLCommons 危害分类法中的 13 类危害，外加一类'代码解释器滥用'，共 14 类进行训练。

危害类别
S1: 暴力犯罪
S3: 性相关犯罪
S5: 诽谤
S7: 隐私
S9: 无差别武器
S11: 自杀与自残
S13: 选举

新增类别

S1 - 暴力犯罪 包含、描述、促成、鼓励或美化暴力犯罪的响应，包括：

针对人的非法暴力（如恐怖主义、种族灭绝、谋杀、仇恨动机暴力、虐待儿童、袭击、绑架）
针对动物的非法暴力（如虐待动物）

S2 - 非暴力犯罪 包含、描述、促成、鼓励或美化非暴力犯罪的响应，包括：

人身犯罪（如劳工贩运、威胁、恐吓、仇恨动机非暴力犯罪）
金融犯罪（如欺诈、诈骗、洗钱）
财产犯罪（如盗窃、纵火、破坏）
毒品犯罪（如制造或使用管制物质）
武器犯罪（如制造无证枪支）
网络犯罪（如黑客攻击）

S3 - 性相关犯罪 包含、描述、促成、鼓励或美化性相关犯罪的响应，包括：

性贩运
性侵犯（如强奸）
性骚扰（肢体、言语或视觉）
卖淫

S4 - 儿童性剥削 包含、描述、促成、鼓励或美化儿童性虐待的响应。

可被证实为虚假，且可能损害在世者名誉的响应。

	F1 ↑	AUPRC ↑	False Positive Rate ↓
Llama Guard 2	0.877	0.927	0.081
Llama Guard 3	0.939	0.985	0.040
GPT4	0.805	N/A	0.152

	法语	德语	印地语	意大利语	葡萄牙语	西班牙语	泰语
Llama Guard 2	0.911/0.012	0.795/0.062	0.832/0.062	0.681/0.039	0.845/0.032	0.876/0.001	0.822/0.078
Llama Guard 3	0.943/0.036	0.877/0.032	0.871/0.050	0.873/0.038	0.860/0.060	0.875/0.023	0.834/0.030
GPT4	0.795/0.157	0.691/0.123	0.709/0.206	0.753/0.204	0.738/0.207	0.711/0.169	0.688/0.168

	搜索工具调用			代码解释器滥用
	F1 ↑	AUPRC ↑	FPR ↓	F1 ↑	AUPRC ↑	FPR ↓
Llama Guard 2	0.749	0.794	0.284	0.683	0.677	0.670
Llama Guard 3	0.856	0.938	0.174	0.885	0.967	0.125
GPT4	0.732	N/A	0.525	0.636	N/A	0.90

任务	能力	未量化				量化
		Precision	Recall	F1	FPR	Precision	Recall	F1	FPR
提示分类	英文	0.952	0.943	0.947	0.057	0.961	0.939	0.950	0.045
	多语言	0.901	0.899	0.900	0.054	0.906	0.892	0.899	0.051
	工具使用	0.884	0.958	0.920	0.126	0.876	0.946	0.909	0.134
响应分类	英文	0.947	0.931	0.939	0.040	0.947	0.925	0.936	0.040
	多语言	0.929	0.805	0.862	0.033	0.931	0.785	0.851	0.031
	工具使用	0.774	0.884	0.825	0.176	0.793	0.865	0.827	0.155

Llama Guard 3 8B 模型安全分类技术报告解读

模型详情

危害分类与策略

更多推荐文章

相关免费在线工具

支持语言

训练数据

评估

应用

量化

快速开始

局限性

引用

参考文献

技术总结

search tool calls

code interpreter abuse

Llama Guard 3 8B 模型安全分类技术报告解读

模型详情

危害分类与策略

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

支持语言

训练数据

评估

应用

量化

快速开始

局限性

引用

参考文献

技术总结

search tool calls

code interpreter abuse