利用百川2-13B构建AIGC内容安全审核Agent实战

优质文章学习记录

10 Apr 2026 — 15 min read

利用百川2-13B构建AIGC内容安全审核Agent实战

最近跟几个做内容社区和社交产品的朋友聊天，他们都在头疼同一个问题：用户生成的内容（UGC）越来越多，尤其是现在AIGC工具普及了，用户一天能生产出海量的帖子、评论、脚本，人工审核根本看不过来。更麻烦的是，里面可能夹杂着一些不合规的内容，轻则影响社区氛围，重则可能引发风险。

传统的审核规则库更新慢，面对层出不穷的新梗、黑话常常失灵。纯人工审核呢，成本高、效率低，还容易因为疲劳导致误判。有没有一种更“聪明”的办法？我们尝试用百川2-13B大模型，搭建了一个智能的内容安全审核Agent。它不只是一个简单的“是/否”过滤器，更像一个懂规则、能推理的“审核专员”，不仅能识别风险，还能给出修改建议。今天，我就把这个从架构设计到部署上线的实战过程，跟大家分享一下。

1. 为什么需要“智能”审核Agent？

先说说我们面临的几个核心痛点，可能也是很多平台正在经历的。

第一，审核维度复杂且动态变化。 内容安全不只是屏蔽几个敏感词那么简单。它涉及多个维度：政治敏感、暴力恐怖、违禁品、低俗色情、人身攻击、虚假信息等等。而且，这些风险的“边界”和“表现形式”一直在变，新的网络用语、隐喻、谐音梗层出不穷，静态的规则库很难跟上。

第二，上下文理解要求高。 同样一句话，在不同的语境下风险等级完全不同。比如“这个方案真是绝了”，在大多数情况下是夸赞，但在某些特定讨论中可能被用作反讽或负面评价的暗语。机器需要理解上下文，才能做出准确判断。

第三，需要可解释的决策与建议。 对于平台运营者来说，仅仅知道“内容违规”是不够的。他们需要知道“为什么违规”，以及“如何修改才能合规”。这对于教育用户、积累审核案例、优化规则都至关重要。一个只会说“不”的审核系统，价值有限。

第四，高并发与实时性挑战。 内容平台的高峰期，审核请求可能是海量的。审核系统必须能在极短时间内（通常是毫秒到秒级）返回结果，同时保持高准确率，这对系统的并发处理能力和稳定性是巨大考验。

基于这些痛点，我们决定构建的不仅仅是一个分类器，而是一个具备“感知-推理-决策-建议”能力的智能体（Agent）。百川2-13B模型强大的语言理解和生成能力，正好为这个智能体提供了“大脑”。

2. Agent的“大脑”与“工具箱”：架构设计

我们的智能审核Agent，可以把它想象成一个经验丰富的审核员。它有一个强大的“大脑”（百川2-13B模型）来理解和推理，还有一个随身携带的“工具箱”（风险知识库与审核策略），以及一套高效的“工作流程”（系统架构）。

2.1 核心架构：三层流水线

为了让Agent高效、可靠地工作，我们设计了一个三层处理流水线。

用户输入文本 ↓ [1. 预处理与特征提取层] ├── 文本清洗（去噪、规范化） ├── 关键实体识别（人名、地名、组织名等） ├── 情感与意图初步分析 ↓ [2. 核心推理与审核层] ←──（查询与更新）──→ [风险知识库] ├── 百川2-13B模型调用 ├── 多维度风险并行分析 ├── 上下文关联与意图深度研判 ↓ [3. 决策与生成层] ├── 综合风险等级判定（如：通过/建议修改/拦截） ├── 生成审核结论与详细理由 ├── 生成具体的修改建议（如替换词、改写句式） ↓ 最终审核报告（含结果、理由、建议）

第一层：预处理。 这一层就像审核员拿到稿件后的第一步——快速浏览，标出重点。我们会进行基础的文本清洗，识别出可能的关键实体（这些往往是风险高发区），并对文本的情感和意图做一个快速预判，为下一层的深度分析提供线索。

第二层：核心推理。 这是Agent的“思考”环节。预处理后的文本和特征，会被构造成为精心设计的提示词（Prompt），提交给百川2-13B模型。模型的任务是，结合我们内置的“风险知识库”，对文本进行多维度、深层次的研判。这里的关键是Prompt工程，我们要让模型扮演好“严格的内容安全审核专家”这个角色。

第三层：决策输出。 模型分析完成后，这一层将模型的“思考结果”转化为标准化的审核报告。包括最终的风险判定（例如：0-通过，1-建议修改，2-拦截）、判定理由的详细阐述，以及针对“建议修改”类内容的具体、可操作的修改建议。

2.2 风险知识库：Agent的“审核准则”

模型本身并不知道什么是“敏感内容”，这需要我们通过知识库来告诉它。我们构建的风险知识库不是简单的敏感词列表，而是一个结构化的“风险案例手册”，主要包括：

风险类别与定义：明确每一类风险（如涉政、暴恐、违禁品）的具体边界和描述。
典型风险模式与案例：收集大量正例和反例。例如，对于涉政类，不仅包括直接提及，还包括常见的隐喻、指代、历史影射等案例，并附上解释。
动态风险词库与上下文规则：一些词本身中性，但在特定组合或语境下风险很高。知识库会记录这些上下文规则。
平台特定规范：不同社区有自己的规则，这部分可以定制化注入。

这个知识库会以系统指令（System Instruction）和少量示例（Few-shot Examples）的形式，融入到每次调用模型的Prompt中，持续引导模型的审核逻辑与标准。

2.3 与星图平台结合：高并发部署策略

模型推理本身是计算密集型的。如果每个审核请求都直接调用原模型，成本高，速度也难以满足高并发需求。我们在星图平台上，采用了以下策略来优化部署：

策略一：模型服务化与池化。 我们将百川2-13B模型部署为独立的推理服务，并利用星图平台的容器化能力，启动多个服务实例，形成一个模型服务池。前端审核网关收到请求后，可以从池中分配一个空闲的实例进行处理，实现负载均衡。

策略二：异步处理与队列缓冲。 对于非极端实时性的审核场景（如帖子发布前的审核），我们引入消息队列。审核请求先进入队列，后端Agent服务按顺序消费处理。这能有效平滑流量峰值，避免瞬时高并发击垮服务。

策略三：结果缓存。 互联网上重复或相似的内容很多。我们设计了一套文本指纹（如SimHash）机制，对审核过的内容进行缓存。当高度相似的新内容出现时，可以直接返回缓存结果，极大减少对模型的调用，提升响应速度并降低成本。

策略四：分级审核与快速通道。 并非所有内容都需要“大模型”出马。我们设置了一个轻量级的“快速过滤层”，使用正则表达式和布隆过滤器等传统方法，拦截那些明显、低级的违规内容（如纯敏感词堆砌）。只有通过快速过滤的内容，才会进入百川Agent的深度审核流程。这样既保证了效果，又提升了整体效率。

3. 让Agent“开工”：实战流程与Prompt设计

理论说再多，不如看看Agent实际是怎么工作的。我们以一个模拟的UGC帖子审核为例。

假设用户提交了这样一段内容：“最近那个地方的事情真是让人无语，上面的人到底在想啥？感觉还不如以前呢。”

3.1 第一步：构造审核指令（Prompt）

这是最关键的一步，Prompt的质量直接决定审核效果。我们的Prompt模板大致包含以下几个部分：

你是一个专业、严谨的互联网内容安全审核专家。请严格按照以下审核标准，对用户输入的内容进行安全风险评估。 【审核维度与标准】 1. 涉政敏感：批评、影射国家政策、制度、领导人，或利用历史事件、社会问题表达不满。 2. 社会稳定性：煽动对立、散布悲观负面情绪、否定社会发展成就。 3. 其他风险：包括但不限于暴力、色情、违禁品、欺诈、人身攻击等。 【知识参考】 - “上面的人”在网络语境中常被用来隐晦指代政府或管理层。 - 通过对比“现在”与“以前”并贬低“现在”，来间接表达对现状的不满，是一种常见表达方式。 【输出格式要求】 请按以下JSON格式输出： { "risk_level": "0（无风险）/1（低风险，建议修改）/2（高风险，建议拦截）", "risk_categories": ["涉政敏感", "社会稳定性", ...], // 涉及的风险类别列表 "reasoning": "详细的审核推理过程，说明为何做出该判断。", "suggestion": "如果risk_level为1，请提供具体的修改建议文本；否则为空。" } 【待审核内容】 用户输入：{user_input}

3.2 第二步：Agent分析与推理

将上述Prompt发送给部署好的百川2-13B模型服务。模型会基于我们的指令和知识参考进行推理。

模型可能会这样“思考”：

识别出“那个地方的事情”指代模糊，可能影射特定社会事件。
“上面的人”结合知识参考，识别出可能隐晦指代政府或权威机构。
“感觉还不如以前呢”是一种对比否定，可能属于“否定社会发展成就”的范畴。
整体语气消极，带有不满情绪，可能煽动负面情绪。
综合判断，内容未直接攻击，但存在影射和负面导向，属于低风险，建议修改。

3.3 第三步：输出审核报告

最终，Agent会返回一个结构化的JSON结果：

{ "risk_level": "1", "risk_categories": ["涉政敏感", "社会稳定性"], "reasoning": "该内容使用了‘那个地方的事情’、‘上面的人’等模糊指代，结合上下文消极语气，存在影射社会事件和管理层的嫌疑。并通过‘不如以前’的对比，隐含对当前状况的否定，可能引发负面情绪共鸣。未发现直接、明确的攻击性言论，故风险等级为‘建议修改’。", "suggestion": "建议用户将表达方式具体化、建设性化。例如，可修改为：‘最近遇到的某些情况让我有些困惑，希望相关方面能更清晰地传达信息。我相信未来会不断改善。’" }

3.4 第四步：平台后续动作

平台后端收到这个报告后，就可以根据策略采取行动：

如果 risk_level 为 0，内容直接通过。
如果为 1，可以将内容暂存，同时把审核结果（尤其是suggestion）反馈给用户，引导用户修改后再次提交。这既保证了安全，又提升了用户体验。
如果为 2，则直接拦截，并可将详细reasoning记录到审核日志，供人工复核或规则优化使用。

4. 效果、挑战与优化方向

在实际的测试和灰度上线中，这个基于百川2-13B的Agent展现出了不错的潜力。

效果方面，最明显的提升在于对“灰色地带”内容的处理能力。对于那种打擦边球、用隐喻和谐音的内容，传统规则方法很容易漏掉，而Agent凭借其强大的语义理解能力，识别准确率有显著提高。同时，它提供的“修改建议”功能非常受运营同事欢迎，成为了他们与用户沟通、进行社区教育的有效工具。

遇到的挑战也不少。 首先，推理速度与成本。13B模型相比更小的模型，推理速度还是慢一些，即使在优化后，单次审核耗时仍在几百毫秒到秒级。对于绝对实时的场景（如直播弹幕），仍需结合更轻量的方案。成本也需要通过缓存、分级审核等手段严格控制。其次，Prompt的稳定性。同样的指令，模型偶尔也会产生输出格式不一致或理由略微跑偏的情况。我们需要在服务端增加一层输出格式校验和后处理逻辑来保证稳定性。最后，知识库的持续运营。风险知识库不是一劳永逸的，需要根据最新的审核案例、网络热点不断更新和补充，这是一个长期的工作。

未来的优化方向，我们主要看三点：一是探索模型蒸馏或微调，在尽量保持效果的前提下，得到一个更小、更快的专用审核模型，进一步降低延迟和成本。二是构建多模态审核能力。现在主要是文本，未来需要融合对图片、视频中文字和场景的理解，形成全方位的审核体系。三是强化主动学习闭环。将Agent判断存疑的案例、人工复核纠正的案例，自动反馈到知识库和训练流程中，让Agent越用越“聪明”。

5. 写在最后

回过头看，用百川2-13B构建内容安全审核Agent，不是一个简单的模型调用项目，而是一个系统工程。它涉及到对业务痛点的深刻理解、合理的架构设计、细致的Prompt工程，以及扎实的工程化部署。

这个方案最大的价值，在于它提供了一种“人机协同”的新思路。Agent不是要完全取代人工审核，而是成为审核员的超级助手，帮他们处理掉大量简单和次复杂的判断，并给出参考意见，让人工可以聚焦在最复杂、最需要价值判断的案例上。对于中大型内容平台来说，这种效率和质量的双重提升，意义是实实在在的。

如果你也在为内容审核的问题发愁，不妨试试这条技术路线。从一个小场景开始，比如先针对某个特定的风险类别（如广告导流）构建一个原型，验证效果后再逐步扩展。星图这类平台已经让大模型的部署变得简单很多，关键还是在于如何设计好那个“智能体”的工作流程和思考方式。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

利用百川2-13B构建AIGC内容安全审核Agent实战

优质文章学习记录