论文阅读:Training language models to follow instructions with human feedback

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型(LMs)存在的一个核心问题:模型规模变大并不意味着它们能更好地遵循用户的意图 。具体而言,大型模型经常生成不真实、有毒或对用户毫无帮助的输出,这是因为语言模型的训练目标(预测网页上的下一个 token)与用户希望的目标(“有用且安全地遵循指令”)是错位的。作者的目标是让模型在“有用性”(Helpful)、“诚实性”(Honest)和“无害性”(Harmless)这三个方面与用户意图对齐。

为了解决上述问题,论文提出使用人类反馈强化学习(RLHF)来微调 GPT-3,使其能遵循广泛的书面指令,该方法分为三个步骤展开,其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ;奖励模型构建部分收集模型输出的排名数据,训练一个奖励模型;强化学习部分使用 PPO 算法,根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中,模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合(即 PPO-ptx 模型),可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好,也能很好地泛化到未参与训练数据的“保留(held-out)”标注者的偏好上,此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力,例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型,通过三个步骤使其与用户意图对齐。其中,步骤一监督微调(SFT)收集由人类标注者针对输入的 prompt 提供期望的输出行为,而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调;步骤二训练奖励模型(RM)收集比较数据。对于同一个 prompt,模型生成多个输出,由人类标注者根据优劣进行排名,利用这些排名数据训练一个奖励模型,该模型的目标是预测人类更偏好哪个输出;步骤三强化学习(RL)使用 PPO算法针对奖励模型优化策略,奖励模型的输出作为标量奖励,指导 SFT 模型进行微调,使其生成的输出能获得更高的奖励。

其中,RM使用6B参数的模型,通过让标注者对 K 个(4到9个)响应进行排名来提高效率,一次性训练所有

\binom{K}{2}

个比较对,RL环境是一个“老虎机”(bandit)环境,给定 prompt 生成响应并获得奖励,为了防止模型过度优化奖励模型而偏离原始分布,在每个 token 上增加了 KL 散度惩罚,此外为了解决在公共 NLP 数据集上的性能退化问题,作者在 PPO 更新中混合了预训练梯度,由此得到的模型是PPO-ptx


本部分需要补充的内容:

1.KL散度

KL 散度(也称为相对熵)是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q,其公式为:

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

,在Instruct GPT中,KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合,具体而言,在强化学习的每一步,模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

r_\theta(x, y)

,还减去了一个 KL 惩罚项:

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

,其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意,这里是RL模型根据提示词生成一个完整的回复序列,而后计算自己生成每个token yt的概率

P_{RL}(y_t | x, y_{<t})

,而后将完全相同的序列输入SFT模型中,计算“如果是我,生成这个token yt的概率是多少”,即

P_{SFT}(y_t | x, y_{<t})

,所以这里不存在长度不一致的问题,因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF(即只优化人类偏好奖励)会导致模型在公共 NLP 数据集(如问答、阅读理解等)上的性能下降,这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时,混合了预训练梯度的更新,训练的目标函数变成了一个组合目标:既要最大化人类偏好奖励(PPO 目标),又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为:

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

,其中

\text{Objective}_{PPO}

是包含KL惩罚的标准的强化学习目标,

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项,

D_{pretrain}

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时,随机抽取一些原始的预训练文本让模型填空(相当于重复预训练过程),并将这部分的损失纳入PPO的优化指标】


Read more

FPGA实现HDMI输出完全攻略:从接口原理到4K显示全流程(附代码模板+调试技巧)

FPGA实现HDMI输出完全攻略:从接口原理到4K显示全流程(附代码模板+调试技巧) 📚 目录导航 文章目录 * FPGA实现HDMI输出完全攻略:从接口原理到4K显示全流程(附代码模板+调试技巧) * 📚 目录导航 * 概述 * 一、HDMI基础概念 * 1.1 HDMI接口介绍 * 1.1.1 HDMI接口历史与发展 * 1.1.2 HDMI接口引脚定义 * 1.1.3 HDMI版本对比 * 1.2 HDMI版本演进 * 1.2.1 HDMI 1.4特性 * 1.2.2 HDMI 2.0特性 * 1.2.3 HDMI 2.1特性

AI绘画新选择:Janus-Pro-7B一键部署与使用指南

AI绘画新选择:Janus-Pro-7B一键部署与使用指南 1. 为什么Janus-Pro-7B值得你关注 最近AI绘画领域又迎来一位实力派选手——Janus-Pro-7B。它不是另一个微调版Stable Diffusion,也不是简单套壳的多模态模型,而是DeepSeek团队推出的真正统一架构的多模态理解与生成模型。它的特别之处在于:既能看懂图片,又能根据文字画出高质量图像,且两者共享同一套核心逻辑。 很多用户反馈,用传统文生图模型时,经常遇到“提示词写得再细,画面也跑偏”的问题;而用图文理解模型时,又发现它只能回答“这是什么”,却无法进一步生成新内容。Janus-Pro-7B恰恰解决了这个割裂——它把视觉理解和图像生成放在同一个框架里协同优化,不是拼凑,而是融合。 更实际的好处是:你不需要分别部署两个模型、切换两套界面、学习两套操作逻辑。一个模型,两种能力,一次部署,即刻可用。尤其适合想快速验证创意、做轻量级内容生产的个人开发者、设计师和内容创作者。 它不追求参数堆砌,7B规模在本地或云上都能流畅运行;也不依赖复杂工作流,没有ComfyUI节点连线的门槛,打开就能用。如

FPGA毕设从入门到实践:选题避坑、开发流程与Verilog实战指南

最近在帮学弟学妹们看FPGA毕业设计,发现大家踩的坑都出奇地一致:仿真波形看着挺美,一下载到板子就“沉默是金”;或者功能勉强能跑,但时序报告一堆红色警告,心里直发虚。今天我就结合自己的经验,系统梳理一下FPGA毕设从选题到上板的完整流程,希望能帮你避开那些“前辈们”用头发换来的教训。 一、FPGA毕设那些“经典”的坑 毕业设计时间紧、任务重,很多问题如果前期没意识到,后期调试会非常痛苦。下面这几个是高频雷区: 1. 仿真与现实的“壁”:这是最常见的问题。Testbench里时钟是理想的,复位是干净的,但板子上有晶振抖动、按键消抖、电源噪声。仿真通过的UART收发,上板后可能因为波特率误差累积而错码。关键:仿真要加入时钟抖动(#(CLK_PERIOD/10))和复位异步释放的模型,尽量逼近真实环境。 2. 时钟域的“混战”:一个工程里用了板载50MHz时钟,又通过PLL生成125MHz给DDR控制器,还接了个外部异步的传感器数据。如果不同时钟域的信号直接通信,没有经过同步器(如两级触发器),亚稳态就会导致数据采样错误,

智能家居生态系统中AI应用的变革,由AI应用架构师引领

从“指令执行”到“主动理解”:AI如何重构智能家居?架构师的底层逻辑与实践 关键词 智能家居生态、AI应用架构、主动感知、多设备协同、用户意图理解、边缘-云协同、个性化推荐 摘要 十年前,我们对“智能家居”的想象是“用手机开灯泡”;今天,我们期待的是“加班晚归时,家门自动打开,暖气已暖,米饭刚熟,音乐刚好”。这背后的质变,是AI对传统智能家居生态的底层重构——从“被动响应指令”到“主动理解需求”。 本文将以AI应用架构师的视角,拆解这场变革的核心逻辑: * 如何让设备从“听指令”进化到“猜需求”? * 如何破解多设备“各自为战”的信息孤岛? * 如何在“智能”与“隐私”之间找到平衡? 通过真实场景案例、可落地的架构设计、代码示例与生活化比喻,