论文阅读：Training language models to follow instructions with human feedback

优质文章学习记录

10 Apr 2026 — 6 min read

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（“有用且安全地遵循指令”）是错位的。作者的目标是让模型在“有用性”（Helpful）、“诚实性”（Honest）和“无害性”（Harmless）这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令，该方法分为三个步骤展开，其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM使用6B参数的模型，通过让标注者对 K 个（4到9个）响应进行排名来提高效率，一次性训练所有

个比较对，RL环境是一个“老虎机”（bandit）环境，给定 prompt 生成响应并获得奖励，为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚，此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是PPO-ptx

本部分需要补充的内容：

1.KL散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q，其公式为：

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

，还减去了一个 KL 惩罚项：

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

，其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意，这里是RL模型根据提示词生成一个完整的回复序列，而后计算自己生成每个token yt的概率

，而后将完全相同的序列输入SFT模型中，计算“如果是我，生成这个token yt的概率是多少”，即

，所以这里不存在长度不一致的问题，因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF（即只优化人类偏好奖励）会导致模型在公共 NLP 数据集（如问答、阅读理解等）上的性能下降，这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时，混合了预训练梯度的更新，训练的目标函数变成了一个组合目标：既要最大化人类偏好奖励（PPO 目标），又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为：

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

，其中

是包含KL惩罚的标准的强化学习目标，

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项，

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时，随机抽取一些原始的预训练文本让模型填空（相当于重复预训练过程），并将这部分的损失纳入PPO的优化指标】

lingbot-depth-vitl14企业应用指南：机器人避障系统中替代高精度LiDAR的降本方案

lingbot-depth-vitl14企业应用指南：机器人避障系统中替代高精度LiDAR的降本方案想让你的机器人“看”得更远、更准，又不想为昂贵的激光雷达买单？今天，我们就来聊聊一个能帮你省下大笔硬件成本的技术方案——lingbot-depth-vitl14深度估计模型。简单来说，这个模型能让你的机器人用普通的RGB摄像头，就“猜”出周围环境的深度信息，实现精准避障。它就像一个给机器人安装的“空间感知大脑”，把二维的彩色画面，转换成三维的距离地图。对于企业而言，这意味着什么？意味着你可以用几百块的摄像头，去实现过去需要几万甚至十几万激光雷达才能做到的部分功能。这不仅仅是省钱，更是为机器人、自动驾驶、AR/VR等应用打开了低成本、高性能的新大门。接下来，我会带你深入了解这个模型，看看它如何在机器人避障这个核心场景中，真正落地并创造价值。 1. 为什么机器人避障需要深度信息？在聊技术方案之前，我们先得搞清楚一个基本问题：机器人是怎么“看见”并避开障碍物的？想象一下，你蒙着眼睛在房间里走路，很容易撞到桌子椅子。机器人也一样，它需要知道“前面有没有东西”以及“那个

我为什么放弃传统修图软件，改用Mac Luminar Neo？真实体验全说透

一款把“复杂修图”变成“傻瓜操作”的 Mac 神器说实话，现在不管你是做自媒体、电商、摄影，还是单纯喜欢拍照，修图几乎已经成了“刚需技能”。问题是，大多数修图软件对普通用户真的不友好：参数一大堆，工具一箩筐，新手点进去就是懵。而 Luminar Neo 的思路，刚好反过来——它不逼你学专业，而是用 AI 帮你“自动理解照片”。这次更新到 v1.25.1 版本，还是 Mac 专用的中文激活版，同时兼容 Intel 芯片和 M 系列芯片，门槛进一步被拉低。简单一句话总结：它不是给“修图大神”准备的，而是给“想把照片变好看的人”准备的。

告别塑料感！阿里Qwen-Image-2512用真实质感重新定义AI绘画

2025年12月31日，当多数人在准备跨年时，阿里通义千问团队突然开源了Qwen-Image-2512这款图像生成模型。它号称要干掉“AI味”，生成的照片比真人拍的还真实。我抱着“真的假的”的心态试用了几天，结论是：它对新手极其友好，且效果突出。 01 模型进化，让AI绘画告别“塑料感”时代 AI绘画一直有个难以摆脱的标签——“AI味”，那种过于完美却不真实的质感，让作品总显得有点“塑料感”。 Qwen-Image-2512针对这一痛点进行了升级更新，让生图效果更细腻、也更真实。人物肌肤质感方面，新模型能够生成真实毛孔纹理与细微光影变化，发丝根根分明，眼神生动自然。在自然纹理还原上，无论是风景构图中的水流、树木，还是动物毛发，都呈现出惊人的细腻度。复杂文字渲染是Qwen-Image系列的强项，而2512版本进一步提升了文字渲染质量与排版准确性，图文混合渲染更加精准。在AI Arena平台进行的超过1万局模型盲测中，Qwen-Image-2512被评为当前最强开源图像生成模型，甚至在某些方面可与闭源商业模型一较高下。 02 零门槛入门，两种方式快速上手对于

快讯｜清华&上海期智研究院开源Project-Instinct框架，攻克机器人“感知-运动”割裂核心难题；灵心巧手入选毕马威中国“第二届智能制造科技50”榜单

🐾 过去24小时，具身智能/AI行业一端是政策、资本与顶尖学术机构合力，为产业的未来搭建更坚实的地基；另一端，新旧玩家则在商业化与生存的现实中奋力搏击，接受最严酷的检验。 🌟 重磅速递 1. 灵心巧手连获行业殊荣，彰显灵巧手赛道领军地位 2026年初，灵心巧手接连获得多项行业权威奖项：入选毕马威中国 “第二届智能制造科技50” 榜单；在星河频率评选中，包揽 “年度灵巧手企业领航奖” 与 “年度灵巧手产品” 双奖；同时获评投中信息 “2025年度锐公司” 。这些荣誉集中反映了行业对其在灵巧手领域技术产品化能力与商业化进展的认可。在具身智能规模化应用的关键期，核心执行器厂商的标杆作用日益凸显。 🔬 技术前沿 2. 清华等机构开源Project-Instinct框架，攻克机器人“感知-运动割裂”难题清华大学交叉信息研究院与上海期智研究院联合发布了开源机器人运动控制框架 Project-Instinct，旨在攻克“感知与运动割裂”的核心挑战。该框架为“本能级”运动智能研究提供全链路工具包，支持从高动态全身跑酷到野外复杂地形徒步等多种能力训练。其创新在于模块化设计，允

Read more

lingbot-depth-vitl14企业应用指南：机器人避障系统中替代高精度LiDAR的降本方案

我为什么放弃传统修图软件，改用Mac Luminar Neo？真实体验全说透

告别塑料感！阿里Qwen-Image-2512用真实质感重新定义AI绘画

快讯｜清华&上海期智研究院开源Project-Instinct框架，攻克机器人“感知-运动”割裂核心难题；灵心巧手入选毕马威中国“第二届智能制造科技50”榜单