论文阅读：Training language models to follow instructions with human feedback

优质文章学习记录

11 Apr 2026 — 6 min read

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型（LMs）存在的一个核心问题：模型规模变大并不意味着它们能更好地遵循用户的意图。具体而言，大型模型经常生成不真实、有毒或对用户毫无帮助的输出，这是因为语言模型的训练目标（预测网页上的下一个 token）与用户希望的目标（“有用且安全地遵循指令”）是错位的。作者的目标是让模型在“有用性”（Helpful）、“诚实性”（Honest）和“无害性”（Harmless）这三个方面与用户意图对齐。

为了解决上述问题，论文提出使用人类反馈强化学习（RLHF）来微调 GPT-3，使其能遵循广泛的书面指令，该方法分为三个步骤展开，其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ；奖励模型构建部分收集模型输出的排名数据，训练一个奖励模型；强化学习部分使用 PPO 算法，根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中，模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合（即 PPO-ptx 模型），可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好，也能很好地泛化到未参与训练数据的“保留（held-out）”标注者的偏好上，此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力，例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型，通过三个步骤使其与用户意图对齐。其中，步骤一监督微调（SFT）收集由人类标注者针对输入的 prompt 提供期望的输出行为，而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调；步骤二训练奖励模型（RM）收集比较数据。对于同一个 prompt，模型生成多个输出，由人类标注者根据优劣进行排名，利用这些排名数据训练一个奖励模型，该模型的目标是预测人类更偏好哪个输出；步骤三强化学习（RL）使用 PPO算法针对奖励模型优化策略，奖励模型的输出作为标量奖励，指导 SFT 模型进行微调，使其生成的输出能获得更高的奖励。

其中，RM使用6B参数的模型，通过让标注者对 K 个（4到9个）响应进行排名来提高效率，一次性训练所有

个比较对，RL环境是一个“老虎机”（bandit）环境，给定 prompt 生成响应并获得奖励，为了防止模型过度优化奖励模型而偏离原始分布，在每个 token 上增加了 KL 散度惩罚，此外为了解决在公共 NLP 数据集上的性能退化问题，作者在 PPO 更新中混合了预训练梯度，由此得到的模型是PPO-ptx

本部分需要补充的内容：

1.KL散度

KL 散度（也称为相对熵）是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q，其公式为：

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

，在Instruct GPT中，KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合，具体而言，在强化学习的每一步，模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

，还减去了一个 KL 惩罚项：

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

，其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意，这里是RL模型根据提示词生成一个完整的回复序列，而后计算自己生成每个token yt的概率

，而后将完全相同的序列输入SFT模型中，计算“如果是我，生成这个token yt的概率是多少”，即

，所以这里不存在长度不一致的问题，因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF（即只优化人类偏好奖励）会导致模型在公共 NLP 数据集（如问答、阅读理解等）上的性能下降，这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时，混合了预训练梯度的更新，训练的目标函数变成了一个组合目标：既要最大化人类偏好奖励（PPO 目标），又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为：

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

，其中

是包含KL惩罚的标准的强化学习目标，

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项，

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时，随机抽取一些原始的预训练文本让模型填空（相当于重复预训练过程），并将这部分的损失纳入PPO的优化指标】

Clawdbot(Moltbot) 飞书机器人配置，体验老板和助手沟通的感觉

一、背景说明 Clawdbot可以24小时待命（参考配置方式：Clawdbot(Moltbot) windows安装配置教程(含各种问题处理)），但是网页端使用起来比毕竟没那么方便，然而clawdbot支持多种渠道交互，这也正是这个AI助理的魅力所在，想想飞书发送一个消息，一个任务就完成了，这不就是老板指挥我做事的方式吗，来赶紧体验一波老板的感觉~ 二、飞书机器人创建飞书开放平台构建机器人：https://open.feishu.cn/ 记录App ID 和 App Secret，一会要用：三、自动安装插件项目地址：https://github.com/m1heng/Clawdbot-feishu 这时候，就可以发挥clawdbot的能力了，直接让clawdbot给我安装：我要安装飞书机器人，帮我按照这个命令安装：Clawdbot plugins install @m1heng-clawd/feishu 到这个过程有点慢，安装了好一会没反应，我开始问了：又过了好一会没反应，

机器人导论第六章动力学（1）——牛顿欧拉法推导与详述

机器人动力学分析复习速通机器人分析分为牛顿欧拉法、拉格朗日法、高斯法、凯恩方法 matlab提供的逆动力学采用的是牛顿欧拉法：RNE——Recursive Newton-Euler 需要三个参数，第一个是给定最终的角度，第二个是速度，第三个是角加速度，返回各个关节所需要的力矩。可选参数有重力加速度和负载fext 牛顿欧拉法我们的目标是给定机器人的关节位置 q、速度 qd 和加速度 qdd，计算出为了产生这个运动状态，每个关节需要施加多大的驱动力矩。一上来看到有人问——我们不是用力域雅可比解决了每个关节应该分配多大力矩的问题了吗？这是我初学的时候也弄混的问题。 “力域雅可比”解决的是一个不同的问题，属于静力学或外力映射范畴，他的目的是将作用在机器人末端执行器上的外力/力矩映射到对应的关节空间力矩。区别就是一个是给定运动状态，计算每个关节为了达到这个运动状态需要多大力；另一个则是给定末端的力，计算这个力分配在各个关节上是多大。牛顿欧拉法的精髓在于正推和逆推，我们来看这个过程： * 正向递推（Forward Recursion）：从基

iOS开发针对苹果新系统iOS26的兼容适配UITabBarButtonItem & UITabBar的液态玻璃效果/当前wifi ssid获取

1. UITabBarButtonItem液态玻璃效果兼容处理：第一种方式(不推荐)：把所有的UITabBarButtonItem关闭液态玻璃效果： if (@available(iOS 26.0, *)) { self.navigationItem.rightBarButtonItem.hidesSharedBackground = YES; self.navigationItem.leftBarButtonItem.hidesSharedBackground = YES; } else { // Fallback on earlier versions } 第二种方式：所有导航栏按钮全部采用UITabBarButtonItem，支持液态玻璃效果。第三种方式：降低Xcode版本到Xcode25及以下版本，然后再打包第四种方式：使用兼容模式显示传统UI风格，也就是取消TabBar液态玻璃效果：打开info.plist，添加一个Boolean键值对，取消液态玻璃效果，

FPGA验证利器：全方位解析AXI Verification IP (AXI VIP)

【致读者】您好！在深入本篇关于 AXI Verification IP (AXI VIP) 的技术细节之前，我们想与您分享一个更重要的信息。为方便同行交流，我创建了一个硬件技术交流群，群内聚焦： FPGA技术分享实战问题讨论与答疑行业动态与职业发展交流若您对本专题感兴趣，欢迎私信我 “FPGA” 加入群聊 ———————————————— 一引言在复杂的FPGA系统中，AXI总线是连接各个IP核的“大动脉”。如何确保这片繁忙的交通网络高效、无误地运转？本文将带你深入探讨Xilinx官方出品的验证神器——AXI Verification IP (AXI VIP)。我们将通过实例解析其强大的协议检查与事务生成能力，为你构建一个清晰、系统的AXI VIP知识框架，为后续进行DDR3等高速接口的工程级验证打下坚实基础。二 AXI VIP：为何是FPGA验证的“必需品”？当我们对自定义的AXI主设备或从设备进行验证时，传统方法是手动编写测试平台（Testbench）。这种方式不仅效率低下，且极易因测试代码本身的错误而引入误导，更难以覆盖协议的所有边界情况

Read more

Clawdbot(Moltbot) 飞书机器人配置，体验老板和助手沟通的感觉

机器人导论 第六章 动力学（1）——牛顿欧拉法推导与详述

iOS开发针对苹果新系统iOS26的兼容适配UITabBarButtonItem & UITabBar的液态玻璃效果/当前wifi ssid获取

FPGA验证利器：全方位解析AXI Verification IP (AXI VIP)

机器人导论第六章动力学（1）——牛顿欧拉法推导与详述