论文阅读:Training language models to follow instructions with human feedback

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.

引言

引言首先指出了当前大型语言模型(LMs)存在的一个核心问题:模型规模变大并不意味着它们能更好地遵循用户的意图 。具体而言,大型模型经常生成不真实、有毒或对用户毫无帮助的输出,这是因为语言模型的训练目标(预测网页上的下一个 token)与用户希望的目标(“有用且安全地遵循指令”)是错位的。作者的目标是让模型在“有用性”(Helpful)、“诚实性”(Honest)和“无害性”(Harmless)这三个方面与用户意图对齐。

为了解决上述问题,论文提出使用人类反馈强化学习(RLHF)来微调 GPT-3,使其能遵循广泛的书面指令,该方法分为三个步骤展开,其中监督学习部分使用标注者编写的 prompt 和演示数据微调 GPT-3 ;奖励模型构建部分收集模型输出的排名数据,训练一个奖励模型;强化学习部分使用 PPO 算法,根据奖励模型的反馈进一步微调模型。

在 RLHF 过程中,模型在公共 NLP 数据集上的性能可能会下降。作者发现通过将 PPO 更新与预训练分布的对数似然更新混合(即 PPO-ptx 模型),可以大大减少这种性能衰退。经过RLHF的模型模型不仅符合训练它的标注者的偏好,也能很好地泛化到未参与训练数据的“保留(held-out)”标注者的偏好上,此外能够将“遵循指令”的能力泛化到其微调数据中很少见的任务上的潜力,例如非英语语言和代码相关的任务。

方法与实验细节

从预训练语言模型,通过三个步骤使其与用户意图对齐。其中,步骤一监督微调(SFT)收集由人类标注者针对输入的 prompt 提供期望的输出行为,而后使用这些数据对预训练的 GPT-3 模型进行监督学习微调;步骤二训练奖励模型(RM)收集比较数据。对于同一个 prompt,模型生成多个输出,由人类标注者根据优劣进行排名,利用这些排名数据训练一个奖励模型,该模型的目标是预测人类更偏好哪个输出;步骤三强化学习(RL)使用 PPO算法针对奖励模型优化策略,奖励模型的输出作为标量奖励,指导 SFT 模型进行微调,使其生成的输出能获得更高的奖励。

其中,RM使用6B参数的模型,通过让标注者对 K 个(4到9个)响应进行排名来提高效率,一次性训练所有

\binom{K}{2}

个比较对,RL环境是一个“老虎机”(bandit)环境,给定 prompt 生成响应并获得奖励,为了防止模型过度优化奖励模型而偏离原始分布,在每个 token 上增加了 KL 散度惩罚,此外为了解决在公共 NLP 数据集上的性能退化问题,作者在 PPO 更新中混合了预训练梯度,由此得到的模型是PPO-ptx


本部分需要补充的内容:

1.KL散度

KL 散度(也称为相对熵)是衡量两个概率分布之间差异的一种非对称度量。它量化了当使用分布 Q来近似真实分布P时所损失的信息量。对于离散概率分布P和Q,其公式为:

D_{KL}(P || Q) = \sum_{x} P(x) \log \left( \frac{P(x)}{Q(x)} \right)

,在Instruct GPT中,KL散度的添加是为了为了防止强化学习模型在优化奖励模型时过拟合,具体而言,在强化学习的每一步,模型生成的最终奖励R(x,y)不仅仅是奖励模型给出的分数

r_\theta(x, y)

,还减去了一个 KL 惩罚项:

R(x, y) = r_\theta(x, y) - \beta \log \left( \frac{\pi^{RL}(y|x)}{\pi^{SFT}(y|x)} \right)

,其中带有RL/SFT上标的分别为当前正在训练的强化学习模型的输出概率和原始监督微调模型的输出概率。

注意,这里是RL模型根据提示词生成一个完整的回复序列,而后计算自己生成每个token yt的概率

P_{RL}(y_t | x, y_{<t})

,而后将完全相同的序列输入SFT模型中,计算“如果是我,生成这个token yt的概率是多少”,即

P_{SFT}(y_t | x, y_{<t})

,所以这里不存在长度不一致的问题,因而KL散度可以进行计算。

2.如何在更新中混合预训练梯度

作者发现单纯使用 RLHF(即只优化人类偏好奖励)会导致模型在公共 NLP 数据集(如问答、阅读理解等)上的性能下降,这种现象被称为“对齐税”。因此作者在在进行PPO梯度更新的同时,混合了预训练梯度的更新,训练的目标函数变成了一个组合目标:既要最大化人类偏好奖励(PPO 目标),又要最大化预训练数据分布的对数似然。总的优化目标函数可以表示为:

\text{Objective} = \text{Objective}_{PPO} + \gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

,其中

\text{Objective}_{PPO}

是包含KL惩罚的标准的强化学习目标,

\gamma \cdot \mathbb{E}_{x \sim D_{pretrain}} [\log \pi(x)]

这是预训练损失项,

D_{pretrain}

是原始的预训练数据集。【这里说人话就是在训练 PPO 的同时,随机抽取一些原始的预训练文本让模型填空(相当于重复预训练过程),并将这部分的损失纳入PPO的优化指标】


Read more

AIGlasses_for_navigation效果展示:盲道分割结果叠加AR眼镜视野实时导航示意

AIGlasses_for_navigation效果展示:盲道分割结果叠加AR眼镜视野实时导航示意 1. 引言:当AI视觉遇见无障碍导航 想象一下,一位视障朋友走在陌生的街道上,他需要准确找到脚下的盲道,安全地通过前方的斑马线。传统的导盲杖可以探测到障碍物,但对于地面上的这些关键导航标识,却常常无能为力。这正是AI智能盲人眼镜导航系统想要解决的核心痛点。 今天,我想和大家分享一个非常有意思的项目——AIGlasses_for_navigation。这不仅仅是一个技术演示,更是一个将计算机视觉与增强现实(AR)结合,为视障人士提供实时、精准导航辅助的完整解决方案。它的核心,是一个基于YOLO分割模型的视频目标分割系统,能够实时检测并分割出盲道和人行横道。 在接下来的内容里,我会带大家看看这个系统在实际场景中的效果到底怎么样。我们会看到AI如何从复杂的街景中“认出”盲道和斑马线,以及如何将这些识别结果叠加到AR眼镜的视野中,形成直观的导航指引。这不仅是技术的展示,更是科技向善的一次生动实践。 2. 核心能力概览:不止于“看见” 在深入效果展示之前,我们先快速了解一下这个系统

2026 年最值得关注的开源低代码 / 零代码平台推荐

2026 年最值得关注的开源低代码 / 零代码平台推荐

无论是零代码小白还是资深开发者,都能在这些平台上找到适合自己的解决方案。今天,我们就来盘点一下 2026 年最值得关注的开源低代码 / 零代码平台,帮助您找到最适合的工具。 一、敲敲云 - 永久免费开源零代码平台 2026 年 1 月 12 日,敲敲云全新版本 v2.3.0 正式发布! 这一版本最大的亮点是正式宣布永久免费开放,彻底打破了传统零代码平台的用户数、应用数、表单数等多重限制,实现真正的零门槛、零成本使用。 敲敲云专注于为企业快速构建应用和工作流,是一款强大且易用的零代码平台。用户无需编写任何代码,即可通过丰富的组件库轻松创建各类应用,真正做到了 "人人都是开发者"。 产品特点: * 免费零代码使用,快速上手,无需开发背景 * 丰富的组件库和模板,满足多样化应用需求 * 可视化流程设计器,支持拖放式工作流设计 * 强大的工作流引擎,支持复杂流程逻辑与条件判断 * 优秀的团队协作功能,支持资源共享和协同开发 * 数据收集能力强,

Home Assistant界面美化终极指南:从零开始打造个性化智能家居界面

Home Assistant界面美化终极指南:从零开始打造个性化智能家居界面 【免费下载链接】frontend:lollipop: Frontend for Home Assistant 项目地址: https://gitcode.com/gh_mirrors/frontend149/frontend 想要让智能家居控制界面既美观又实用吗?Home Assistant提供了强大的界面定制功能,让你可以完全掌控界面的视觉风格。本指南将带你从基础设置到高级技巧,一步步打造专属于你的智能家居美学体验。 为什么你的Home Assistant界面需要美化? 界面美化不仅仅是改变颜色,它能显著提升你的智能家居使用体验: * 视觉舒适度:长时间使用不会造成眼睛疲劳 * 个性化表达:界面风格与你的家居装修完美融合 * 操作效率:优化的布局让控制更加直观便捷 * 多设备适配:确保在不同屏幕尺寸下都有最佳显示效果 快速上手:基础美化设置 如何访问主题设置界面 在Home Assistant主界面中,点击右上角的个人资料图标,选择"主题"选项,即可开始你的美化之旅。系统内置了多

基于FPGA的千兆以太网源代码实现与设计实战

本文还有配套的精品资源,点击获取 简介:本设计基于FPGA平台,实现千兆以太网的数据传输功能,适用于高速网络通信场景,如视频信号的高效传输。通过Verilog等硬件描述语言,构建包括以太网物理层(PHY)、MAC控制器、Wishbone总线接口等核心模块,并提供完整的测试平台与行为模型用于仿真验证。配套的使用说明指导开发者在特定FPGA平台上配置和部署该系统,具有较强的工程实用性。该方案广泛应用于嵌入式系统、工业控制和高性能数据传输领域,是掌握FPGA网络接口开发的重要实践项目。 1. FPGA千兆以太网设计概述 随着高速通信需求的不断增长,基于FPGA实现千兆以太网接口已成为嵌入式系统、工业控制和视频传输等领域的重要技术手段。本章从系统架构出发,阐述FPGA在千兆以太网设计中的核心优势——强大的并行处理能力、灵活的可重构性以及极低的数据处理延迟。重点介绍关键功能模块的划分与协作机制,包括PHY层接口、MAC控制器、Wishbone总线桥接及数据包处理引擎,并结合IEEE 802.3标准解析千兆以太网帧结构与物理层规范。同时,明确顶层模块( eth_top )的数据流向与控制