清华大学与智谱团队探索 RLHF 的 Scaling Laws

基于人类反馈的强化学习（RLHF）是优化大语言模型（LLM）行为的关键技术，能够让模型更符合人类偏好和需求，提升生成质量。

然而，目前关于 RLHF 的 scaling（扩展）潜力研究仍然相对缺乏，尤其是在模型大小、数据组成和推理预算等关键因素上的影响尚未被系统性探索。

针对这一问题，来自清华大学与智谱的研究团队对 RLHF 在 LLM 中的 scaling 性能进行了全面研究，并提出了优化策略。

主要结论如下：

数据的多样性和规模：增加训练数据的多样性和数量能够显著提升奖励模型（RM）的性能；
策略训练的效率：初期增加响应样本能够提高策略训练效果，但收益会迅速趋于平稳；
RLHF 的 scaling 效率低于预训练：RLHF 的计算资源投入带来的回报递减，整体 scaling 效率低于模型预训练阶段。

这一研究为优化 RLHF 在 LLM 中的应用提供了重要指导，也揭示了其在 scaling 性能上的潜在瓶颈。

研究方法

研究团队首先描述了 RLHF 中的关键组件，然后遵循 RLHF 的一般框架进行了实证研究。

值得注意的是，研究团队采取的研究方法有几个特殊之处。首先，他们使用多任务目标训练一个统一模型，用于人类偏好和推理任务，而不是训练多个单独的奖励模型。其次，在策略训练期间，他们对每个提示采样多个响应，并应用额外的奖励剪切和归一化，从而得到更稳定的策略训练。

1. 奖励模型训练

奖励模型的训练是生成式 AI 优化的重要环节，近期研究为这一领域带来了新启发，揭示了模型规模、数据扩展以及过程监督对性能提升的深远影响。

奖励模型的核心任务是基于用户偏好预测最优响应。在训练过程中，模型通过学习偏好数据集，判断用户对不同生成内容的偏好顺序，并以此优化生成结果。尤其是在需要推理能力的任务中（如数学解题、编程等），正确答案通常非常清晰，因此他们提出了更高效的二分类处理方法，同时结合偏好学习，使模型更精准地理解问题本质。

他们还重点探索了过程奖励模型（PRM），这是一种针对复杂推理任务的新型训练方式。过程奖励模型除了关注最终生成结果的优劣，还对生成过程中的每一步进行监督，从而提高模型在复杂推理任务中的表现。这一方式通过自动标注工具生成中间步骤的过程监督信号，为模型学习推理逻辑提供了支持。

研究的主要问题集中于模型规模和数据 scaling 的影响：

随着训练数据量的增加及数据多样性的提高，奖励模型的效果是否会显著改善？
增加过程监督的复杂度是否能够带来长期性能优势？

这些问题的答案将为生成式 AI 系统的优化提供重要参考。

2. 策略模型训练

策略模型训练是生成式 AI 模型优化中的关键环节，其目标是通过最大化模型生成的响应质量，从而实现更高的奖励分数。在这一过程中，训练涉及多个核心模型，包括提供反馈的奖励模型、进行优化的策略模型、用于正则化的参考模型，以及用于训练稳定性的可选评论模型。

策略模型的训练采用实时生成的响应，而非预先生成的固定答案。每次针对提示生成多个响应，通过奖励模型对这些响应进行评分并归一化处理，使得奖励更加稳定可靠。这种多响应采样的方式提高了提示数据的利用率，同时为策略模型的优化提供了更多训练样本。

为了防止策略模型偏离初始 SFT 模型而导致性能退化，训练中引入了 KL 散度惩罚机制。这一方法通过限制策略模型与参考模型之间的偏差，确保优化过程的稳定性。此外，策略模型的优化通常使用强化学习的近端策略优化（PPO）方法及其变体，这种保守的训练方式能够避免不稳定的学习现象。

研究团队还提出了一种'非对称奖励收缩'技术，用于应对负奖励带来的训练不稳定问题。通过对负奖励进行非对称缩小，策略模型在训练过程中表现出更强的稳定性，并显著提高了训练效果。

研究的主要问题聚焦于策略模型的规模效应与优化策略：

较大的策略模型是否能够在现有的奖励模型和训练策略下获得更多收益？
增加每个提示的响应数量或引入更多提示数据，是否对优化过程有帮助？
更大的奖励模型或不同的强化学习算法对最终性能有多大影响？

这些探索将帮助研究者更好地理解策略模型训练中的关键因素，为进一步优化 AI 的生成质量提供有力支持。通过深入研究这些问题，生成式 AI 将向更高效、更精准的方向发展。

实验结果

为进一步优化奖励模型和策略模型，研究团队设计了一套全面的实验设置，涵盖数据构建、训练配置和性能评估等方面。

首先，研究团队通过实验探索了策略模型训练过程中响应采样数量对模型性能的影响，进一步明确如何优化生成式 AI 的训练过程。实验采用 PPO 方法，对每个提示分别采样 1、2、4、8 和 16 个响应，并确保训练过程中的梯度更新步数保持一致，以便不同采样设置的结果具有可比性。采样的响应用于计算奖励反馈，指导策略模型的优化。

实验结果显示，随着每个提示采样的响应数量增加，模型在大多数任务中的性能都有明显提升。研究指出，这一趋势表明，更多样化的响应为策略模型提供了更丰富的奖励信号，使其能够更全面地学习不同情况下的优化策略，从而在整体性能上获得提升。

在奖励模型规模上，实验发现较大的奖励模型（如 32B 参数）在推理相关任务（如 MATH、GPQA 和 LiveCodeBench）中表现更优。然而，这种优势并非在所有任务中都存在。对于依赖于模型预训练的 MMLU 任务，大规模奖励模型在增加采样时反而可能引入更多对齐成本；在 AlignBench 中，小规模奖励模型甚至表现更佳，这可能与大模型对训练数据中的噪声更敏感有关。

清华大学与智谱团队探索 RLHF 的 Scaling Laws

研究方法

1. 奖励模型训练

2. 策略模型训练

实验结果

更多推荐文章

相关免费在线工具

未来展望

清华大学与智谱团队探索 RLHF 的 Scaling Laws

研究方法

1. 奖励模型训练

2. 策略模型训练

实验结果

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

未来展望