大语言模型微调数据对齐五大核心算法SFT、RLHF、DPO、PPO、GRPO

Ne0inhk

24 Mar 2026 — 11 min read

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

这些算法均是大语言模型人类对齐阶段的核心方法，核心目标是让预训练大模型的输出贴合人类偏好、遵循自然语言指令、符合伦理规范与事实逻辑，其中SFT是所有对齐的基础，RLHF是经典对齐框架，PPO是RLHF的核心强化学习组件，DPO是RLHF的极简替代方案，GRPO是PPO的改进版，彼此存在明确的层级和技术承接关系。

本文以原理+核心步骤+优缺点+适用场景为核心维度浅析，避开复杂公式，聚焦工程落地的核心认知。

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

大模型人类对齐的第一步，所有后续对齐算法的基础，无SFT的基础模型，后续RLHF/DPO/PPO/GRPO的对齐都是空中楼阁。

核心原理

用高质量人类标注的指令-回答成对数据，在大模型预训练的基础上做小幅度微调，让模型学习人类的指令理解逻辑、基础回答范式和语言表达习惯，把预训练阶段“无目标的语言建模”转化为“有目标的指令遵循”。

核心步骤

构建高质量数据集：整理多样化指令库（覆盖日常对话、专业任务、逻辑推理等），由人类标注对应的优质回答，保证数据的准确性和多样性；
轻量化微调：为防止灾难性遗忘（丢失预训练的通用语言能力），通常冻结模型底层的大部分参数，仅微调上层的注意力层/全连接层，或采用LoRA/QLoRA等高效微调方法；
评估与筛选：通过自动指标（如BLEU、CHRF）+人工抽样评估，筛选出指令理解能力最优的SFT模型，作为后续对齐的初始模型。

优缺点

优点：实现简单、训练稳定、工程成本低，能快速让模型具备基础的指令遵循能力；
缺点：依赖高质量人类标注，无法解决人类偏好的细粒度差异（如两个回答都正确，哪个更简洁/更贴合语境/更有深度），泛化性有限，对未见过的指令处理能力弱。

适用场景

所有大模型的对齐前置步骤，是中小规模大模型“轻量对齐”的可选终方案（若对偏好对齐要求不高，仅需基础指令遵循，SFT即可满足）。

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

OpenAI提出的大模型经典对齐框架，行业内首个实现“细粒度人类偏好对齐”的方案，GPT-3.5/Claude早期版本均基于此，并非单一算法，而是SFT+人类偏好标注+奖励模型+强化学习的组合体系。

核心原理

把人类主观偏好转化为模型可量化的奖励信号，以SFT模型为初始策略，通过强化学习算法优化模型参数，让模型生成“人类认为更优”的回答，核心是“用人类反馈指导模型的迭代方向”。

核心三步法（经典流程）

基础SFT：训练得到具备基础指令遵循能力的SFT模型（同上文）；
奖励模型（RM）训练：让SFT模型对同一指令生成多个不同回答，由人类对这些回答进行排序/评分（标注偏好），用这些带偏好标签的数据训练奖励模型，RM的核心输出是奖励值，奖励值越高代表回答越符合人类偏好；
强化学习微调：以SFT模型为初始策略，以RM为奖励函数，用强化学习算法（核心是PPO）优化模型，让模型生成的回答能获得RM的高奖励，同时加入KL散度约束，限制模型与SFT模型的分布差异，防止丢失基础能力。

优缺点

优点：对齐效果极致，能精准捕捉人类的细粒度偏好（如简洁性、逻辑性、友好度），是大模型对齐的“行业标杆”；
缺点：流程极其复杂（三步均需独立训练和调参）、工程成本极高（大量人类偏好标注）、训练稳定性差（强化学习阶段易出现模式崩溃）、样本效率低，普通团队难以落地。

适用场景

追求极致对齐效果的超大规模大模型研发，如头部厂商的旗舰级大模型（GPT系列、文心一言、通义千问旗舰版）。

三、PPO：近端策略优化（Proximal Policy Optimization）

核心定位

并非独立的对齐框架，是RLHF框架中第三步强化学习微调的核心算法，也是目前大模型强化学习对齐中应用最广泛的策略优化器，替代了传统强化学习（如TRPO、DDPG）在大模型上的落地难题。

核心原理

针对传统强化学习算法计算复杂、训练慢、策略更新步长不可控的问题，PPO通过裁剪的目标函数限制模型策略的更新步长，让每次参数更新都在“近端”（即策略的微小变化），防止策略突变导致训练崩溃；同时结合RLHF的KL散度约束，平衡“人类偏好对齐”和“模型基础能力保留”。

核心改进（相比传统RL）

把TRPO的复杂数学约束转化为简单的裁剪损失函数，无需计算复杂的二阶导数，实现难度低、训练速度快，且能通过调整裁剪系数灵活控制策略更新的幅度，是为“工程落地”优化的强化学习算法。

在RLHF中的作用

作为策略优化器，接收RM输出的奖励信号，通过迭代更新模型参数，最大化模型生成高奖励回答的概率，是连接“奖励模型”和“最终对齐模型”的核心桥梁。

优缺点

优点：相比传统RL更稳定、易实现、工程落地性强，是RLHF的标配算法；
缺点：仍存在样本效率低、调参难度大（裁剪系数、KL权重需反复调试）、长期训练易出现模式崩溃（模型生成的回答趋同、缺乏多样性）的问题。

适用场景

RLHF框架的强化学习阶段，是大模型强化学习对齐的“基础算法”。

四、DPO：直接偏好优化（Direct Preference Optimization）

核心定位

2023年提出的RLHF极简替代方案，目前行业主流的大模型对齐算法，Llama 2、Mistral、通义千问轻量版、文心一言轻量版均基于此，核心是“跳过RM和RL，直接用人类偏好数据优化模型”。

核心原理

基于对比学习的思想，摒弃RLHF的“奖励模型训练+强化学习微调”两步，直接用人类标注的成对偏好数据（(指令, 优回答A, 差回答B)）构建偏好损失函数，让模型生成优回答A的概率远大于差回答B的概率，同时通过正则化项约束模型与SFT模型的偏离程度，实现“一步对齐”。

核心步骤

训练基础SFT模型（同上文）；
收集人类成对偏好数据（仅需标注“哪个回答更好”，无需排序/评分，标注成本远低于RLHF）；
用DPO专属损失函数直接微调SFT模型，一步得到对齐模型。

优缺点

优点：流程极简单（仅两步）、无需训练奖励模型、无需强化学习框架、训练超稳定、样本效率高、标注和工程成本低，对齐效果无限接近调优后的RLHF；
缺点：对齐效果略逊于极致调参的RLHF，对超大规模模型（千亿参数以上）的细粒度偏好对齐效果仍在持续验证，对偏好数据的多样性要求较高。

适用场景

中小规模大模型对齐、大模型的快速迭代研发、成本敏感的企业级大模型落地，是目前90%以上大模型研发团队的首选对齐算法。

五、GRPO：广义近端策略优化（Generalized Proximal Policy Optimization）

核心定位

PPO的改进版，针对PPO在大模型对齐中存在的训练不稳定、KL散度约束难调参、样本效率低等问题做了泛化优化，仍属于强化学习算法，可替代PPO应用于RLHF框架。

核心原理

在PPO的基础上重新设计了策略更新的目标函数，核心改进点有三：

将PPO的裁剪损失和KL散度约束进行深度融合，而非简单的加权求和，让策略更新更平滑；
引入自适应KL权重：根据训练过程中的模型分布变化动态调整KL权重，替代PPO的固定值，解决“KL权重调参难”的行业痛点；
优化了策略和价值函数的联合训练方式，减少两者的训练冲突，提升样本利用率，同时支持多维度奖励信号（如人类偏好+事实性+伦理规范）的融合优化。

优缺点

优点：比PPO训练更稳定、样本效率更高、调参更简单、支持多维度奖励对齐，在相同数据量下，对齐效果优于PPO；
缺点：实现比PPO稍复杂，目前行业落地案例比PPO和DPO少，相关开源工具链尚未完全成熟，仍在快速发展中。

适用场景

需要用强化学习做复杂对齐的场景（如多维度奖励融合、极致细粒度偏好对齐），替代PPO作为RLHF的核心强化学习算法，适合头部大模型厂商的自研对齐框架。

六、核心算法对比表

为更清晰体现各算法的差异，以下从定位/归属、核心步骤、是否需RM、是否需RL、训练难度、对齐效果、落地成本7个核心维度做对比，方便工程落地决策：

算法	定位/归属	核心步骤	是否需训练RM	是否需RL框架	训练难度	对齐效果	落地成本
SFT	对齐基础，独立算法	数据构建→轻量化微调	否	否	极低	基础（仅指令遵循）	极低
RLHF	经典对齐框架	SFT→RM训练→RL微调	是	是	极高	极致（人类偏好精准对齐）	极高
PPO	RLHF的RL组件	无独立步骤，为RLHF第三步服务	依赖RM（需配合）	是	中等	优（依赖RM和调参）	中高
DPO	独立对齐算法，RLHF替代方案	SFT→成对偏好数据微调	否	否	低	优秀（接近极致RLHF）	低
GRPO	PPO改进版，RLHF的RL组件	无独立步骤，替代PPO为RLHF第三步服务	依赖RM（需配合）	是	中高	更优（优于PPO）	中

七、行业落地趋势总结

SFT的基础地位不可撼动：所有对齐算法均以SFT模型为初始模型，高质量SFT数据集是对齐的核心前提，目前行业主流做法是结合开源通用指令集+行业专属指令集构建SFT数据；
DPO成为行业主流：因流程简单、成本低、效果优，DPO已替代RLHF成为90%以上大模型研发团队的首选对齐算法，开源生态（如DPOv2、KD-DPO）也在持续优化，进一步提升其对齐效果和样本效率；
RLHF（PPO/GRPO）聚焦极致场景：仅头部大模型厂商会投入资源做极致调参的RLHF，且逐步用GRPO替代PPO，提升强化学习阶段的训练效率和稳定性；
混合对齐成新方向：目前行业出现SFT+DPO+轻量RL的混合对齐方案，结合DPO的高效和RL的细粒度优化，在成本和效果之间做平衡，适合中大规模大模型的落地。

简单来说：中小团队选SFT+DPO即可满足大部分场景需求，头部团队追求极致效果可选SFT+RM+GRPO的RLHF框架。

大语言模型微调数据对齐五大核心算法SFT、RLHF、DPO、PPO、GRPO

Ne0inhk

大语言模型对齐核心算法浅析：SFT、RLHF、DPO、PPO、GRPO

一、SFT：监督微调（Supervised Fine-Tuning）

核心定位

核心原理

核心步骤

优缺点

适用场景

二、RLHF：人类反馈的强化学习（Reinforcement Learning from Human Feedback）

核心定位

核心原理

核心三步法（经典流程）

优缺点

适用场景

三、PPO：近端策略优化（Proximal Policy Optimization）

核心定位

核心原理

核心改进（相比传统RL）

在RLHF中的作用

优缺点

适用场景

四、DPO：直接偏好优化（Direct Preference Optimization）

核心定位

核心原理

核心步骤

优缺点

适用场景

五、GRPO：广义近端策略优化（Generalized Proximal Policy Optimization）

核心定位

核心原理

优缺点

适用场景

六、核心算法对比表

七、行业落地趋势总结

Read more

PLI接口与VCS调试生态：连接Verilog与C/C++的魔法桥梁

【C++】类和对象(中)

【C++】第二十六节—C++11(中) | 右值引用和移动语义(续集)+lambda

面试官最爱问：C++ 多态底层到底是怎么实现的？