TRE: 鼓励在Trust Rigon 进行探索

TRE: 鼓励在Trust Rigon 进行探索

机构:  百度

代码: https://github.com/WhyChaos/TRE-Encouraging-Exploration-in-the-Trust-Region

Abstract

熵正则化是强化学习(RL)中提升探索能力的标准技术。然而,在大语言模型(LLMs)中,它往往效果甚微,甚至会导致性能下降。我们认为,这种失败源于大语言模型所固有的累积尾部风险(cumulative tail risk),这种风险来自其庞大的词表规模以及较长的生成序列长度。

在这样的环境下,标准的全局熵最大化会将概率质量不加区分地分散到大量处于尾部的无效 token 上,而不是集中于合理候选项,从而破坏连贯的推理过程。

为了解决这一问题,我们提出了 Trust Region Entropy(TRE) 方法。该方法鼓励模型仅在其“信任区域(trust region)”内进行探索。我们在数学推理任务(MATH)、组合搜索任务(Countdown)以及偏好对齐任务(HH)上进行了大量实验,结果表明,TRE 在各项任务中均稳定优于标准 PPO、传统熵正则化方法以及其他探索基线方法。

Contribution

•    We introduce Trust Region Entropy (TRE), a method that encourages exploration strictly within a trust region via local entropy maximization.
•    We demonstrate through extensive experiments on mathematical reasoning (MATH), combinatorial search (Countdown), and preference alignment (HH) that TRE consistently outperforms vanilla PPO, standard entropy regularization, and other exploration baselines.

RL for LLM Alignment

Following the standard Reinforcement Learn-ing from Human Feedback (RLHF) pipeline (Ouyang et al., 2022), models initially trained via supervised fine-tuning are further optimized using algorithms such as Proximal Policy Optimization (PPO) (Schulman et al., 2017) to maxi-mize non-differentiable reward signals. This paradigm has proven effective across various domains, from improving helpfulness and safety (Bai et al., 2022) to enhancing mathematical reasoning capabilities (Guo et al., 2025; Yu et al., 2025).

Entropy Regularization

Entropy regularization is a cornerstone technique in modern RL, encouraging exploration via the entropy term.

While highly effective in low-dimensional continuous control, naive entropy maximization proves problematic for LLMs due to massive vocabulary sizes (Cui et al., 2025).

To mitigate this, contemporaneous works have proposed selective constraint mechanisms.(选择性约束机制)

For instance, Wang et al. (2025) propose Forking-Tokens, which restricts optimization to steps with high entropy to preserve exploratory potential.

Similarly, Cui et al. (2025) introduces KL-Cov, which identifies steps with high covariance(协方差) be-tween advantage estimates and log-probabilities, selectively imposing a strong KL penalty on these critical steps to sta-bilize training dynamics. 

Trust Region

The concept of a Trust Region is foun-dational to stable optimization in reinforcement learning.

先解释Trust Region 是啥:

在策略梯度(Policy Gradient)里,我们本质是在做:

问题是:

  • 如果一步更新太大 👉 policy 分布剧烈改变
  • 重要性采样比率会爆炸
  • 训练不稳定甚至崩溃

尤其你做 LLM RL 时,这个问题更明显 ——
policy 是 50k 维 softmax,更新稍微大一点就会乱。

所以核心问题变成:

❓ 如何保证每次 policy 更新不要偏离太远?

这就是 Trust Region 思想的来源

TRPO → PPO 的演进其实是 “理论最优 + 复杂约束” → “工程可行 + 近似替代”

TRPO(2015)Trust Region Policy Optimization

TRPO (Schulman et al., 2015) constrains the policy update by enforcing a strict KL-divergence constrainton a surrogate objective, ensuring monotonic improvement while maintaining stability. This surrogate objective is designed to approximate the true objective while keeping the updates within a trust region defined by the KL-divergence.

核心思想

直接在优化问题里加入一个 KL 约束

subject to:

新策略不能离旧策略太远(KL距离受限)

surrogate objective

原始目标J(θ)不好直接优化,所以构造一个 surrogate

也就是 importance sampling + advantage

 PPO (2017) Proximal Policy Optimization

In contrast, PPO (Schul-man et al., 2017) simplifies this approach by introducing a clipped surrogate objective that penalizes large policy de-viations, making it more tractable and efficient, while still achieving similar stability to TRPO.

它不再写约束优化,而是直接修改目标函数

clip 在干什么?

当:

ratio 在区间内 → 正常更新

ratio 超过范围 → 被截断

这相当于:

不用 KL constraint
但“软性限制”policy变化幅度

它近似实现了 trust region。

Preliminaries

这个应该就是类似于task_definition

RL for LLMs

1. 核心思想:把 LLM 看成一个策略 πθ

把“文本生成”重新解释成“序列决策问题”

也就是说:

  • 生成每一个 token = 做一次 action
  • 上下文 = state
  • 整个回答 = 一条 trajectory
  • reward 在最后给

这和强化学习完全一致。

2. LLM 是一个 softmax policy

LLM 定义为一个参数化的 softmax policy πθ

一个神经网络st 输出 zt

 

softmax 定义 policy

  • z_{t,a} = token a 的 logit
  • softmax 把它变成概率
  • πθ 就是“选某个 token 的概率”

3. 整个回答的概率

生成一个完整回答 

的概率是 

这叫自回归 factorization

和标准 language modeling 完全一致。

* 自回归: 用“过去”来预测“现在”。chain rule of probability(概率链式法则)

4. MDP 建模

把之前的步骤建模为 episodic MDP

MDP = Markov Decision Process(马尔可夫决策过程)

它是强化学习的数学框架,包含 5 个东西:

(S,A,P,r,γ)

分别是:

  • S:状态空间 (states)
  • A:动作空间 (actions)
  • P:状态转移概率
  • r:奖励函数
  • γ:折扣因子

Markov 的意思是:未来只依赖现在,不依赖更早的过去。只要当前状态包含了所有历史信息,就够了。

P(st+1​∣st​,st−1​,...,s1​)=P(st+1​∣st​)

MDP 有两种类型:

Continuing MDP: 没有终点 一直运行下去 (e.g机器人控制)

Episodic MDP: 有明确的开始, 有明确的结束, 每次运行叫一个 episode (比如: 下棋一局/ 打游戏一局/ 生成一次回答)

在这里,我们的RL 过程建模为

状态 (State)  

  • prompt
  • 已经生成的 token

动作 (Action)

词表里的一个 token。

状态转移 (Transition)

拼接一个 token, 而且是 deterministic, 没有环境随机性。

奖励函数

注意:reward 是针对完整序列的。

e.g 数学题答对 = 1 答错 = 0 或者 reward model 给分

RL 目标函数

  1. 从数据集中采样 prompt q
  2. 用当前 policy 生成回答 a
  3. 计算 reward
  4. 最大化期望 reward

这就是标准 policy gradient 目标。

Trust Region Entropy (TRE)

不在“整个词表”上做 entropy,而只在“可信候选区域”里做 entropy

普通 entropy regularization 

鼓励把概率分布变平, 但是LLM 的动作空间 ∣A∣≈50,000

大多数 token 是:语义无关/ 语法不合法/ 完全错误

如果你鼓励“全局”变平:

概率会被推到:巨大的尾部垃圾 token 上

这就是cumulative tail risk

Trust Region

1️⃣ Top-K 集合(TRE-K)

也就是:

  • 按当前 logits 排序
  • 取前 K 个 token
  • 不涉及旧 policy
  • 不涉及额外优化

这是最简单的定义。


2️⃣ Top-p / Nucleus 集合(TRE-P)

也就是:

  • 先 softmax
  • 按概率排序
  • 累加到 ≥ p(比如 0.9)
  • 得到 nucleus

这个更自适应。

TRE

他们定义:

叫做trust region 内的 token 集合

他们从完整 logits:

抽取子向量:

然后只在这个子空间里做 softmax:

分母只在 trust region 内求和,叫做renormalized local distribution

然后他们算 local entropy 

只衡量“合理候选”之间的多样性而不是整个词表的混乱程度。

特殊情况处理:

1) 极度自信

模型极度自信,只剩一个合理 token。那 entropy 自动变成0, 这一步不做正则

2) scaling

entropy 的最大值是: log⁡(∣A∣)

如果 trust region 很小,比如 K=5:最大 entropy 只有: log⁡5

但全词表 entropy 最大是: log⁡50000

尺度差很多,所以他们乘了一个比例:

最终TRE loss

最终训练目标

本质是PPO loss + local entropy

Experiment

Read more

10分钟打造专属AI助手!ToDesk云电脑/顺网云/海马云操作DeepSeek哪家强?

10分钟打造专属AI助手!ToDesk云电脑/顺网云/海马云操作DeepSeek哪家强?

文章目录 * 一、引言 * 云计算平台概览 * ToDesk云电脑:随时随地用上高性能电脑 * 二 .云电脑初体验 * DeekSeek介绍 * 版本参数与特点 * 任务类型表现 * 1、ToDesk云电脑 * 2、顺网云电脑 * 3、海马云电脑 * 三、DeekSeek本地化实操和AIGC应用 * 1. ToDesk云电脑 * 2. 海马云电脑 * 3、顺网云电脑 * 四、结语 * 总结:云电脑如何选择? 一、引言 DeepSeek这些大模型让 AI 开发变得越来越有趣,但真要跑起来,可没那么简单! * 本地配置太麻烦:显卡不够、驱动难装、环境冲突,光是折腾这些就让人心态崩了。 * 云端性能参差不齐:选错云电脑,可能卡到爆、加载慢,还容易掉线,搞得效率直线下降。 * 成本难控:有的平台按小时计费,价格一会儿一个样,

By Ne0inhk
用 DeepSeek 打造你的超强代码助手

用 DeepSeek 打造你的超强代码助手

DeepSeek Engineer 是啥? 简单来说,DeepSeek Engineer 是一个基于命令行的智能助手。它能帮你完成这些事: * 快速读文件内容:比如你有个配置文件,直接用命令把它加载进助手,后续所有操作都可以基于这个文件。 * 自动改文件:它不仅能提建议,还可以直接生成差异表(diff),甚至自动应用修改。 * 智能代码生成:比如你让它生成代码片段,它会按照指定格式和规则直接返回。 更重要的是,这一切都是通过 DeepSeek 的强大 API 来实现的。想象一下,你有个贴身助手,不仅能听懂你的代码需求,还能直接动手帮你写! 核心功能拆解 我们先来看 DeepSeek Engineer 的几个核心能力,让你更好地理解它的强大之处。 1. 自动配置 DeepSeek 客户端 启动这个工具时,你只需要准备一个 .env 文件,里面写上你的 API Key,比如: DEEPSEEK_API_

By Ne0inhk
解锁DeepSeek潜能:Docker+Ollama打造本地大模型部署新范式

解锁DeepSeek潜能:Docker+Ollama打造本地大模型部署新范式

🐇明明跟你说过:个人主页 🏅个人专栏:《深度探秘:AI界的007》 🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、什么是Docker 2、什么是Ollama 二、准备工作 1、操作系统 2、镜像准备 三、安装 1、安装Docker 2、启动Ollama 3、拉取Deepseek大模型 4、启动Deepseek  一、引言 1、什么是Docker Docker:就像一个“打包好的App” 想象一下,你写了一个很棒的程序,在自己的电脑上运行得很好。但当你把它发给别人,可能会遇到各种问题: * “这个软件需要 Python 3.8,但我只有 Python 3.6!

By Ne0inhk
深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

深挖 DeepSeek 隐藏玩法·智能炼金术2.0版本

前引:屏幕前的你还在AI智能搜索框这样搜索吗?“这道题怎么写”“苹果为什么红”“怎么不被发现翘课” ,。看到此篇文章的小伙伴们!请准备好你的思维魔杖,开启【霍格沃茨模式】,看我如何更新秘密的【知识炼金术】,我们一起来解锁更加刺激的剧情!友情提醒:《《《前方高能》》》 目录 在哪使用DeepSeek 如何对提需求  隐藏玩法总结 几个高阶提示词 职场打工人 自媒体创作 电商实战 程序员开挂 非适用场地 “服务器繁忙”如何解决 (1)硅基流动平台 (2)Chatbox + API集成方案 (3)各大云平台 搭建个人知识库 前置准备 下载安装AnythingLLM 选择DeepSeek作为AI提供商 创作工作区 导入文档 编辑  编辑 小编寄语 ——————————————————————————————————————————— 在哪使用DeepSeek 我们解锁剧情前,肯定要知道在哪用DeepSeek!咯,为了照顾一些萌新朋友,它的下载方式我放在下面了,拿走不谢!  (1)

By Ne0inhk