Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints¶
会议: ICLR 2026
代码: https://nothingbutbut.github.io/era
领域: 强化学习
关键词: 熵正则化、激活函数、最大熵强化学习、策略熵约束、LLM 对齐
一句话总结¶
ERA(Entropy Regularizing Activation)通过在网络输出层附加专门设计的激活函数来施加熵下界约束,无需修改损失函数,一套框架同时提升连续控制 RL、LLM 推理和图像分类的性能。
研究背景与动机¶
领域现状:最大熵强化学习(如 SAC)将熵奖励直接加入优化目标,已成为连续控制的主流范式;在 LLM RL(GRPO 等)中,维持策略熵以防止探索崩溃同样是核心挑战。
现有痛点:① 将熵 bonus 加入损失函数会扭曲主目标的优化景观,二者相互干扰,导致 SAC 在高维人形机器人任务上表现欠佳;② LLM 对齐中直接加熵 bonus 不稳定,KL-Cov/Clip-Cov 等启发式方法缺乏理论保证,且仅适用于离策略设定;③ 先前的投影方法(均匀混合)对所有维度施加相同正则化,在高维动作空间中扩展性差。
核心矛盾:熵约束与主目标优化耦合在一起——一旦把熵项写进损失,主目标梯度就被污染。
本文目标:设计一种与领域无关、无侵入、有理论保证的熵约束范式,完全解耦熵约束与主目标。
核心 idea:不修改损失函数,而是在网络的最后一层输出上施加一个专门设计的激活函数 \(g(\cdot)\),将裸输出的分布参数 \(z\) 变换为 \(z' = g(z)\),使变换后的策略 \(\pi_{z'}\) 的期望熵满足 \(\mathbb{E}_{s}[H(\pi_{\theta}(\cdot|s))] \geq H_0\),从而在架构层面内建熵下界。
方法详解¶
整体框架¶
ERA 定义了一个通用的输出激活框架:对于参数化策略 \(f_\theta(s)\) 输出分布参数 \(z\),在最后一层之后插入激活 \(g: \mathcal{Z} \to \mathcal{Z}\),得到 \(z' = g(z)\),最终策略为 \(\pi_\theta(\cdot|s) = \pi_{g(f_\theta(s))}(\cdot|s)\)。\(g(\cdot)\) 的设计保证熵下界,同时对主目标损失完全透明——损失函数中不需要出现任何熵项。ERA 为连续空间(有界高斯策略)、离散空间(Softmax 策略)和 LLM RL(GRPO)分别给出具体实例化。
flowchart LR
A[策略网络 f_θ] --> B[裸输出 z]
B --> C{ERA 激活 g}
C -->|z' = g(z)| D[变换后分布参数]
D --> E[动作采样/分类/token 生成]
D --> F[满足 H(π) ≥ H₀]
G[主目标损失<br/>无熵项] --> A
关键设计¶
1. 连续控制:基于有界高斯的熵下界激活
连续控制中策略通常对高斯采样后施加 \(\tanh\) squash 或截断操作。有界策略的熵等于原始高斯熵减去一个非负偏置项:\(H_\pi = H_\text{Gaussian} - \mathbb{E}[\text{bias}]\)。因此,对最终策略施加熵下界 \(H_0\) 等价于对底层高斯标准差施加更高的约束。ERA 通过如下激活函数同时满足熵下界 \(H_0\) 和标准差范围约束 \([\sigma_\text{min}, \sigma_\text{max}]\):
其中 \(H'_0 = H_0 + \hat\delta\) 是目标熵加上对 bounding bias 的补偿项(\(\hat\delta\) 可固定或通过辅助损失 \(\mathcal{L}(\hat\delta) = \mathbb{E}_s[\hat\delta(H[\pi(\cdot|s)] - H_0)]\) 自动学习)。由于熵约束已内建于激活,SAC 的 actor/critic 目标可直接去掉熵项,策略专注于最大化奖励。
2. 离散分类:Softmax 熵下界激活
对于 Softmax 策略的分类任务,ERA 将预激活 logit \(z\) 变换为 \(z'\),使输出分布熵不低于 \(H_0\):
其中 \(\hat{h}^{-1}(x) \approx -\frac{1}{4} - \sqrt{2(-1-\ln x)} + \frac{3}{4}\ln x\),\(C_{H_0} = e^{H_0 - 1}\),\(\tau \geq e\) 为固定超参。与标签平滑相比,ERA 是输入依赖的自适应正则化,而非全局均匀平滑,表达能力更强。
3. LLM RL:基于 forking token 的后采样激活
LLM 中动作空间极大,大多数 token 接近确定性;对所有 token 强制高熵会破坏语言结构。ERA 的 LLM 实例化在采样后的模型更新阶段工作,仅对具有最高熵的 top-20% "forking token" 的 logit 施加激活:
\(k > 1\),\(H_\text{resp}\) 为该 response 内 top-20% 高熵 token 的平均熵,\(\omega_\text{low}/\omega_\text{high}\) 为上下界阈值。熵过低时锐化(\(kz\))使模型"感知"自己在过度利用从而促进探索;熵过高时平坦化(\(\frac{1}{k}z\))避免无效发散。同时对修改 token 的 advantage 施加对应缩放 \(A'_t\),平衡修改与未修改 token 的梯度幅度。该设计兼容在策略设定(无需重要性采样比或 KL loss),且推理时策略不变。
4. 理论保证
三种实例化均附有严格的熵下界证明(附录 B.1~B.3):激活函数 \(g(\cdot)\) 的构造保证了变换后分布参数对应的策略期望熵满足 \(\mathbb{E}_s[H(\pi_\theta(\cdot|s))] \geq H_0\),这是先前启发式方法(clip-higher、KL-Cov 等)所不具备的性质。
实验关键数据¶
主实验¶
连续控制(归一化得分,aggregated IQM):
| 任务集 | 算法 | Baseline | ERA-Augmented | Δ |
|---|---|---|---|---|
| HumanoidBench (6 tasks) | SAC | 0.59 | 0.84 | +42% |
| DMC Dog & Humanoid (6 tasks) | TD-MPC2 | 0.57 | 0.88 | +54% |
| HumanoidBench (8 tasks) | FastSAC | 0.56 | 0.81 | +45% |
| MuJoCo Gym (4 tasks) | PPO | 0.63 | 0.82 | +30% |
LLM 推理(Qwen2.5-Math-7B,avg.@16):
| 基准 | GRPO | ERA | Δ |
|---|---|---|---|
| AIME'24 | 34.4 | 36.0 | +4.7% |
| AIME'25 | 12.3 | 21.0 | +70.7% |
| AMC'23 | 69.5 | 76.6 | +10.4% |
| MATH500 | 80.6 | 85.4 | +6.0% |
| Minerva | 36.8 | 40.1 | +9.0% |
| OlympiadBench | 40.6 | 46.8 | +15.3% |
| 平均 | 45.7 | 51.0 | +11.6% |
图像分类(ResNet-50,ImageNet Top-1):
| 设置 | Baseline | ERA | Δ |
|---|---|---|---|
| 无数据增强 | 74.75 | 75.44 | +0.69% |
| 有数据增强 | 76.93 | 77.30 | +0.37% |
消融实验¶
| 配置 | 指标 | 说明 |
|---|---|---|
| SAC-ERA(不同熵目标 \(H_0\)) | IQM 始终优于 SAC | 对熵目标超参不敏感,无需精细调参 |
| SAC w/o 熵项(但无 ERA) | 低于 SAC-ERA | 去掉熵 bonus 不足,需 ERA 保证探索下界 |
| Qwen2.5-Math-1.5B + ERA vs GRPO | avg +14.1% | 泛化到更小模型 |
| GSPO + ERA vs GSPO(7B) | avg +6.9% | 与不同 RL 算法兼容 |
| ImageNet,不同 \(H_0\) | Top-1 保持稳定 | 对熵超参鲁棒 |
关键发现¶
- ERA 始终将策略熵维持在非零下界,而 GRPO baseline 出现典型的 entropy collapse;熵稳定与推理性能提升高度相关。
- 在 HumanoidBench 这类高维任务上提升尤为显著(>30%),因为这些任务对探索质量最敏感。
- ERA 计算开销 <7%,可直接叠加在已有算法上,无需改变其他组件。
亮点与洞察¶
- 解耦思路干净:把熵约束从损失函数移到网络架构(激活函数),是一个概念上非常优雅的迁移——primary loss 专注奖励最大化,熵保证由结构承担。
- 理论支撑扎实:三种场景均有严格的熵下界证明,区别于此前的经验性启发方法。
- 跨域统一:同一范式覆盖连续控制、离散分类、LLM RL 三个看似不同的领域,揭示了"输出分布熵控制"的通用性。
- 对超参鲁棒:实验表明在较宽的 \(H_0\) 范围内性能稳定,减轻了调参负担。
- 与现有方法互补:在已有数据增强、标签平滑的基础上仍有提升,说明 ERA 填补的是不同的正则化空白。
局限与展望¶
- LLM 实例化的 \(\omega_\text{low}/\omega_\text{high}/k\) 等超参仍需针对不同模型手动设置,自动化调参机制有待研究。
- forking token 的 top-20% 截断是启发式选择,更细粒度的 token 重要性估计可能进一步提升效果。
- 目前只在数学推理任务上验证了 LLM 性能,是否推广到代码生成、多模态等任务尚未探索。
- 对于多智能体或部分可观测场景,熵约束的适配方式还需进一步研究。
相关工作与启发¶
- vs SAC(最大熵 RL):SAC 将熵 bonus 写入 Q-target 和 actor loss,ERA 完全移除这两项熵项,用激活取代,在高维任务上优势明显。
- vs Akrour et al. (2019)/Otto et al. (2021)(投影方法):同属"不修改目标函数"的思路,但其均匀混合(各维度等同正则化)在高维空间扩展性差;ERA 通过 softmax 加权实现维度感知的梯度引导。
- vs KL-Cov/Clip-Cov(LLM 熵控制):这些方法依赖重要性采样比,仅适用于离策略,且无理论下界;ERA 兼容在策略设定且有证明。
- vs 标签平滑(分类正则化):标签平滑是全局均匀的固定正则化;ERA 是自适应的、输入依赖的,具有更强的表达能力。
评分¶
- 新颖性: ⭐⭐⭐⭐ 输出激活实现熵约束的视角新颖,且统一了三个不同领域,泛化性强
- 实验充分度: ⭐⭐⭐⭐ 覆盖连续控制(5种算法/多环境)、LLM 推理(6基准/2模型/2算法)、图像分类,消融详尽
- 写作质量: ⭐⭐⭐⭐ 动机清晰,理论与实验结合紧密,公式推导完整
- 价值: ⭐⭐⭐⭐ 轻量(<7% overhead)、即插即用、有理论保证,工程落地价值高