ICLR 2026 LLM对齐在线对齐离线对齐前景理论感知损失 GRPO DPO KTO 拒绝采样剪裁

Humanline: Online Alignment as Perceptual Loss¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FONB5dIxSB
代码: 待确认
领域: LLM 对齐 / 偏好优化
关键词: 在线对齐, 离线对齐, 前景理论, 感知损失, GRPO, DPO, KTO, 拒绝采样, 剪裁

一句话总结¶

本文用行为经济学的前景理论解释"在线对齐为何强于离线对齐"——在线 on-policy 采样更接近人类对模型输出的主观感知分布，而 PPO/GRPO 的剪裁恰好隐式恢复了这种感知偏差，因此它们本质上已是"感知损失"；据此提出一个把感知失真显式注入 DPO/KTO/GRPO 的设计范式（humanline 变体），让离线 off-policy 数据也能匹配在线性能，同时训练快达 6×。

研究背景与动机¶

领域现状：后训练对齐分两类——离线 off-policy（DPO、KTO，闭式损失、数据静态、便宜稳定）与在线 on-policy（PPO、GRPO，边训边采样边打分）。近年共识是在线方法性能天花板更高，但代价是更多算力、更长训练时间和更强不稳定性。
现有痛点：业界只知道"在线更好"，解释却众说纷纭——数据覆盖更全、强调生成而非判别、策略搜索空间更简单等。这些解释都根植于 RL 理论，但都没回答一个更根本的问题：如果目标是最大化模型对人类的效用，在线/离线这个二分本身是否真的重要？
核心矛盾：在线采样反映的是策略"字面上能产出什么"，而非"人类感知它能产出什么"。人会系统性高估极端结果、低估典型结果（前景理论）——所以连在线 on-policy 数据本身都不是最优的。
本文目标：给出一个以人为中心的统一解释，并据此打破"必须用在线数据"的束缚，让数据可以来自任何地方（在线/离线/on-policy/off-policy），只要使用方式模仿人类感知即可，从而让后训练更快、更便宜、更灵活。
核心 idea：【感知损失视角】 把对齐看成"在人类主观感知分布上"做优化；【剪裁=感知偏差】 证明 PPO/GRPO 的剪裁是前景理论加权函数的一个特例；【humanline 设计范式】 用"参考模型同步 + 非对称剪裁"两步，把感知失真显式注入任意带参考模型的对齐目标。

方法详解¶

整体框架¶

本文先在理论上把对齐重述为"前景理论效用最大化"：输出 \(y\) 的"结果"被定义为 surprisal \(z_{x,y}=\log[\pi_\theta(y|x)/\pi_{\text{ref}}(y|x)]\)（单位是 nats），人类对这些结果的主观感知由前景理论的价值函数 \(v\) 和加权函数 \(\omega\) 刻画。论文证明：要逼近人类主观效用，最直接的办法就是按主观分布采样——而在线 on-policy 采样恰好比离线 off-policy 更接近这个分布。接着把"按主观分布采样"实现为一种 token 级拒绝采样（humanline sampling），并证明 PPO/GRPO 的剪裁是它的极限特例。最后把理论落地成一个工程化的设计范式：humanline syncing + humanline clipping。

flowchart LR
    A[前景理论<br/>价值函数v+加权函数ω] --> B[结果=surprisal<br/>log πθ/πref]
    B --> C[人类主观分布<br/>倒S形capacity曲线]
    C --> D[humanline sampling<br/>token级拒绝采样]
    D -->|极限特例| E[PPO/GRPO剪裁<br/>=感知损失]
    D -->|工程落地| F[humanline变体]
    F --> G[① Syncing 每k步同步ref]
    F --> H[② Clipping 非对称剪裁ratio]

关键设计¶

1. 前景理论解释在线优于离线：感知分布是那条倒 S 曲线。 前景理论指出人对概率的感知由 capacity 函数 \(\Omega^+(a;\gamma)=a^\gamma/(a^\gamma+(1-a)^\gamma)^{1/\gamma}\) 扭曲（\(\gamma\in(0,1)\) 时呈倒 S 形，高估极端、低估典型）。把它套到生成模型上，作者论证在线 on-policy 采样得到的隐含 capacity 曲线（虚线）能松散地贴合人类感知曲线（实线），而离线 off-policy 会显著偏离：用比当前策略差的模型采样，输出 surprisal 偏低，隐含曲线饱和过快；用比当前策略好的模型采样则饱和过慢。Proposition 3.4 进一步给出界——只要候选分布 \(Q\) 与感知权重 \(\omega\) 的 KL 足够小（\(\sqrt{\text{KL}(\omega\|Q)}\le\delta/(\sqrt2\|v\|_\infty)\)），就能保证主观效用逼近。这把"在线为何更好"翻译成了一句话：它离人类感知分布更近。

2. humanline sampling：用拒绝采样模拟人类感知分布。 既然拿不到任何人的真实感知分布，就改造标准拒绝采样去模拟前景理论里的那个分布。Proposition 4.1 给出单边判据：当 \(\pi_\theta(y_t)/\pi_{\text{ref}}(y_t)<M'_\theta B\)（\(B\sim\text{Beta}(\gamma,1)\)）时拒绝该 token。但训练中直接拒绝会带来三个工程问题——在线时参考/策略都在变、只重采被拒 token 会破坏序列连贯性、置零被拒 token 会扰乱 KTO 这类序列级损失的饱和动态。为此作者给出双边版定义（公式 5）：当 \(\frac{\pi_\theta(y_t)}{\pi_{\text{ref}}(y_t)}<M_P B_P\) 或 \(\frac{\pi_{\text{ref}}(y_t)}{\pi_\theta(y_t)}<M_R B_R\) 时，不删除 token 而是把它从计算图里 detach（停止梯度），既保住序列完整又不让被拒 token 影响 \(\theta\) 更新。\(\gamma_P,\gamma_R\) 还隐式控制探索-利用权衡（\(\gamma_P<\gamma_R\) 偏利用）。

3. 剪裁恢复感知偏差：PPO/GRPO 本就是感知损失。 Theorem 4.3 证明 PPO/GRPO 的剪裁项是 humanline sampling 在极限条件下的特例——存在一种构造使得"从 Beta 分布采样"退化为"确定性地取其均值"，于是两条单边判据合并成一个区间，正好对应剪裁的 \([1-\epsilon,1+\epsilon]\) 范围，区间外梯度为零（剪裁靠导数为零，humanline 靠显式停梯度）。这就给了"剪裁原本只为稳定训练、却意外恢复了人类感知偏差"一个理论解释。但 PPO/GRPO 的未剪裁分量仍让区间外比率影响梯度，要更彻底地注入这个偏差，得在损失上游就剪裁比率。

4. humanline 设计范式：syncing + clipping 两步落地。 把上述理论变成可加到任意带参考模型目标（DPO/KTO/GRPO）上的两步改造。① humanline syncing：每 \(k\) 步在算完损失、优化器更新前，把 \(\pi_{\text{ref}}\) 同步成 \(\pi_\theta\)（图 3）；因为 surprisal 的"标尺"参考模型必须随策略漂移而更新，\(k\) 越小性能越好但越不稳。② humanline clipping：在 token 级比率 \(\pi_\theta(y_t)/\pi_{\text{ref}}(y_t)\) 喂进损失之前就把它剪裁到可非对称的 \([\epsilon_P,\epsilon_R]\)（在 log 空间剪以保精度），像 GRPO 这种本就剪裁的目标会被剪两次。相比 §4 的 humanline sampling，clipping 更快（不分配新张量）、超参更少、更稳定且性能相当，所以最终落地用 clipping。该变体既能配在线数据（online+humanline）也能配离线数据（offline+humanline）；没有参考模型的目标（如 SimPO）无法构造 humanline 变体。

实验关键数据¶

主实验：指令遵循（不可验证奖励）¶

Llama3-8B-Instruct 在 UltraFeedback ArmoRM 上对齐，AlpacaEval2 长度控制胜率（GPT-4.1 当裁判）：

目标	offline → online 提升	offline+humanline
DPO	+1.4×	与 online 持平
KTO	+1.3×	与 online 持平
GRPO	+1.6×	与 online 持平

offline+humanline 显著优于 offline（\(p<0.05\)）并与 online 持平；其中 humanline GRPO 比 offline GRPO 好 1.6×。
online+humanline 仅略好于 online（符合理论：在线数据本就离感知分布近，边际收益小）。
offline+humanline GRPO 训练比 online 快 6× 以上且性能相当（online GRPO 是 offline 的 12× 墙钟时间）；提升在 27B 规模和不同模型家族上依然成立。

数学推理（可验证奖励）¶

Qwen2.5-1.5B-Instruct 在 MATH500 上对齐：

设置	表现
online GRPO（每步采样）	Pass@1 = 0.593 ± 0.019
64× 更稀疏采样 + 普通 GRPO	显著变差（\(p<0.05\)）
64× 更稀疏采样 + humanline GRPO	1000 步内追平，1600 步 Pass@1 = 0.593 ± 0.019

humanline GRPO 允许采样频率降低 64×而无性能损失；剪裁范围沿用 \(\log\epsilon_P=-1.5,\log\epsilon_R=1.5\)，是跨任务的强默认值。
同步太频繁（\(k=1\)）会导致奖励崩溃；\(k\in[12,24]\) 既追平在线又避免崩溃。

消融实验¶

移除项	效果
去 humanline syncing	退化到接近 offline 水平（最关键成分）
去 humanline clipping	仍无法追平 online（syncing 单独不够）
humanline sampling vs clipping	性能相当，但 clipping 更稳更简单

关键发现¶

syncing 贡献了大部分提升，但 clipping 是闭合最后差距的必要补充；\(k=4\) 仍无性能损失。
数据质量仍然重要：输出在 \(\pi_{\text{ref}}\) 下（训练前）的平均 token log-prob 是离线数据是否"够好"的良好代理；最低四分位（\([-1.03,-0.36]\)）的数据训练效果显著更差。
humanline 变体不需改方法专属超参，但学习率/最大梯度范数需按情况调 0.1×–4×。

亮点与洞察¶

跨学科解释力：用前景理论给"在线 vs 离线"这个纯工程经验现象一个以人为中心的统一解释，与既有 RL 理论解释互补而非冲突。
"剪裁本是感知损失"是个漂亮的事后顿悟：PPO/GRPO 剪裁原本只为稳定训练，却被证明恰好恢复了前景理论的概率扭曲，把工程 trick 升格为理论必然。
解耦数据来源与性能：核心论点"在线/离线二分是 incidental 的，关键是数据是否反映人类感知分布"具有方法论意义——它把对齐从"必须在线采样"的算力枷锁中解放出来。
工程上极轻量：syncing + clipping 都是几行改动，可即插即用到 DPO/KTO/GRPO，6× 加速且不掉点，落地性强。

局限与展望¶

offline+humanline 能匹配 online 仍是经验规律而非形式保证；除平均 token log-prob 外，还有哪些指标能量化"好数据"，以及是否存在必须在线 on-policy 的场景，都待研究。
前景理论源于货币情境，作者假设其形状能平移到生成模型的大输出空间，这一假设无理论保证（在大词表上实测人类感知偏差不可行）；发展专门面向生成模型的人类概率感知理论是重要方向。
系统层面尚未量化"训练/推理/打标完全异步重叠"能带来多大收益；同步成本能否降低（如只同步部分权重）、\(\gamma\) 是否应个性化，都是开放问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用前景理论给出在线优于离线的全新解释，并证明剪裁=感知偏差，视角极具原创性。
实验充分度: ⭐⭐⭐⭐ 覆盖可验证/不可验证两类任务、三种目标、多规模多模型家族，消融完整；但数学推理仅用了 1.5B 小模型。
写作质量: ⭐⭐⭐⭐⭐ 理论铺陈层层递进、图示清晰、把抽象前景理论讲得直观易懂。
价值: ⭐⭐⭐⭐⭐ 让离线数据匹配在线性能且快 6×、采样稀疏 64×，对降低后训练成本有直接且广泛的实用价值。