Stackelberg Learning from Human Feedback: Preference Optimization as a Sequential Game¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=vc9Tj11LNE
代码: 无
领域: 对齐RLHF
关键词: 偏好优化, Stackelberg 博弈, 非传递偏好, 推理时精炼, 序贯博弈

一句话总结¶

本文把 LLM 偏好对齐重新建模成一个"领导者—跟随者"的序贯博弈（SLHF）：领导者先承诺一个回答、跟随者在看到这个回答后再给出改进版，由此天然得到一个确定性、对非传递偏好鲁棒的均衡，并支持推理时无需训练的迭代自我精炼，在 0.5B–8B 模型上一致超过 RLHF（RLOO）与 NLHF（Nash-MD-PG）基线。

研究背景与动机¶

领域现状：用人类偏好对齐 LLM 的主流是 RLHF——先在成对比较数据上训一个标量奖励模型（通常假设 Bradley-Terry 模型 \(p(y\succ y'\mid x)=\sigma(r(x,y)-r(x,y'))\)），再用 RL 最大化这个奖励。近年 NLHF 提出绕开奖励模型，把偏好优化写成两个策略之间的同时出招博弈，用 Nash 均衡作为解。

现有痛点：RLHF 把"偏好"压缩成一个实值奖励，这个标量假设在实践中经常失败——多人聚合后的偏好常出现非传递的循环（\(A\succ B\succ C\) 但 \(C\succ A\)），标量奖励根本表达不了这种结构，甚至在传递偏好下也可能错排；更糟的是，最优策略对训练集里"采样了哪些比较对"高度敏感，换一种采样就给出不同答案。NLHF 虽然不假设传递性、对数据分布不敏感，但当没有任何动作被多数偏好时，Nash 均衡必然是混合策略（在 Condorcet 悖论下退化成均匀分布），输出带有内在随机性，在需要确定、可靠回答的场景里并不理想。

核心矛盾：两条路线各自牺牲了一样东西——RLHF 牺牲了对非传递偏好的表达力与数据鲁棒性；NLHF 为了处理循环偏好被迫接受随机的混合策略。两者都用单一策略去对抗一个不可观测、非平稳的对手，学习不稳定。

本文目标：找到一个解概念，既能直接在成对偏好上优化、对非传递循环鲁棒、不依赖标量奖励，又能给出确定性的策略，还能利用"反复采样"在推理时持续改进输出。

切入角度：作者注意到 Nash 博弈的随机性来自"同时出招"的对称性——双方都看不到对方的实际动作。如果改成序贯出招（Stackelberg 博弈），让第二个玩家先看到第一个玩家已经落地的动作，再做最优回应，这种信息不对称就能打破对称、产生确定性最优回应。

核心 idea：把偏好优化从"单策略对抗"改写成"领导者承诺 + 跟随者条件精炼"的序贯博弈，用 Stackelberg 均衡替代 Nash 均衡。

方法详解¶

整体框架¶

SLHF 把对齐问题拆成两个角色玩的一场序贯博弈。给定上下文（prompt）\(x\)，领导者（Leader） 策略 \(\pi\) 先采样一个动作 \(y\sim\pi(\cdot\mid x)\) 并"承诺"它；跟随者（Follower） 策略 \(\omega\) 同时观测到上下文 \(x\) 和领导者已落地的动作 \(y\)，再给出回应 \(y'\sim\omega(\cdot\mid x,y)\)。注意跟随者条件在实际动作 \(y\)（而非领导者的策略 \(\pi\)）上，这是它比标准 Stackelberg 设定多拿到的信息。两个动作交给一个成对偏好模型 \(p(y\succ y'\mid x)\) 评判胜负。整个目标写成一个 max-min 序贯博弈：

\[\max_{\pi\in\Pi}\ \min_{\omega\in\Omega}\ \mathbb{E}_{x\sim\rho}\Big[\mathbb{E}_{y\sim\pi(\cdot|x)}\big[\mathbb{E}_{y'\sim\omega(\cdot|x,y)}[p(y\succ y'\mid x)]+\tau^F\mathrm{KL}_{x,y}(\omega\|\omega_{\mathrm{ref}})\big]-\tau^L\mathrm{KL}_x(\pi\|\pi_{\mathrm{ref}})\Big]\]

这把优化拆成两个互补的子问题：跟随者解的是一个精炼问题（对一个已知输出找最优回应，对手是固定的、问题是平稳的），领导者解的是一个对抗鲁棒问题（预判到跟随者会改进，于是选一个"即使被改进后仍然强"的初始动作）。训练用 STACKELBERGGDA 双时间尺度梯度算法逼近均衡，推理则复用同一套机制做迭代精炼。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["prompt x"] --> B["序贯博弈建模<br/>Leader 承诺 y → Follower 条件精炼 y′"]
    B --> C{"偏好模型 p(y≻y′) 评判胜负"}
    C --> D["Stackelberg 均衡<br/>确定性·对非传递偏好鲁棒"]
    D -->|两时间尺度近似| E["STACKELBERGGDA<br/>η_F&gt;η_L + Leader/Follower 共享参数"]
    E -->|推理时复用| F["迭代精炼<br/>yᵢ ∼ ω(·|x, yᵢ₋₁)"]

关键设计¶

1. 序贯博弈建模：用"承诺—精炼"两角色替代单策略对抗

针对 RLHF/NLHF 用单一策略去对抗非平稳对手、学习不稳定的痛点，SLHF 引入信息不对称的序贯结构。领导者先出 \(y\)，跟随者在观测到这个实际动作后再出 \(y'\)，于是跟随者面对的不再是一个会随训练漂移的对手分布，而是"给定一个已知输出，找能击败它的最佳回应"这样一个平稳的最优回应问题——学习更稳、对领导者策略变化的适应更快。反过来，跟随者越快收敛，给领导者的反馈就越平稳，领导者就越能准确预判精炼结果、选出鲁棒的初始动作。目标函数式 (5) 中 \(\tau^L,\tau^F\ge0\) 是两方各自相对参考策略 \(\pi_{\mathrm{ref}},\omega_{\mathrm{ref}}\) 的 KL 正则系数；无正则（\(\tau^L=\tau^F=0\)）时它就是一个序贯出招的常数和博弈。这与 RLHF（标量奖励）和 NLHF（同时出招）的根本区别在于：它直接在成对偏好 \(p\) 上优化，且靠"谁先动、谁能看到对方动作"的非对称性去捕捉更丰富的偏好结构。

2. Stackelberg 均衡：确定性、唯一、对非传递偏好鲁棒

NLHF 的 Nash 均衡在循环偏好下必然是混合策略，输出随机。SLHF 的解概念则不同。命题 1 证明：当 \(\tau^L,\tau^F>0\) 且 \(\pi_{\mathrm{ref}}(y\mid x)>0\) 时，式 (5) 存在唯一解 \((\pi^\star,\omega^\star)\)，称为 Stackelberg 均衡。其关键性质是：由于跟随者总存在一个确定性的最佳回应（对任意 \(y\) 都能挑出击败它的 \(y'\)），领导者随机化没有任何好处，因此在无正则极限下 \((\pi^\star,\omega^\star)\) 可以是确定性的。在经典的 Condorcet 悖论（三个动作 \(A,B,C\) 两两循环、不存在 Condorcet 胜者）里，这套机制把循环"解开"了：跟随者的最优策略就是沿环走最佳回应（\(y=A\Rightarrow y'=C\)，\(y=B\Rightarrow y'=A\)，\(y=C\Rightarrow y'=B\)），领导者则预判到这点、挑出"最不易被剥削"的动作（当某类标注者占比 \(\alpha_i\) 最大时确定性地选对应动作）。相比之下，RLHF 在这里的解依赖数据集里采样了哪些比较对（缺 \(\{A,C\}\) 就会偏向 \(A\)），NLHF 则给出均匀随机策略。

3. STACKELBERGGDA：双时间尺度梯度上升下降 + 领导者/跟随者共享参数

直接在策略空间上求 max-min 在大动作空间不可行，本文提出 STACKELBERGGDA 来逼近均衡。它对领导者做梯度上升、对跟随者做梯度下降，每步后投影回各自的概率单纯形：\(\pi_{i+1}=\pi_i+\eta^L\nabla_\pi f\)，\(\omega_{i+1}=\omega_i-\eta^F\nabla_\omega f\)。关键是双时间尺度——取 \(\eta^F>\eta^L\)（记 \(\kappa=\eta^F/\eta^L\)，实验最优 \(\kappa=5\)），让跟随者比领导者更新得更快，从而给领导者提供更平稳的反馈；这一选择借鉴了 Actor-Critic 与 GAN（TTUR）的经验，并在非凸-凹 regime 下有更强收敛保证。目标 \(f\) 在 \(\pi\) 上凹、在 \(\omega\) 上凸，因而 GDA 有遍历（ergodic）收敛性。落到 LLM 微调时还有一个省内存的巧设计：领导者和跟随者共用同一套参数——用一个 prompt 模板把它们写成多轮对话，领导者是"回答 user 的 prompt"，跟随者则在多接一句"Improve the previous answer!"后续写改进版，于是任何多轮对话模型都能同时当 \(\pi_{\mathrm{ref}}\) 和 \(\omega_{\mathrm{ref}}\)。整个过程是在线 RL 优化，既不需要显式奖励模型，也不需要对混合策略做昂贵采样。

4. 推理时迭代精炼：无需训练的 pass@k 式自我改进

训练时偏好是跨标注者聚合的群体偏好，但部署时要对齐的是单个用户的口味，两者可能不一致。SLHF 的序贯结构天然支持在推理时无额外训练地适配：先从领导者采一个初始回答 \(y_1\)，之后每一步都把上一步的输出喂回跟随者继续精炼 \(y_i\sim\omega^\star(\cdot\mid x,y_{i-1})\)，得到一串逐步改进的回答，类似可验证领域里的 pass@k——用户可以不断重采样直到拿到满意的那个。在 Condorcet 悖论里这一过程会遍历整个偏好环：以 \(\alpha_1=\alpha_2=\alpha_3=1/3\) 为例，对某个偏好 \(A\succ B\succ C\) 的用户，NLHF 单次采到 \(A\) 的概率是 \(1/3\)、\(N=2\) 步累计 \(56\%\)，而 SLHF 因为跟随者沿环精炼，\(N=2\) 步采到 \(A\) 的概率升到 \(67\%\)、\(N=3\) 步无论领导者初始选什么都能走遍整个环。关键是这一切只靠推理时计算，不需要任何额外训练或外部反馈，且实验显示这个跟随者能跨模型迁移，去改进其他独立训练模型的输出。

损失函数 / 训练策略¶

训练目标即式 (5) 的 max-min 序贯博弈目标，用 STACKELBERGGDA 双时间尺度 GDA 优化。实现基于 Transformers + TRL，AdamW 优化器；小规模实验从 QWEN2.5-0.5B 微调，跑 1000 步、batch \(B=32\)，学习率 \(\eta\in\{1\mathrm{e}{-6},5\mathrm{e}{-6},1\mathrm{e}{-5}\}\)、KL 系数 \(\tau\in\{0.001,0.01,0.1\}\)、\(\kappa\in\{1,5,10\}\)，最优为 \(\eta=1\mathrm{e}{-5},\tau=0.001,\kappa=5\)。

实验关键数据¶

主实验¶

小规模在 HELPSTEER2（11,826 条人工标注单轮对话，沿五个属性估计出带非传递性的偏好模型 \(p\)）上训练，与 RLOO（RLHF 代表）、NASH-MD-PG（NLHF 代表）做循环赛。下表每格为行算法相对列算法的平均偏好得分（>0.5 表示更受偏好）：

算法（行优于列）	优于 QWEN2.5-0.5B	优于 RLOO	优于 NASH-MD-PG
NASH-MD-PG	0.721	0.607	—
STACKELBERGGDA-LEADER	0.734	0.613	0.503
STACKELBERGGDA-FOLLOWER	0.800	0.656	0.594

领导者与 Nash-MD-PG 大致打平（约 73% 胜过基座、61% 胜过 RLOO，两者互相约 50%），印证了"存在多个高质量回答时 Stackelberg 与 Nash 均衡重合"；而跟随者在领导者基础上再精炼一步带来显著增益——甚至以 60.5% 的比例胜过它所条件的领导者输出本身，即只多花一次生成就换来实质提升。

大规模上，用 STACKELBERGGDA 训练 LLAMA-3.1-TULU-3-8B-SFT（Skywork-Critic-70B 提供成对反馈），在 AlpacaEval 2.0 / IFEval 上评测：

模型	AlpacaEval 2.0 LC Winrate	IFEval Prompt Loose Acc.
LLAMA-3.1-TULU-3-8B-SFT（基座）	8.83	67.46
LLAMA-3.1-TULU-3-8B-DPO	33.37	75.23
STACKELBERGGDA-LEADER	35.04	71.71
STACKELBERGGDA-FOLLOWER	44.57	61.92

跟随者把 AlpacaEval 2.0 LC 胜率从基座 8.83 拉到 44.57，超过同规模的 DPO（同基座同 prompt 但用前沿模型补全），只在 GEMMA-2-9B-IT 之下；代价是作为跟随者时上下文变长导致 IFEval 掉点（67.46→59.89）。

消融实验¶

配置	关键结果	说明
STACKELBERGGDA 当跟随者改进各种领导者	对所有领导者一致提升（Table 4，最高约 0.60）	显式训练"改进给定输出"才有用
QWEN2.5-0.5B / RLOO 当跟随者	仅能改进自家输出，常降低其他模型质量	纯指令提示不足以可靠精炼
NASH-MD-PG 当跟随者	能改 QWEN/RLOO，但 70% < 自身 73% 自改进率	未专门训练精炼，能力受限
双时间尺度系数 \(\kappa\)	最优 \(\kappa=5\)（Sec. D.3）	\(\eta^F>\eta^L\) 是有效性来源

关键发现¶

跟随者是性能主力：领导者只与 Nash 策略打平，真正拉开差距的是跟随者的一步精炼，且能跨模型族迁移（去改进 RLOO、Nash-MD-PG 乃至自身输出）。
"显式训练改进"不可替代：只靠 prompt 让模型"改进上一条回答"在偏好维度上不可靠，甚至会变差；必须像 SLHF 一样把"精炼"作为训练目标，这把可验证领域的自纠错结论推广到了人类偏好领域。
AlpacaEval 与 IFEval 的取舍：SLHF 在更贴近人类偏好的 AlpacaEval 2.0 上大幅领先，但跟随者上下文变长会拖累可验证指令跟随（IFEval），作者指出可再用可验证奖励的 RL 找回。

亮点与洞察¶

用"谁先动"破解随机性：把同时博弈改成序贯博弈，靠信息不对称（跟随者能看到领导者的实际动作）就把 NLHF 必然的混合策略变成可确定的最佳回应，这是非常干净的博弈论洞察。
一套参数兼任两角色：用 prompt 模板（"Improve the previous answer!"）让 Leader/Follower 共享参数、写成多轮对话，既省显存又让任何多轮模型都能直接当参考策略，工程上很优雅。
训练目标 = 推理能力：因为跟随者本就被训练成"改进一个已知输出"，推理时的迭代精炼是同一机制的自然延伸，不需要额外训练就实现 pass@k 式自我改进，且能迁移到别人的输出上——"训练即推理"这一设计可迁移到其他需要测试时改进的任务。

局限与展望¶

依赖良好规约的成对偏好函数：和 NLHF 一样，整套方法建立在一个能代表目标偏好的成对偏好模型上，在开放/欠定域里这个 \(p\) 很难可靠获得。
精炼仍非实时交互：序贯结构支持迭代精炼，但目前是离线条件生成，没有真实用户的实时反馈回路；作者提出未来可结合主动偏好诱导与个性化，在测试时动态适配单个用户。
只有遍历收敛、无末迭代保证：STACKELBERGGDA 目前只有 ergodic 收敛而非 last-iterate 收敛，作者建议用 extragradient/optimistic 或 mirror-prox 等方向去拿到末迭代保证。
跟随者上下文变长伤害可验证指令跟随：IFEval 掉点提示该框架与 verifiable reward 的融合还需进一步设计。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把对齐重写成序贯 Stackelberg 博弈，用确定性均衡统一处理非传递偏好与推理时精炼，是干净且原创的解概念。
实验充分度: ⭐⭐⭐⭐ 从 0.5B 到 8B、循环赛 + 跨模型精炼 + 大规模后训练都覆盖，但代码未开源、基准略偏 AlpacaEval/IFEval 两项。
写作质量: ⭐⭐⭐⭐⭐ 理论（命题/均衡性质）与实证衔接清晰，Condorcet 悖论的三方案对比讲得很透。
价值: ⭐⭐⭐⭐ 提供了无奖励模型、对非传递偏好鲁棒且自带推理时改进的对齐新范式，跟随者可迁移这点尤其实用。