跳转至

Team-Based Self-Play With Dual Adaptive Weighting for Fine-Tuning LLMs

会议: ACL 2026
arXiv: 2605.09922
代码: https://github.com/lab-klc/TPAW
领域: 自监督 / LLM 对齐
关键词: 自博弈微调、历史 checkpoint、偏好优化、自适应加权、LLM 对齐

一句话总结

TPAW 将 LLM 自训练改造成“当前模型与历史模型组队博弈”的对齐过程,并用目标响应权重与主玩家权重两套自适应机制稳定偏好优化,在不额外引入人工偏好标注的情况下提升 Open LLM Leaderboard 与 GSM8K 表现。

研究背景与动机

领域现状:LLM 对齐通常依赖 SFT、RLHF 或 DPO。SFT 需要高质量示范数据,RLHF 需要奖励模型和人工偏好,DPO 虽然省掉显式奖励模型,但仍然需要偏好对。为了降低人工标注成本,SPIN 等 self-play / self-training 方法开始利用已有 SFT 数据,让模型把人类答案视为正样本、把自己生成的答案视为负样本,迭代提升对齐质量。

现有痛点:这类自训练方法主要看“当前模型”的生成质量,历史训练轨迹利用不足。一旦某一轮生成样本有偏差,后续迭代容易继续放大错误。另一个更隐蔽的问题是,DPO 式目标同时推正样本、压负样本,但在自训练后期,模型生成答案和目标答案越来越接近,正负样本间隔变小,训练信号变噪;论文还观察到目标响应概率本身会下降,导致模型偏离 SFT 目标分布。

核心矛盾:自训练想用模型自身生成的数据替代人工偏好,但又必须避免“只和当前自己比较”带来的不稳定、偏差累积和目标分布漂移。换句话说,模型既要从历史版本中获得更丰富的对手,又不能让早期较弱 checkpoint 的噪声压过当前学习。

本文目标:作者希望在完全自监督的设定下,用同一份 SFT 数据继续挖掘对齐收益;具体要解决三个子问题:如何利用历史 checkpoint,如何防止目标响应 reward 下降,如何让不同历史玩家在每个样本上贡献合适的训练权重。

切入角度:论文把 self-play 改写成两个队伍之间的竞争:opponent team 负责生成越来越像人类答案的负样本,main player team 负责区分 SFT 目标响应和模型生成响应。历史 checkpoint 同时进入对手队伍和主玩家队伍,使训练过程不再只依赖当前模型的一次判断。

核心 idea:用“历史 checkpoint 组队 + 双重自适应加权”替代单模型自博弈,让 LLM 在同一份 SFT 数据上进行更稳定的数据高效对齐。

方法详解

TPAW 的直觉很像把单人训练赛变成队伍赛。普通 SPIN 只让当前模型生成负样本,再训练当前模型区分人类答案和自己答案;TPAW 则保留最近几轮模型,让它们共同构成对手和裁判。这样做有两个好处:第一,负样本来自训练轨迹中的多个阶段,不会只反映当前模型的一种错误模式;第二,隐式 reward 由当前模型和历史模型的相对概率给出,可以衡量“当前策略相对某个历史策略是否更偏向目标答案”。

整体框架

输入是一份 SFT 数据集 \(D_{SFT}=\{(x_i,y_i)\}\) 和一个初始 SFT policy \(\pi_{\theta_0}\)。在第 \(t+1\) 轮,当前 policy \(\pi_{\theta_t}\) 先对 SFT prompt \(x_i\) 采样生成 \(y_i^{gen}\),并和原始目标答案 \(y_i\) 组成三元组 \((x_i,y_i,y_i^{gen})\)。论文只保留最近三轮三元组,构成 opponent dataset \(D_O=D_t\cup D_{t-1}\cup D_{t-2}\)

接着,TPAW 为最近三个 checkpoint 构造 main players。每个 player \(P_j\) 使用当前模型与历史模型 \(\pi_{\theta_j}\) 的 log 概率比作为隐式 reward:\(P_j(x,y)=\lambda\log \frac{\pi_\theta(y|x)}{\pi_{\theta_j}(y|x)}\)。如果一个目标答案更接近当前模型的目标分布,player 应该给它更高分;如果一个模型生成答案更像偏离目标的响应,player 应该给它更低分。训练目标就是让每个 player 拉大 \(P_j(x,y)-P_j(x,y^{gen})\) 的间隔。

最后,TPAW 不直接平均所有 player 的 loss,而是先对目标响应做权重 \(\alpha\),再对不同 player 做权重 \(\beta\),用加权 logistic loss 更新 policy。迭代若干轮后得到最终 aligned policy。

关键设计

  1. Team-Based Self-Play 框架:

    • 功能:把单一当前模型的 self-play 扩展成由最近三个历史 checkpoint 组成的对手队伍和主玩家队伍。
    • 核心思路:opponent team 负责在 SFT prompt 上生成负样本,main player team 负责判断目标答案和生成答案的相对优劣;训练数据来自最近三轮三元组,避免某一轮合成数据完全主导优化。
    • 设计动机:历史 checkpoint 记录了模型从弱到强的训练轨迹,能提供比单个当前模型更丰富的错误分布,也能缓解自训练中常见的偏差累积。
  2. Adaptive Target Response Weighting:

    • 功能:当目标答案在某个 player 下的 reward 不够高时,自动提高目标响应项的权重。
    • 核心思路:若 \(P_j(x,y)\le 0\),说明当前模型相对历史模型并没有更偏好目标答案,于是将该目标响应权重设为 \(\eta>1\);否则权重为 1。最终 loss 变成比较 \(\alpha_j P_j(x,y)\)\(P_j(x,y^{gen})\)
    • 设计动机:DPO 式自训练可能同时降低正负样本概率,使模型远离 SFT 目标分布;目标响应加权相当于在发现漂移时把训练重心拉回真实答案。
  3. Adaptive Main Player Weighting:

    • 功能:根据每个 player 当前对样本的判别难度,动态分配不同 checkpoint 的训练贡献。
    • 核心思路:先计算 margin \(m_j=P_j(x,y)-P_j(x,y^{gen})\),再用 \(\beta_j=\frac{e^{-\gamma m_j}}{\sum_k e^{-\gamma m_k}}\) 得到 player 权重;margin 越小,说明该 player 越分不清正负样本,训练时权重越大。
    • 设计动机:最近 checkpoint 可能还没充分训练,而较早 checkpoint 可能已经在对应分布上过拟合;按样本动态加权比静态平均更能把学习预算放到薄弱判断上。

损失函数 / 训练策略

TPAW 使用 logistic loss \(\ell(t)=\log(1+\exp(-t))\),对每个 player 优化 \(\ell(\alpha_j P_j(x,y)-P_j(x,y^{gen}))\),再用 \(\beta_j\) 汇总成队伍级目标。实验中 opponent/main player 默认使用最近三轮 checkpoint;超参数分析给出的实用设置是 \(\eta=6\)\(\gamma=0.5\)。第 0 轮没有历史模型时跳过缺失项,第 1 轮只使用可用的两个 checkpoint,之后进入完整三玩家队伍训练。

实验关键数据

主实验

论文在 Qwen2.5-1.5B 和 Llama3.1-8B 上实验。SFT 使用 Ultrachat200k,TPAW/SPIN 使用其中 50k 子集;评测覆盖 Open LLM Leaderboard V1/V2 的 12 个 benchmark。下表摘取各方法在平均分上的代表性最好迭代。

基座模型 方法 V1 Avg. V2 Avg. 备注
Qwen2.5-1.5B SFT 56.28 13.40 全量 Ultrachat200k SFT
Qwen2.5-1.5B DPO 58.55 13.50 使用 UltraFeedback 偏好数据
Qwen2.5-1.5B SPIN best 57.61 14.34 V1 最好为 iter-4,V2 最好为 iter-3
Qwen2.5-1.5B TPAW best 57.76 14.82 V1 最好为 iter-4,V2 最好为 iter-3
Llama3.1-8B SFT 63.93 17.69 初始对齐模型
Llama3.1-8B DPO 64.79 17.91 额外偏好数据基线
Llama3.1-8B SPIN best 64.88 19.68 V1 最好为 iter-4,V2 最好为 iter-1
Llama3.1-8B TPAW best 66.14 20.84 V1 最好为 iter-3,V2 最好为 iter-4

在具体 benchmark 上,TPAW 的收益不只来自平均分。论文报告 Qwen 上 IFEval 最高提升 4.37、Math 提升 3.55、GSM8K 提升 3.79;Llama 上 Arc 提升 4.79、IFEval 提升 8.78、MUSR 提升 4.45。考虑到 TPAW 没有使用额外人工偏好数据,这个结果主要说明它更充分地榨出了已有 SFT 数据的训练信号。

GSM8K 训练设置 Accuracy 相对 Qwen2.5-1.5B-SFT 提升 趋势
Qwen2.5-1.5B-SFT 51.25 - 初始模型
SPIN-gsm8k iter-1 53.75 +2.50 有明显收益
SPIN-gsm8k iter-2 54.36 +3.11 继续提升
SPIN-gsm8k iter-4 54.59 +3.34 后期接近平台
TPAW-gsm8k iter-1 54.21 +2.96 起步略优于 SPIN iter-1
TPAW-gsm8k iter-3 56.56 +5.31 第三轮拉开差距
TPAW-gsm8k iter-4 56.94 +5.69 最终最佳

消融实验

论文在 GSM8K 上去掉三个关键组件:目标响应权重、主玩家权重、队伍机制。图 3 给出四轮曲线,正文未列出逐点数值,但定性结论很清楚:去掉 team-based mechanism 掉点最大,去掉两类 adaptive weighting 都会阻止模型收敛到完整 TPAW 的最优表现。

消融配置 被移除的部分 观察到的影响 解释
w/o TRW 目标响应自适应权重 \(\alpha\) 目标 reward 更容易持续为负,最终低于完整 TPAW 模型没有被显式拉回 SFT 目标分布
w/o MPW 主玩家自适应权重 \(\beta\) 多 checkpoint 的收益下降 静态平均无法把权重放到判别困难的 player 上
w/o Team 历史 checkpoint 队伍 掉点最明显 训练退化为接近单模型 self-play,历史轨迹利用不足

关键发现

  • Team-based 设计是主要增益来源。它不仅带来更丰富的负样本,还把历史模型作为隐式 reward 参照,避免当前模型在自训练循环里自我确认。
  • Adaptive Target Response Weighting 直接针对“正样本概率也下降”的 DPO 式副作用。图 2 显示,不使用该机制时目标响应 reward 会持续处在负区间,而 TPAW 能让 reward 上升并收敛到正值。
  • 单纯增加 SFT epoch 并不能替代 TPAW。论文的 SFT 多 epoch 分析显示继续训练更像记忆数据,不能带来相同泛化收益;TPAW 则能在同一数据上突破 SFT 的性能上限。

亮点与洞察

  • 把历史 checkpoint 变成“队伍成员”很自然,也很可复用。许多迭代式自训练方法都只保留最终模型,但这篇论文说明训练轨迹本身是一种廉价监督信号。
  • 双重加权的设计分别对应两个故障模式:\(\alpha\) 防止目标分布漂移,\(\beta\) 防止多玩家平均稀释薄弱环节。它不是简单调 loss 权重,而是把自训练过程中“哪里不稳”显式编码进优化目标。
  • 这篇文章对 SFT 数据再利用的讨论很有启发:同一份示范数据不只能做一次 imitation,还可以通过模型自身生成的 contrastive response 反复形成偏好信号。

局限与展望

  • TPAW 的上限仍然受 SFT 数据质量约束。如果 SFT 数据本身有偏见或答案质量参差,team-based self-play 只能更充分地拟合它,不能自动纠正目标分布。
  • 实验主要覆盖通用 leaderboard 和 GSM8K,专门领域任务只做了数学推理一个案例;安全对齐、多轮工具使用、代码生成等场景还需要验证。
  • 历史队伍大小存在 trade-off。论文提到 \(N_{max}>3\) 会引入更早、更弱 checkpoint,可能带来低质量偏好信号;未来可以考虑基于样本质量或 checkpoint 能力动态选择队员,而不是固定最近三轮。
  • 当前生成负样本仍来自同一模型族,探索性有限。若能混入外部弱模型、检索增强回答或反事实扰动,可能得到更强的对比信号。

相关工作与启发

  • vs SPIN: SPIN 用当前模型生成负样本并和 SFT 目标答案做区分,TPAW 在此基础上引入历史 checkpoint 队伍,并针对目标响应和主玩家分别自适应加权,因此更稳定地利用多轮训练轨迹。
  • vs DPO: DPO 直接优化人工偏好对,TPAW 使用 SFT 目标答案和模型生成答案构造偏好信号,不需要额外偏好标注;代价是偏好质量依赖生成样本和 SFT 数据本身。
  • vs Self-Rewarding / AutoIF: 这些方法强调自动生成或验证训练数据,TPAW 更关注自训练目标的稳定性,尤其是如何避免 target response reward 下降。
  • 启发: 对任何迭代式 LLM 训练流程,都可以尝试把历史 checkpoint 作为对照模型、奖励模型或数据生成器,而不是只保存最终权重。

评分

  • 新颖性: ⭐⭐⭐⭐ 历史 checkpoint 队伍化与双重自适应加权组合得很完整,虽然仍建立在 SPIN/DPO 目标之上。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖两个基座、两个 Leaderboard、GSM8K 和多组消融,但专门领域和安全场景还不够多。
  • 写作质量: ⭐⭐⭐⭐ 方法动机清楚,公式和算法完整;部分表格较大,读者需要自己提炼关键趋势。
  • 价值: ⭐⭐⭐⭐ 对低标注成本对齐和 SFT 数据再利用很有实践价值,尤其适合已有高质量 SFT 集但缺少偏好标注的团队。