SPARTA Alignment: Collectively Aligning Multiple Language Models through Combat¶
会议: NeurIPS 2025
arXiv: 2506.04721
代码: https://github.com/yurujiang2003/sparta
领域: LLM效率
关键词: 集体对齐, 多模型竞技, 声誉系统, DPO, 自我对齐
一句话总结¶
让多个LLM组成"斯巴达部落"互相竞技和互评,通过声誉加权的判断聚合生成偏好对,再用DPO迭代训练所有模型,在12个任务中的10个上超越Self-Rewarding等自对齐基线,平均提升7%。
研究背景与动机¶
领域现状:LLM对齐是后训练的关键步骤。自对齐方法让模型自己当裁判和生成奖励信号,已展现出一定效果。
现有痛点:单模型自对齐有两个根本缺陷:自偏见(系统性偏好自己的回复)和生成同质性(多次采样的回复风格和错误模式高度雷同)。
核心矛盾:单模型成为自我进化的瓶颈——无法超越自身的训练先验和内在偏见。
切入角度:博弈论 + Elo声誉系统 + DPO,将对齐视为多智能体竞技过程。
核心 idea:多个LLM互相竞技产生多样化偏好对,互相评判消除单模型偏见,声誉系统让优胜者的判断更受信任。
方法详解¶
整体框架¶
输入:\(m\) 个LLM的模型池 \(\mathcal{M}^0\) + 指令集 \(\mathcal{X}\)。每个迭代 \(t\):对每条指令 \(x\),选两个模型进行"决斗"(各自生成回复),其余模型当裁判打分,声誉加权聚合判定胜负,生成偏好对。迭代末用所有偏好对对全部模型做DPO训练。
关键设计¶
-
匹配系统(Match-Making):
- 功能:为每条指令选择两个参战模型
- 核心思路:以概率 \(\alpha\) 随机选对手,以 \(1-\alpha\) 从声誉最接近的top-k模型中选
- 设计动机:实力悬殊的对战偏好信号太弱;实力接近的对战更能精细区分优劣
-
声誉加权判断聚合:
- 功能:用所有非参战模型的评分加权平均决定谁赢
- 核心公式:\(\bar{s}_i = \frac{\sum_k R_k \cdot s_i^{(k)}}{\sum_k R_k}\),\(R_k\) 是模型 \(k\) 的声誉分
- 设计动机:声誉高的模型判断更受重视,消除弱模型的评判噪声
-
声誉更新系统:
- 功能:根据比赛结果动态调整每个模型的声誉分
- 核心公式:\(R_i \leftarrow R_i + \kappa \cdot (\bar{s}_i - \bar{s}_{i'}) \cdot \tanh(\sigma_i) \cdot \max(|\Phi(z_i) - \Phi(z_{i'})|, \epsilon)\)
- 三个原则:(a) 分差越大更新越大 (b) 声誉不稳定的模型更新更快 (c) 击败更强对手获得更大声誉提升
训练策略¶
10个Qwen2.5-7B-Instruct模型,分别在Tulu-v2不同领域数据上SFT形成多样化初始模型池。每轮1000条指令,共8轮迭代,DPO训练lr=1e-6 + LoRA。
实验关键数据¶
主实验(12个数据集,Qwen2.5-7B-Instruct × 10)¶
| 方法 | MedQA | Normad-Value | GSM8K | COM2 | MATH-Easy | Alpaca | TruthfulQA |
|---|---|---|---|---|---|---|---|
| Best Init | .599 | .681 | .778 | 5.27 | .516 | 5.36 | .410 |
| Self-reward | .623 | .692 | .777 | 5.74 | .513 | 5.56 | .416 |
| SPPO | - | - | .790 | - | - | - | .421 |
| Sparta | .634 | .706 | .813 | 6.35 | .530 | 7.12 | .424 |
消融分析¶
| 配置 | 说明 |
|---|---|
| 去掉声誉系统(均匀聚合) | 性能下降,加权判断很重要 |
| 去掉匹配系统(完全随机) | 性能下降,实力匹配对战更有效 |
| 2模型 vs 10模型 | 10个模型显著更好,多样性是关键 |
关键发现¶
- Sparta在12个数据集中的10个上SOTA,平均提升7%
- Alpaca上提升最惊人:比Best Init +32.8%,比Self-reward +28.1%
- GSM8K +4.5%,MATH平均+4.0%——数学推理能力也显著提升
- 初始较弱的模型可以通过集体对齐后逆袭成为最强
- 模型池越大效果越好;多样性越高效果越好
亮点与洞察¶
- "弱者逆袭"现象:初始差的模型通过集体互动可成长为最强,类似社会分层的阶层流动
- 无需外部信号:不需要奖励模型、人工标注或ground truth,纯通过模型交互产生对齐信号
- 声誉系统设计精巧:融合ELO评分、"爆冷"奖励、稳定性自适应,隐式地为好的评判者增加影响力
局限与展望¶
- 需维护10个模型的推理和训练开销——计算成本不低
- 声誉系统超参较多(\(\kappa\), \(\alpha\), \(k\), \(\epsilon\)等),调参空间大
- 初始多样性依赖不同领域SFT——同质化初始模型效果可能大打折扣
- 只在7B模型上实验,更大或异构模型池效果未知
相关工作与启发¶
- vs Self-Rewarding:单模型自评受自偏见影响,Sparta多模型互评有效消除
- vs SPIN:SPIN需要ground truth标签,Sparta完全无需外部标注
- vs SPPO:SPPO需要外部奖励模型,Sparta用模型互评替代
评分¶
- 新颖性: ⭐⭐⭐⭐ 多模型竞技+声誉系统的组合是新颖的,博弈论视角有启发性
- 实验充分度: ⭐⭐⭐⭐ 12个数据集、多个基线对比、消融分析完整,但只在7B规模上实验
- 写作质量: ⭐⭐⭐⭐ 算法描述清晰,博弈论动机阐述得当
- 价值: ⭐⭐⭐⭐ 为多模型协同对齐开辟了新思路,但实际部署的计算成本需权衡