跳转至

SPARTA Alignment: Collectively Aligning Multiple Language Models through Combat

会议: NeurIPS 2025
arXiv: 2506.04721
代码: https://github.com/yurujiang2003/sparta
领域: LLM效率
关键词: 集体对齐, 多模型竞技, 声誉系统, DPO, 自我对齐

一句话总结

让多个LLM组成"斯巴达部落"互相竞技和互评,通过声誉加权的判断聚合生成偏好对,再用DPO迭代训练所有模型,在12个任务中的10个上超越Self-Rewarding等自对齐基线,平均提升7%。

研究背景与动机

领域现状:LLM对齐是后训练的关键步骤。自对齐方法让模型自己当裁判和生成奖励信号,已展现出一定效果。

现有痛点:单模型自对齐有两个根本缺陷:自偏见(系统性偏好自己的回复)和生成同质性(多次采样的回复风格和错误模式高度雷同)。

核心矛盾:单模型成为自我进化的瓶颈——无法超越自身的训练先验和内在偏见。

切入角度:博弈论 + Elo声誉系统 + DPO,将对齐视为多智能体竞技过程。

核心 idea:多个LLM互相竞技产生多样化偏好对,互相评判消除单模型偏见,声誉系统让优胜者的判断更受信任。

方法详解

整体框架

输入:\(m\) 个LLM的模型池 \(\mathcal{M}^0\) + 指令集 \(\mathcal{X}\)。每个迭代 \(t\):对每条指令 \(x\),选两个模型进行"决斗"(各自生成回复),其余模型当裁判打分,声誉加权聚合判定胜负,生成偏好对。迭代末用所有偏好对对全部模型做DPO训练。

关键设计

  1. 匹配系统(Match-Making)

    • 功能:为每条指令选择两个参战模型
    • 核心思路:以概率 \(\alpha\) 随机选对手,以 \(1-\alpha\) 从声誉最接近的top-k模型中选
    • 设计动机:实力悬殊的对战偏好信号太弱;实力接近的对战更能精细区分优劣
  2. 声誉加权判断聚合

    • 功能:用所有非参战模型的评分加权平均决定谁赢
    • 核心公式:\(\bar{s}_i = \frac{\sum_k R_k \cdot s_i^{(k)}}{\sum_k R_k}\)\(R_k\) 是模型 \(k\) 的声誉分
    • 设计动机:声誉高的模型判断更受重视,消除弱模型的评判噪声
  3. 声誉更新系统

    • 功能:根据比赛结果动态调整每个模型的声誉分
    • 核心公式:\(R_i \leftarrow R_i + \kappa \cdot (\bar{s}_i - \bar{s}_{i'}) \cdot \tanh(\sigma_i) \cdot \max(|\Phi(z_i) - \Phi(z_{i'})|, \epsilon)\)
    • 三个原则:(a) 分差越大更新越大 (b) 声誉不稳定的模型更新更快 (c) 击败更强对手获得更大声誉提升

训练策略

10个Qwen2.5-7B-Instruct模型,分别在Tulu-v2不同领域数据上SFT形成多样化初始模型池。每轮1000条指令,共8轮迭代,DPO训练lr=1e-6 + LoRA。

实验关键数据

主实验(12个数据集,Qwen2.5-7B-Instruct × 10)

方法 MedQA Normad-Value GSM8K COM2 MATH-Easy Alpaca TruthfulQA
Best Init .599 .681 .778 5.27 .516 5.36 .410
Self-reward .623 .692 .777 5.74 .513 5.56 .416
SPPO - - .790 - - - .421
Sparta .634 .706 .813 6.35 .530 7.12 .424

消融分析

配置 说明
去掉声誉系统(均匀聚合) 性能下降,加权判断很重要
去掉匹配系统(完全随机) 性能下降,实力匹配对战更有效
2模型 vs 10模型 10个模型显著更好,多样性是关键

关键发现

  • Sparta在12个数据集中的10个上SOTA,平均提升7%
  • Alpaca上提升最惊人:比Best Init +32.8%,比Self-reward +28.1%
  • GSM8K +4.5%,MATH平均+4.0%——数学推理能力也显著提升
  • 初始较弱的模型可以通过集体对齐后逆袭成为最强
  • 模型池越大效果越好;多样性越高效果越好

亮点与洞察

  • "弱者逆袭"现象:初始差的模型通过集体互动可成长为最强,类似社会分层的阶层流动
  • 无需外部信号:不需要奖励模型、人工标注或ground truth,纯通过模型交互产生对齐信号
  • 声誉系统设计精巧:融合ELO评分、"爆冷"奖励、稳定性自适应,隐式地为好的评判者增加影响力

局限与展望

  • 需维护10个模型的推理和训练开销——计算成本不低
  • 声誉系统超参较多(\(\kappa\), \(\alpha\), \(k\), \(\epsilon\)等),调参空间大
  • 初始多样性依赖不同领域SFT——同质化初始模型效果可能大打折扣
  • 只在7B模型上实验,更大或异构模型池效果未知

相关工作与启发

  • vs Self-Rewarding:单模型自评受自偏见影响,Sparta多模型互评有效消除
  • vs SPIN:SPIN需要ground truth标签,Sparta完全无需外部标注
  • vs SPPO:SPPO需要外部奖励模型,Sparta用模型互评替代

评分

  • 新颖性: ⭐⭐⭐⭐ 多模型竞技+声誉系统的组合是新颖的,博弈论视角有启发性
  • 实验充分度: ⭐⭐⭐⭐ 12个数据集、多个基线对比、消融分析完整,但只在7B规模上实验
  • 写作质量: ⭐⭐⭐⭐ 算法描述清晰,博弈论动机阐述得当
  • 价值: ⭐⭐⭐⭐ 为多模型协同对齐开辟了新思路,但实际部署的计算成本需权衡