SPARTA Alignment: Collectively Aligning Multiple Language Models through Combat¶

会议: NeurIPS 2025
arXiv: 2506.04721
代码: https://github.com/yurujiang2003/sparta
领域: LLM效率
关键词: 集体对齐, 多模型竞技, 声誉系统, DPO, 自我对齐

一句话总结¶

让多个LLM组成"斯巴达部落"互相竞技和互评，通过声誉加权的判断聚合生成偏好对，再用DPO迭代训练所有模型，在12个任务中的10个上超越Self-Rewarding等自对齐基线，平均提升7%。

领域现状：LLM对齐是后训练的关键步骤。自对齐方法让模型自己当裁判和生成奖励信号，已展现出一定效果。

现有痛点：单模型自对齐有两个根本缺陷：自偏见（系统性偏好自己的回复）和生成同质性（多次采样的回复风格和错误模式高度雷同）。

核心矛盾：单模型成为自我进化的瓶颈——无法超越自身的训练先验和内在偏见。

切入角度：博弈论 + Elo声誉系统 + DPO，将对齐视为多智能体竞技过程。

核心 idea：多个LLM互相竞技产生多样化偏好对，互相评判消除单模型偏见，声誉系统让优胜者的判断更受信任。

输入：\(m\) 个LLM的模型池 \(\mathcal{M}^0\) + 指令集 \(\mathcal{X}\)。每个迭代 \(t\)：对每条指令 \(x\)，选两个模型进行"决斗"（各自生成回复），其余模型当裁判打分，声誉加权聚合判定胜负，生成偏好对。迭代末用所有偏好对对全部模型做DPO训练。

匹配系统（Match-Making）：
- 功能：为每条指令选择两个参战模型
- 核心思路：以概率 \(\alpha\) 随机选对手，以 \(1-\alpha\) 从声誉最接近的top-k模型中选
- 设计动机：实力悬殊的对战偏好信号太弱；实力接近的对战更能精细区分优劣
声誉加权判断聚合：
- 功能：用所有非参战模型的评分加权平均决定谁赢
- 核心公式：\(\bar{s}_i = \frac{\sum_k R_k \cdot s_i^{(k)}}{\sum_k R_k}\)，\(R_k\) 是模型 \(k\) 的声誉分
- 设计动机：声誉高的模型判断更受重视，消除弱模型的评判噪声
声誉更新系统：
- 功能：根据比赛结果动态调整每个模型的声誉分
- 核心公式：\(R_i \leftarrow R_i + \kappa \cdot (\bar{s}_i - \bar{s}_{i'}) \cdot \tanh(\sigma_i) \cdot \max(|\Phi(z_i) - \Phi(z_{i'})|, \epsilon)\)
- 三个原则：(a) 分差越大更新越大 (b) 声誉不稳定的模型更新更快 (c) 击败更强对手获得更大声誉提升

10个Qwen2.5-7B-Instruct模型，分别在Tulu-v2不同领域数据上SFT形成多样化初始模型池。每轮1000条指令，共8轮迭代，DPO训练lr=1e-6 + LoRA。

方法	MedQA	Normad-Value	GSM8K	COM2	MATH-Easy	Alpaca	TruthfulQA
Best Init	.599	.681	.778	5.27	.516	5.36	.410
Self-reward	.623	.692	.777	5.74	.513	5.56	.416
SPPO	-	-	.790	-	-	-	.421
Sparta	.634	.706	.813	6.35	.530	7.12	.424