ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment¶
会议: AAAI 2026
arXiv: 2512.06196
代码: https://github.com/DeepFlow-research/manager_agent_gym
领域: LLM Agent
关键词: 可解释对齐, rubric学习, 多智能体协作, GSPO, 测试时对齐
一句话总结¶
提出ARCANE框架,将对齐建模为多智能体协作问题——manager agent通过与stakeholder对话学习生成自然语言rubric(加权可验证准则集),作为worker agent的可解释代理奖励函数,通过SFT+GSPO两阶段训练实现测试时可配置的对齐,在GDPVal基准上GSPO版本的mean return从0.58提升至0.74(N=8)。
研究背景与动机¶
领域现状:RLHF是当前LLM对齐的主流范式,但它在训练时固化偏好,无法适应stakeholder偏好的变化。测试时奖励模型(如GenRM、GRAM)提供动态评估但不透明——用户不知道评估标准是什么、权重如何分配。
现有痛点: - RLHF的刚性:优化固定训练偏好,偏好漂移后需重新训练。在多agent部署中,分布式偏好更难静态捕捉 - 测试时方法的不透明:GenRM/GRAM输出标量或文本判断,但不揭示哪些准则驱动评估 - 现有rubric方法的静态性:Auto-Rubric、RaR等假设rubric预先给定而非学习得到,无法适应偏好演化
核心矛盾:对齐需要同时满足可解释性(stakeholder能审计)、可配置性(测试时可调)、和有效性(真正提升输出质量),传统方法最多满足其中两个。
本文目标 将rubric生成本身作为策略优化问题,让manager agent学会从stakeholder对话中提炼出可解释、可验证的加权准则集。
切入角度:借鉴效用理论,将stakeholder的潜在效用函数分解为加权可验证准则的线性组合,通过manager-stakeholder对话交互式地"重建"效用函数。
核心 idea:对齐 = manager学习生成自然语言rubric + worker按rubric执行 + stakeholder可在测试时调整权重。
方法详解¶
整体框架¶
三角色架构:Stakeholder持有真实效用函数 \(U^*\) → Manager通过对话提炼rubric \(R\) → Worker按rubric执行任务生成输出 \(y\)。Rubric \(R = \{(c_j, w_j)\}_{j=1}^M\) 是加权可验证准则集,每个准则有对应的验证器 \(\nu_j\)。代理效用 \(\hat{u}_\phi(y|x) = \sum_j w_j \nu_j(c_j, x, y)\) 作为 \(U^*\) 的可解释近似。
关键设计¶
-
Rubric表征与验证器:
- 功能:将偏好分解为结构化、可验证的自然语言准则
- 核心思路:每个准则 \(c_j\) 是自然语言描述(如"包含近期实证研究引用"),权重 \(w_j \in [0,1]\),\(\sum w_j = 1\)。验证器可以是规则型(确定性检查)或模型型(LLM/分类器评估语义属性)
- 设计动机:线性加权使效用可分解、可审计;自然语言准则使非技术stakeholder也能理解
-
Stakeholder-Manager协作对话:
- 功能:manager向stakeholder提问以揭示潜在偏好,然后合成rubric
- 核心思路:\(R = \mathfrak{D}_\phi(x, q_{1:T}, a_{1:T})\),同时优化包含交互成本的目标:\(\max_{\pi_M} \mathbb{E}[U^*(y|x) - \lambda_{\text{clarify}} C_{\text{clarify}} - \lambda_{\text{compute}} C_{\text{compute}}]\)
- 设计动机:建模为"部分可观测下的单次合作博弈"——stakeholder通过语言暴露有限、噪声信息,manager必须推断出忠实的结构化近似
-
两阶段训练(SFT + GSPO):
- Stage I (SFT):用大推理模型生成合成对话+参考rubric,standard language modeling loss热启
- Stage II (GSPO):将manager视为随机策略,每个任务采样K个rubric,worker执行后获得stakeholder效用作为回报。使用序列级重要性比率 \(s_k(\phi)\)(而非token级),加上KL正则、澄清成本 \(C_{\text{clarify}}\)、计算成本 \(C_{\text{compute}}\)。引入优先经验回放机制关注低回报episode
- 设计动机:SFT避免冷启动;GSPO直接优化端到端效用而非模仿参考rubric
-
测试时Rubric引导:
- 功能:用学到的rubric在测试时引导worker,无需梯度更新
- 核心思路:支持Best-of-K采样(按rubric得分选最佳)、重要性重采样、树/束搜索等。stakeholder可直接编辑准则 \(\{c_j\}\) 和权重 \(\{w_j\}\)
- 设计动机:rubric的可解释性使得人类可以在推理时直接修改对齐方向
损失函数 / 训练策略¶
- SFT Loss:标准next-token prediction,mask系统提示和任务输入
- GSPO Loss:PPO风格的clip目标 + KL散度正则 + 澄清成本 + 计算成本(公式12-15)
- 优先经验回放:每个epoch回放回报最低的N-th百分位episode
实验关键数据¶
主实验¶
GDPVal基准,219个任务(175训练+44评估),多步推理+工具使用:
| 方法 | Mean Return (N=1) | Mean Return (N=8) |
|---|---|---|
| No Rubric | 0.58±0.01 | 0.58±0.02 |
| SFT Model | 0.59±0.09 | 0.68±0.03 |
| GSPO Model | 0.62±0.12 | 0.74±0.03 |
| Oracle Rubric | 0.70±0.12 | 0.81±0.03 |
消融实验(Faithfulness - NDCG@8)¶
| 方法 | Mean NDCG@8 | 说明 |
|---|---|---|
| No-Conv (Base) | 0.7998 | 无stakeholder对话的基础rubric |
| SFT Rubric | 0.8103 | SFT训练的manager |
| GSPO Rubric | 0.8722 | GSPO训练后排序一致性显著提升 |
关键发现¶
- GSPO > SFT:统计显著(Wilcoxon p=0.0182),GSPO rubric在N=8时mean return 0.74 vs SFT 0.68
- scaling曲线平行:SFT、GSPO、Oracle三者的best-of-N scaling斜率几乎相同(每倍N约+0.03),说明学到的rubric近似了oracle的评分函数
- 领域差异:主观/语言密集任务(内容/传播+11.5%、法律+12.5%)提升最大,操作性任务略微下降(-8.1%)
- 可解释性保持:GSPO rubric约12个准则/rubric,17-18 tokens/准则,与Oracle结构高度一致
亮点与洞察¶
- 将rubric生成建模为策略优化:不是假设rubric给定,而是让agent学习如何生成rubric。这是对"rubric-as-reward"范式的重要推进
- GSPO的序列级重要性比率:比GRPO的token级比率更适合结构化输出(rubric),避免长序列的方差问题
- 成本感知的对齐:将stakeholder交互成本和计算成本纳入优化目标,避免过度澄清或过复杂的rubric
局限与展望¶
- 仅单worker验证:框架设计支持多worker但实验只有单worker,未验证多worker协调动态
- GDPVal是离散episode任务:缺乏长时间跨度的持续部署评估
- 缺乏因果正则:manager可能学到与效用相关但非因果的准则(虚假相关)
- No Rubric baseline使用RLHF模型:说明训练时对齐不够,但未与GenRM等测试时方法直接比较
相关工作与启发¶
- vs RLHF/DPO: 训练时固化偏好,无法测试时配置;ARCANE的rubric可在推理时人工编辑或自动调整
- vs GenRM/GRAM: 提供动态评估但不透明;ARCANE的rubric是结构化自然语言,可审计可修改
- vs Auto-Rubric/RaR: 假设rubric静态给定,不从stakeholder交互中学习;ARCANE学习生成rubric本身
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将rubric生成建模为multi-agent RL问题是原创贡献,理论框架(效用理论+双层优化)扎实
- 实验充分度: ⭐⭐⭐⭐ RQ1-3结构清晰,有统计显著性检验,但仅44个评估任务,且缺少与GenRM等的直接比较
- 写作质量: ⭐⭐⭐⭐⭐ 数学形式化严谨,从问题定义到方法再到实验的逻辑链完整
- 价值: ⭐⭐⭐⭐⭐ 可解释+可配置+有效对齐三位一体,对实际LLM部署有重要指导意义