跳转至

A Multi-Agent Conversational Bandit Approach to Online Evaluation and Selection of User-Aligned LLM Responses

会议: AAAI 2026
arXiv: 2501.01849
代码: https://github.com/TarferSoul/MACO
领域: LLM Agent
关键词: 多臂赌博机, 在线学习, 偏好对齐, 多Agent, 对话式选择

一句话总结

提出 MACO(Multi-Agent Conversational Online Learning),将 LLM 回复选择建模为多 Agent 对话式赌博机问题,通过本地 Agent 淘汰低质量回复 + 云端自适应关键词对话收集偏好,实现近似最优的在线回复评估和用户偏好对齐。

研究背景与动机

现有痛点

现有痛点领域现状:LLM 可以通过不同 prompt 生成风格各异的候选回复(如幽默/正式/代码风格),如何从中在线选出最匹配用户偏好的回复是关键问题。离线逐一打分计算开销大(如 78 GPU 小时评估 205 个 prompt),而在线评估可以利用用户反馈动态调整。

现有对话式赌博机方法的四个不足: 1. 高维特征空间:LLM 回复的语义嵌入维度高,传统 SVD 降维方法复杂度大 2. 有限臂集:大多数对话式赌博机假设无限臂集,而 LLM 候选回复是有限但大量的 3. 固定对话频率:现有方法用预定义函数控制对话频率(线性/对数),无法适应动态需求 4. 单 Agent 场景:用户通过手机/平板/电脑等多设备访问 LLM,产生碎片化偏好数据,现有方法不支持多 Agent 协同

方法详解

整体框架

MACO 包含两个组件:(1)MACO-A(本地 Agent):在各设备上运行,通过在线淘汰机制过滤低质量回复;(2)MACO-S(云端服务器):汇聚所有 Agent 数据,自适应选择关键词向用户提问以高效学习偏好。

关键设计

  1. 本地 Agent 淘汰机制(MACO-A)

    • 每个 Agent \(m\) 维护活跃臂集 \(\mathcal{A}_m^p\),计算信息矩阵 \(M_m^p\) 并做特征分解
    • 对特征值低于阈值 \(h_p\) 的方向(即特征空间中探索不足的方向),上传对应特征向量给云端
    • 均匀拉取所有活跃臂,收集奖励反馈
    • 从云端下载更新的偏好估计 \(\hat{\theta}_p\),淘汰预期奖励明显低于最优臂的候选回复
  2. 云端自适应对话机制(MACO-S)

    • 收到本地 Agent 上传的欠探索方向后,选择与该方向内积最大的关键词 \(k\),让对应 Agent 向用户提问
    • 关键词代表回复风格的核心概念(如"C/C++"、"幽默语气"),用户对关键词的反馈可推广到相关回复
    • 自适应触发:仅在偏好估计不确定时发起对话,而非固定频率,减少不必要的用户打扰
    • 汇聚所有 Agent 的信息矩阵 \(G\) 和奖励向量 \(W\),线性回归估计全局偏好 \(\hat{\theta}_p = G^{-1}W\)
  3. 避免 G-最优设计的计算开销

    • 传统淘汰式赌博机需要计算 G-最优设计(确定拉臂概率分布),计算密集
    • MACO 利用多 Agent 异构性和关键词对话弥补特征空间覆盖不足,无需 G-最优设计
    • 通信成本仅 \(O(d^2 M \log T)\),与臂集大小 \(A\) 无关

损失函数 / 训练策略

无训练过程。目标是最小化累积遗憾(regret):\(R_M(T) = \sum_{m,t}(x_{a_m^*}^\top \theta^* - x_{a_{m,t}}^\top \theta^*)\)

实验关键数据

主实验

方法 遗憾(相对 MACO) 臂集大小适应 多Agent
LinUCB 基线
对话式赌博机 较好 ✗(无限臂假设)
PE-Lin(独立运行) 较差 名义上
MACO 最优,超越基线 8.29%+

理论结果

指标
遗憾上界 \(O(\sqrt{dMT \log(AM\log T / \delta)})\)
遗憾下界 \(\Omega(\sqrt{dMT})\)
通信成本 \(O(d^2 M \log T)\)

关键发现

  • 近似最优:上下界仅差对数因子,证明 MACO 是 minimax 最优的
  • 多 Agent 协同显著降低遗憾\(M\) 个 Agent 共享信息后遗憾为 \(\sqrt{dMT}\) 而非 \(M\sqrt{dT}\),即 \(\sqrt{M}\) 倍提升
  • 自适应对话优于固定对话:偏好已知时不浪费用户交互,偏好不确定时精准提问
  • 在 Google 和 OpenAI 两种嵌入模型、Llama 和 GPT-4o 两种 LLM 上均一致有效

亮点与洞察

  • 将 LLM 回复选择形式化为对话式赌博机:把"选择最佳 LLM 回复"这个实际问题优雅地映射到有理论保证的在线学习框架
  • 关键词对话替代 G-最优设计:通过向用户询问"偏好幽默还是严肃?"等关键词来高效补全偏好信息,避免了计算密集的 G-最优概率设计
  • 多设备场景的实际考量:同一用户通过不同设备访问 LLM 时偏好数据碎片化,MACO 的多 Agent 架构自然处理这一问题

局限与展望 / 可改进方向

  • 线性奖励假设过强——用户对 LLM 回复的满意度可能不是特征向量的线性函数
  • 关键词集需要预定义,如何自动发现有效关键词未讨论
  • 未考虑偏好随时间变化(非稳态偏好)
  • 实验中候选回复数百个,但实际 LLM 生成的回复空间远大于此

相关工作与启发

  • vs LinUCB (Abbasi-Yadkori 2011):经典线性赌博机但不支持对话式偏好收集和多 Agent 协同
  • vs ConUCB (Zhang et al. 2020):单 Agent 对话式赌博机,固定对话频率且假设无限臂集;MACO 支持多 Agent、有限臂、自适应对话
  • vs RLHF:RLHF 通过离线偏好数据训练奖励模型,是全局对齐;MACO 是在线个性化选择,两者互补

评分

  • 新颖性: ⭐⭐⭐⭐ 多 Agent 对话式赌博机用于 LLM 回复选择是新颖的问题建模
  • 实验充分度: ⭐⭐⭐⭐ 多种嵌入模型、多个数据集、理论分析、消融实验全面
  • 写作质量: ⭐⭐⭐⭐ 理论严谨,但符号量大导致可读性有提升空间
  • 价值: ⭐⭐⭐⭐ 对在线个性化 LLM 回复选择提供了有理论保证的方案