ICLR2026 Multi-Agent 论文解读论文笔记 Agent LLM 推理强化学习对抗鲁棒

👥 Multi-Agent¶

🔬 ICLR2026 · 47 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (2) · 💬 ACL2026 (39) · 🧪 ICML2026 (24) · 🤖 AAAI2026 (26) · 🧠 NeurIPS2025 (17) · 🧪 ICML2025 (7)

🔥 高频主题： Agent ×41 · LLM ×9 · 推理 ×8 · 强化学习 ×3 · 对抗鲁棒 ×3

Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs with Continual Learning: 提出 HILA 框架，让多智能体 LLM 学会一套"元认知策略"——自己判断什么时候能独立解题、什么时候该把问题交给人类专家；再用 Dual-Loop Policy Optimization 把"何时求助"（内环强化学习）和"如何从求助中长本事"（外环持续学习）分开优化，在数学推理等基准上稳定超过现有自主多智能体系统。
Aegis: Automated Error Generation and Attribution for Multi-Agent Systems: Aegis 用一个 LLM 操纵器把成功的多智能体轨迹"主动注入"成带标签的失败轨迹，自动造出 9,533 条标注了"出错智能体 + 错误模式"的数据，从而把昂贵的人工标注瓶颈变成可规模化的工程问题，并支持 SFT / RL / 对比学习三种范式训练错误归因模型。
AgentPO: Enhancing Multi-Agent Collaboration via Reinforcement Learning: AgentPO 不去搜索多智能体拓扑结构，而是在一个固定拓扑里冻结强大的 Actor、只用强化学习（GRPO）训练一个轻量级 Collaborator 学会"怎么辅助队友"，仅用 500 条训练样本和 EvoAgent 7.8% 的推理开销，就在多个数学推理基准上稳定超越 Role Assignment、EvoAgent 等强基线。
AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework: 把"出题—解题—评分"三个 agent 组成对抗循环，并用一个非 LLM 的贝叶斯更新规则同时进化代码、测试用例和提示词，让 32B 开源模型在科学代码生成基准上打过 235B 模型，把系统可靠性从"赌单个 LLM 够强"转成"靠贝叶斯收敛降不确定性"。
Aligned Agents, Biased Swarm: Measuring Bias Amplification in Multi-Agent Systems: 这篇论文用一个强制三选一的开放式偏见基准 Discrim-Eval-Open，把多智能体系统（MAS）建模成有向无环图、用基尼系数追踪偏见在层间的"放大率"，系统性地证明了一个反直觉结论：人们以为多智能体协作会"稀释"偏见，实际上各种角色分工、复杂拓扑、加深迭代反而把单体模型里微小的随机偏好放大成系统性的人群歧视，甚至一句客观中性的外部信息就能触发剧烈极化。
ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning: ATLAS 把"带搜索的真实旅行规划"形式化成一个动态约束满足问题（CSP），用 5 个分工明确的 LLM 智能体（搜索、约束管理、规划、检查、搜索顾问）协同补全约束、迭代纠错、并在卡死时反过来指导搜索，把 TravelPlanner 最终通过率从 23.3% 提到 44.4%，并首次在带实时网络搜索的真实多轮场景里做到 84% 通过率。
Benefits and Limitations of Communication in Multi-Agent Reasoning: 本文给"把长上下文切块、多个 LLM agent 分头处理再汇总"这类多智能体推理系统建了一套基于 Transformer 表达力的理论框架，在关联召回、状态追踪、k-hop 推理三类任务上证明了需要多少个 agent、多少通信、能换来多少并行加速的紧界，划出三种 depth–通信权衡区间，并用 Llama 在合成基准上验证理论预测的拐点确实出现。
Breaking and Fixing Defenses Against Control Flow Hijacking in Multi-Agent Systems: 这篇论文先证明了现有"对齐检查"类防御（如 LlamaFirewall）能被精心改写的控制流劫持攻击绕过，再提出 CONTROLVALVE——一个借鉴程序控制流完整性思想的协同层防御：在任务规划期生成"允许的智能体调用图 + 每条边的上下文规则"，运行期对每次智能体跳转只做"是否在图里、是否满足边规则"的窄判定，从而在不掉基准任务性能的前提下把所有评测攻击的成功率压到 0%。
BRIDGE: Bi-level Reinforcement Learning for Dynamic Group Structure in Coalition Formation Games: 把"把一群智能体最优地划分成若干联盟"（NP 完全的联盟结构生成问题）建模成一个紧凑、可被强化学习吃下的 MDP，再用双层 RL（上层学合并联盟、下层学每个智能体的最优策略）联合求解，使得在 3 个智能体上训练的模型能泛化到 100 个智能体，并在推理速度和混合动机马尔可夫博弈上超过传统启发式方法。
Cache-to-Cache: Direct Semantic Communication Between Large Language Models: 让多个大语言模型不再靠"互相说话"协作，而是用一个轻量神经网络把 Sharer 模型的 KV-Cache 直接投影、融合进 Receiver 模型的 KV-Cache，绕开 token-by-token 的文本生成，既保住了文本会丢失的深层语义，又把延迟平均压低 2.5×，准确率比纯文本协作高约 3–5%。
CellAgent: LLM-Driven Multi-Agent Framework for Natural Language-Based Single-Cell Analysis: CellAgent 用 Planner-Executor-Evaluator 三级智能体架构，配合专家工具箱 sc-Omni 和自反思优化机制，让研究者只用自然语言就能端到端跑完单细胞 RNA 测序与空间转录组分析，多项下游任务质量与人类专家相当甚至更优。
CoAct-1: Computer-using Multi-agent System with Coding Actions: CoAct-1 把"写代码并执行"当成 GUI 点击之外的一等动作，用 Orchestrator 把每个子任务动态派给会写 Python/Bash 的 Programmer 或会点屏幕的 GUI Operator，从而在 OSWorld 上把成功率推到 60.8%（WindowsAgentArena 52.5%）的同时，把平均步数压到 10.15 步。
CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards: CoMAS 让多个 LLM 智能体在一个类似论坛的讨论环境里互相出解、互相批判、互相打分，把这些讨论动态用 LLM-as-a-judge 转成内在奖励信号，再用 RL 各自更新策略，从而在完全不依赖外部验证器或奖励模型的情况下实现去中心化、可扩展的协同自进化。
Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevance Assessment: 提出DREAM——基于对立立场初始化的多Agent多轮辩论框架用于IR相关性标注：一致时自动标注、分歧时交给人工(含辩论历史辅助)。达到95.2% balanced accuracy且仅3.5%需人工介入，据此构建BRIDGE基准数据集，发现29,824个原有基准缺失的相关标注(原标注的428%)，修正了检索系统排名偏差和RAG中检索-生成性能不匹配问题。
Context Learning for Multi-Agent Discussion: M2CL 为多智能体讨论（MAD）中的每个 LLM 学一个"上下文生成器"，让每轮的指令上下文能根据讨论进展自动组织与精炼，从而在避免"多数噪声"过早收敛的同时把多个 LLM 逐步拉向正确共识，在 9 个基准上比已有方法高出 20%–50%。
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems: DoVer 把 LLM 多智能体系统的"日志归因"调试范式从"猜一个出错的 agent/step"升级为"做一次有针对性的干预再回放验证"（Do-then-Verify），通过把失败轨迹切成多个试验、对每个试验提出假设并改写编排者的指令或计划、原位重放并用里程碑进度打分，在 GAIA / AssistantBench 上把 18–28% 的失败案例翻盘成功、在 GSMPlus 上翻盘率达 49%。
Emergent Coordination in Multi-Agent Language Models: 提出基于偏信息分解与时延互信息的可量化框架，证明多 LLM agent 系统在适当提示（Persona + ToM）下能从松散聚合跃升为具备高阶协同结构的真正集体，并揭示"协同×冗余"交互才是性能提升的关键机制。
From EduVisBench to EduVisAgent: A Benchmark and Multi-Agent Framework for Reasoning-Driven Pedagogical Visualization: 本文提出 EduVisBench 评测基准（1,154 道 STEM 题 + 五维教学评分细则）系统揭示基础模型"会算对、却画不出有效教学图"的短板，并设计五专家协作的 EduVisAgent 多智能体框架，把抽象推理拆成对齐人类认知的可视化网页，相对最强 baseline 提升 40.2%。
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning: ChemMAS 把"推荐什么反应条件"重构成"为什么这样选"的证据驱动推理任务，用「通用化学家解析机理→多通道召回候选→锦标赛淘汰→多智能体辩论投票」四阶段流水线，让每个条件决策都附带可证伪、可审计的化学依据，在 Top-1 相似度上比专用模型高 20–35%、比通用大模型高 10–15%。
GlobeDiff: State Diffusion Process for Partial Observability in Multi-Agent Systems: 把多智能体部分可观测下的"全局状态推断"重新表述为一个条件扩散去噪过程，用隐变量 \(z\) 当"模式选择器"显式建模"一份局部观测对应多个合理全局状态"的一对多歧义，从而避开判别式方法的模式坍缩，让每个智能体只凭局部信息就能高保真地还原全局状态再做决策。
Goal-Aware Identification and Rectification of Misinformation in Multi-Agent Systems: 本文提出红队数据集 MisInfoTask 与免训练防御框架 ARGUS，通过"在图上自适应定位关键传播信道 + 目标感知的多轮说服式纠偏"两阶段，专门防御 LLM 多智能体系统中语义无害但事实错误的"错误信息（misinformation）"注入。
Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration: GoA 把多 LLM 协作建模成一张动态有向图——先用 model card 选出最相关的少数智能体当节点，再按互评分数构边并做双向消息传递，最后用图池化聚合，仅用 3 个智能体就超过了用满 6 个智能体的 Mixture-of-Agents 等基线。
GraphPlanner: Graph Memory-Augmented Agentic Routing for Multi-Agent LLMs: GraphPlanner 把多模型 LLM 路由从"选一个模型"升级为"生成一条多智能体工作流"，用异构图记忆网络 GARNet 同时编码当前工作流与历史交互，并用 PPO 联合优化任务效果与计算开销，在 14 个任务上准确率最高提升 9.3% 而 GPU 训练开销从 186 GiB 降到 1 GiB。
HAMLET: A Hierarchical and Adaptive Multi-Agent Framework for Live Embodied Theatre: 提出 HAMLET 多智能体框架，将 AI 戏剧创作和在线表演解耦为离线规划和在线表演两阶段，通过叙事蓝图、感知与决策（PAD）模块和层级控制系统，实现了具有主动性、物理环境交互能力和即兴表演自由的 AI 戏剧体验。
KVComm: Enabling Efficient LLM Communication through Selective KV Sharing: 提出 KVComm 框架通过选择性共享 KV pairs 实现 LLM 间高效通信，发现 hidden states 存在"信息集中偏差"使其不适合跨模型传递，设计基于注意力重要性 + 高斯先验的层选择策略，仅传输 30% 层即可超越大多数 baseline。
Learning Efficient and Interpretable Multi-Agent Communication: GLC 把"离散自编码器压缩 + LLM 离线语义锚定 + 智能体间对比对齐"统一进信息瓶颈框架，让多智能体学到的通信协议同时做到带宽极省、任务表现强、还能被人读懂，破解了通信效率—任务效用—可解释性的"三难困境"。
Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization: SUMMQ 把"摘要"和"出题"做成一对相互对抗的多智能体任务——摘要负责覆盖全文，出题负责拷问摘要是否漏信息/失真，再加一个"考生"智能体验证摘要能否答对题目，靠多轮反馈迭代精炼，从而提升长文档摘要的完整性与事实一致性。
LH-Deception: Simulating and Understanding LLM Deceptive Behaviors in Long-Horizon Interactions: 提出首个面向长时域交互的 LLM 欺骗行为仿真框架 LH-Deception，采用执行者-监督者-审计者三角色多智能体架构，结合社会科学理论驱动的概率事件系统，在 11 个前沿模型上系统量化了欺骗频率、严重性、类型分布及其对信任关系的侵蚀效应，揭示了静态单轮评估完全无法捕捉的"欺骗链"涌现现象。
MAC-AMP: A Closed-Loop Multi-Agent Collaboration System for Multi-Objective Antimicrobial Peptide Design: 提出 MAC-AMP，首个闭环多智能体协作系统，将抗菌肽（AMP）设计重构为协调多智能体优化问题，通过 AI 模拟同行评审和自适应奖励设计实现多目标优化。
MAD-Logic: Multi-Agent Debate Enhances Symbolic Translation and Reasoning: 让多个智能体把同一道逻辑题翻译成 LP/FOL/SAT 三种符号语言、再让"求解器派"和"自然语言派"多轮辩论后多数投票，并用基于置信度与信息增益的稀疏通信剪掉无用交流，从而在逻辑问答上同时拿到强推理与强鲁棒，还更省 token。
MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs: MARSHAL 用一套针对「多轮 + 多智能体」改造的 GRPO（先求回报再归一化的 turn-level 优势估计 + 按角色分组的优势归一化），让 Qwen3-4B 在合作与竞争的策略博弈里自博弈训练，习得的策略能力能零样本迁移到 MAD/AutoGen 等多智能体系统并在数学/QA 推理基准上稳定涨点。
MARTI: A Framework for Multi-Agent LLM Systems Reinforced Training and Inference: MARTI 把"多智能体推理"和"分布式 RL 训练"统一进一个开源框架——用集中式的环境交互 + 奖励分配，再把每个 agent 的轨迹和奖励分发回各自的策略训练器，从而让多个 LLM agent 在协作中被一起 RL 训练，在相同推理预算下取得比单 agent 更高的数学推理上限。
MAS²: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems: MAS² 让一个"元多智能体系统"（生成器–实现器–校正器三元组）为每个任务现场架构、配置并在运行时动态纠错另一个多智能体系统，用协同树优化（CTO）离线 RL 专业化这三个元智能体，在 8 个 benchmark 上比 SOTA MAS 最高提升 19.6%，并稳居成本–性能 Pareto 前沿。
Matching Multiple Experts: On the Exploitability of Multi-Agent Imitation Learning: 这篇纯理论工作研究"用专家 Nash 均衡的离线示范去学一个不易被单方面偏离利用的多智能体策略"到底有多难——先证明即便精确匹配占用度量也学不出低 Nash gap 的策略（不可能结果 + PPAD-hard 下界），再用"占优策略 / best-response δ-连续性"这一新假设给出可计算、可随模仿误差收敛到零的 Nash gap 上界 \(O(n\epsilon_{BC}/(1-\gamma)^2)\)。
MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning: 提出 MMedAgent-RL，通过 RL 优化模拟临床会诊流程（分诊→专科→主治）的多智能体系统，核心创新是课程学习引导的熵感知 RL（C-MARL），让主治医师智能体在面对正确/冲突/错误的专科意见时分别采取不同的探索-利用策略，在域内外共 5 个医学 VQA 基准上实现 SOTA。
Multi-agent Coordination via Flow Matching: 提出 MAC-Flow，先用 Flow Matching 学习中心化联合行为分布，再通过 IGM（Individual-Global-Max）分解将其蒸馏为去中心化的单步策略，结合 Q 值最大化进行行为正则化训练，在 4 个基准 12 个环境 34 个数据集上实现了约 14.5 倍于扩散方法的推理加速，同时保持了与扩散策略可比的协调性能。
Multi-Agent Debate with Memory Masking (MAD-M²): 本文指出多智能体辩论（MAD）会被上一轮残留的"错误记忆"带偏，并从理论上证明 MAD 性能受制于记忆质量，进而提出在每轮辩论前对上一轮记忆做"评估—掩码"过滤的 MAD-M²，让智能体只基于可靠记忆推理。
Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies: 提出Multi-Agent System Search（MASS）框架，通过交错优化提示词和拓扑结构的三阶段策略（局部提示优化→拓扑搜索→全局提示优化），自动发现高性能的多智能体系统设计。
PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images: PixelCraft 用一套「调度器 + 规划器 + 推理器 + 双批判器 + 视觉工具智能体」的多智能体系统，把微调出来的像素级定位模型当「眼睛」、传统 CV 算子当「手」，再配上可回溯分支的图像记忆，让 GPT-4o / Claude 等 MLLM 在图表和几何这类结构化图像上的推理准确率显著提升（CharXiv 上 +5.6~9.5 个点）。
Stochastic Self-Organization in Multi-Agent Systems: 提出 SelfOrg 框架，基于 Agent 响应的语义相似度和 Shapley 值贡献估计，动态构建有向无环通讯图（DAG），实现多 Agent 系统的自组织协作。在弱模型场景下优势尤为显著。
Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems: 提出 SupervisorAgent，一个轻量级的实时自适应监督框架，通过无 LLM 的自适应过滤器在关键交互节点主动干预（纠错、指导、观察净化），在 GAIA 基准上将 Smolagent 的 token 消耗降低 29.68% 而不损失成功率。
Strategic Planning and Rationalizing on Trees Make LLMs Better Debaters: 本文提出 TreeDebater，用「排练树（Rehearsal Tree）」预演对手的攻防、用「辩论流程树（Debate Flow Tree）」追踪辩论态势，再配合模拟观众反馈和语音时长控制器，让 LLM 在严格限时的竞技辩论中学会把宝贵的发言时间分配给最有冲击力的动作，人类评测下相比此前 SOTA 多智能体辩论系统在分阶段说服力上 +15.6%、整场观点转移胜率 +10%。
Stronger-MAS: Multi-Agent Reinforcement Learning for Collaborative LLMs: 针对"把 on-policy RL 训到多智能体系统（MAS）上"这一空白，本文提出 AT-GRPO——一套按"智能体 + 轮次"分组的 group-relative RL 算法（配树状采样与全局/局部混合奖励）加上一套支持多策略并发 on-policy 训练的系统，在游戏、规划、代码、数学四类任务上一致提升，长程规划任务的成功率从单智能体 RL 的 14–47% 直接拉到 96.0–99.5%。
UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking: 识别并形式化"未索引信息检索"(UIS) 问题——搜索引擎无法直接检索的动态网页/嵌入文件/交互式内容，提出首个 UIS 基准 UIS-QA（110 题）和多 Agent 框架 UIS-Digger，以 ~30B 参数模型经 SFT+RFT 训练后达到 27.27% 准确率，超越集成 O3/GPT-4.1 的系统。
Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation: 本文发现多智能体 LLM 推理框架（ReMA）中存在"懒惰智能体"现象——一个 agent 几乎包揽全部推理、另一个只会复述，从理论上揪出根因是多轮 GRPO 损失里的 \(1/T\) 归一化项偏向更少的轮数，并提出 Dr. MAMR：去掉该归一化 + Shapley 式因果影响度量 + 针对 <restart> 的可验证奖励，把原本不如单智能体 GRPO 的多智能体系统拉到全面反超（7B 平均 51.97→58.43）。
When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems: 本文首次系统研究了 LLM 多智能体系统中的曼德拉效应（集体虚假记忆），提出 ManBench 基准（4838 个问题、5 种交互协议），发现所有 13 个被评估的 LLM 均易受此效应影响，并提出 prompt 级和模型级缓解策略，平均减少 74.40% 的虚假记忆。
WideSearch: Benchmarking Agentic Broad Info-Seeking: WideSearch 提出首个专门评测"宽度信息检索"（wide-scale info-seeking）的 benchmark——给定一句查询和一个表格 schema，让 agent 把整张表填满，200 道中英人工题、五阶段质控；结果是 10+ 主流搜索智能体整体成功率几乎全部接近 0%，最好的也只有 7%，而人类多人交叉验证能逼近 100%，暴露出当前 agent 在"大规模、零容错"信息收集上的致命短板。