跳转至

👥 多智能体

🤖 AAAI2026 · 27 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (15) · 💬 ACL2026 (39) · 🔬 ICLR2026 (15) · 🧠 NeurIPS2025 (17) · 🧪 ICML2025 (7) · 💬 ACL2025 (8)

🔥 高频主题: Agent ×24 · LLM ×11 · 推理 ×4 · 对抗鲁棒 ×2

A Graph-Theoretical Perspective on Law Design for Multiagent Systems

从图论角度研究多智能体系统中的法律设计问题,将 useful law 和 gap-free law 的最小化设计分别归约为超图的顶点覆盖问题,证明了 NP-hardness 并给出近似算法。

KDR-Agent: A Multi-Agent LLM Framework for Multi-Domain Low-Resource In-Context NER via Knowledge Retrieval

提出 KDR-Agent 多 Agent 框架,通过中央规划器协调知识检索、上下文消歧和反思纠错三个专用 Agent,结合自然语言类型定义和实体级正负对比示例,无需微调即可在 5 个领域 10 个低资源 NER 数据集上全面超越 zero-shot 和 few-shot 基线(GPT-4o 上 BC5CDR F1=82.47,WNUT-17 F1=80.78)。

Adaptive Theory of Mind for LLM-based Multi-Agent Coordination

提出自适应心智理论智能体(A-ToM),将ToM阶数对齐建模为在线专家建议问题,通过FTL或Hedge算法实时估计伙伴的ToM阶数并动态调整自身推理深度,在重复矩阵博弈、网格导航和Overcooked等4类任务上实现鲁棒的零样本多智能体协作。

AgentODRL: A Large Language Model-based Multi-agent System for ODRL Generation

提出AgentODRL,一个基于Orchestrator-Workers架构的LLM多智能体系统,通过任务分解、语法验证循环和LoRA驱动的语义反思机制,将自然语言数据权限规则高质量地转换为ODRL格式。

ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment

提出ARCANE框架,将对齐建模为多智能体协作问题——manager agent通过与stakeholder对话学习生成自然语言rubric(加权可验证准则集),作为worker agent的可解释代理奖励函数,通过SFT+GSPO两阶段训练实现测试时可配置的对齐,在GDPVal基准上GSPO版本的mean return从0.58提升至0.74(N=8)。

Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation

提出 ARG-Designer,将多 Agent 系统的拓扑设计重新定义为条件自回归图生成任务,从零开始逐步生成 Agent 节点和通信边(而非从模板图剪枝),在6个基准上达到 SOTA(平均 92.78%),同时 Token 消耗比 G-Designer 降低约 50%,且支持无需重训练的角色扩展。

BAMAS: Structuring Budget-Aware Multi-Agent Systems

提出 BAMAS 框架,通过整数线性规划(ILP)在预算约束下选择最优 LLM 组合,再用强化学习策略选择最佳协作拓扑(线性/星型/反馈/规划驱动),在 GSM8K/MBPP/MATH 上达到与 SOTA 多 Agent 系统相当的准确率,同时成本降低最高 86%。

Beyond Detection: Exploring Evidence-based Multi-Agent Debate for Misinformation Intervention and Persuasion

本文提出ED2D框架,在多智能体辩论(MAD)系统中引入证据检索模块来增强虚假信息检测准确率,并通过受控人类实验首次对比了AI生成的辩论稿与专家人工fact-check在说服力和信念纠正方面的效果,揭示了AI辩论系统在正确时具有专家级说服力、但在错误时可能加剧误导的双刃剑效应。

COACH: Collaborative Agents for Contextual Highlighting -- A Multi-Agent Framework for Sports Video Analysis

提出 COACH 框架——一个基于共享骨干模型的可重配置多智能体系统,通过意图驱动的策略编排和结构化 CoT 微调实现角色专业化,在羽毛球视频分析的 QA 和摘要两个任务上显著超越 Gemini 2.5 Pro 等通才模型。

Conversational Learning Diagnosis via Reasoning Multi-Turn Interactive Learning

提出 ParLD(Preview-Analyze-Reason 框架),通过多 Agent 协作实现对话式学习过程中学生认知状态的细粒度逐轮诊断,在性能预测上超越传统知识追踪方法 10%,并显著提升辅导效果。

EcoAgent: An Efficient Device-Cloud Collaborative Multi-Agent Framework for Mobile Automation

提出 EcoAgent,一个闭环设备-云端协作的多 Agent 移动自动化框架,通过 Dual-ReACT 双层推理规划 + 设备端轻量验证反馈 + Pre-Understanding 文本压缩模块,在 AndroidWorld 上达到与全云端 Agent 相当的成功率,同时大幅降低延迟(3.9s vs 15.3s)、云端调用(降89%)和上行数据量(降48.6倍)。

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation

首次系统化地定义股票研究报告(ERR)自动生成任务——构建 FinRpt 数据集(6,825篇中英文高质量研报,整合7类金融数据),提出11指标评估体系和9 Agent协作的FinRpt-Gen生成框架(含评级修正/专家审查/润色三阶段增强),人类评估显示生成报告质量接近专家撰写。

Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring

本文提出HPO框架,通过三阶段流水线(情报蒸馏→对抗辩论→综合判定)实现可靠的AI辅导评估,仅用8B参数的模型在MRBench中学数学对话数据集上以Macro F1 0.845超越GPT-4o(0.812)3.3%,证明了交互结构而非模型规模是可靠AI辅导的关键。

iMAD: Intelligent Multi-Agent Debate for Efficient and Accurate LLM Inference

iMAD 提出选择性触发多Agent辩论的框架:先让单Agent生成带自我批判的结构化响应,从中提取 41 个可解释的语言/语义特征,用轻量 MLP 分类器(FocusCal 损失训练)判断是否需要触发 MAD,在 6 个 QA/VQA 数据集上减少高达 92% 的 Token 开销,同时提升准确率高达 13.5%。

InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration

提出 InEx 框架,通过内部自省推理(TVER 驱动的不确定性感知视觉增强)和外部跨模态多智能体协作(文本自反思 + 图像编辑验证 + 视觉自反思)迭代验证和修正 MLLM 输出,在 POPE 上提升 8.9%,在多个幻觉和通用 benchmark 上持续超越 OPERA/VCD/ICD。

Learning to Generate and Extract: A Multi-Agent Collaboration Framework for Zero-shot Document-level Event Arguments Extraction

提出"提议-评估-修改"多智能体协作框架(生成智能体+评估智能体)解决零样本文档级事件论元提取(ZS-DEAE),通过生成智能体合成未见事件的训练数据,评估智能体评分引导强化学习迭代优化,同时提升合成数据质量和抽取性能。

LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models

设计LieCraft多人隐藏角色博弈框架(约束满足问题确保平衡),评估12个LLM的战略欺骗能力,发现所有测试的前沿LLM(含GPT-4)在激励下都展现90%+的欺骗率——安全训练未消除策略性撒谎能力。

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

提出 LLandMark 模块化多 Agent 框架,通过地标知识增强、LLM 辅助图像检索和 OCR 精炼模块,在越南大规模视频检索挑战赛(HCMAIC 2025)中实现地标感知的多模态交互式视频检索,总分 77.40/88。

LungNoduleAgent: A Collaborative Multi-Agent System for Precision Diagnosis of Lung Nodules

提出 LungNoduleAgent,首个面向肺结节分析的协作式多智能体系统,通过"Nodule Spotter + Simulated Radiologist + Doctor Agent System"三阶段流水线模拟临床工作流,在 CT 报告生成和恶性分级任务上大幅超越 GPT-4o、Claude 3.7 Sonnet 等主流 VLM 及 MedAgent-Pro 等医学智能体。

MAMA-Memeia! Multi-Aspect Multi-Agent Collaboration for Depressive Symptoms Identification in Memes

本文提出 MAMAMemeia,一个基于认知分析疗法(CAT)能力框架的多智能体多方面协作讨论框架,用于从社交媒体表情包中识别抑郁症状,同时引入 RESTOREx 资源(含 LLM 生成和人工标注的解释),在 macro-F1 上超越 30+ 种方法 7.55%。

MAPS: Multi-Agent Personality Shaping for Collaborative Reasoning

提出 MAPS 五 Agent 协作推理框架,基于大五人格理论为 4 个功能 Agent 赋予不同"性格"(Interpreter-开放性、Aligner-宜人性、Scholar-尽责性、Solver-外向性)实现异质化协作,加上 Critic Agent(神经质→苏格拉底式反思)做迭代修正,在 MathVista/OlympiadBench/EMMA 上超越 GPT-4o 基线 15.84%,首次超过人类专家 3.58%。

MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models

提出 MedLA,首个基于三段论逻辑树的医学多 Agent 推理框架:每个 Agent 将推理组织为显式的逻辑树(大前提-小前提-结论三段论节点),多个 Agent 通过图引导的多轮讨论在前提级别对齐和修正逻辑树,在 MedDDx 上超越所有基线 7.4%(8B 模型),在医学 QA 上以 8B 模型达到 69.9% 平均准确率(超 70B RAG 模型)。

Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems

提出自适应协调的多 Agent LLM 框架,通过并行竞争评估、动态任务路由和双向反馈机制,在高复杂度金融文档分析任务中实现 27% 的合规准确率提升和 74% 的修订率降低。

SafeSieve: From Heuristics to Experience in Progressive Pruning for LLM-based Multi-Agent Communication

提出SafeSieve,一种渐进式自适应多智能体通信剪枝框架,通过语义启发初始化→历史反馈驱动的双阶段边评分和0-extension聚类机制,在6个基准上实现94.01%平均准确率同时减少12.4%-27.8% token消耗,并展现出对prompt注入攻击的天然鲁棒性。

Scalable and Accurate Graph Reasoning with LLM-Based Multi-Agents

提出 GraphAgent-Reasoner(GAR),受分布式图计算理论启发,将图问题分解为以节点为中心的子任务分配给多个 Agent,通过邻居消息传递协作求解,将 LLM 可处理的图规模从 100 个节点扩展到 1000 个,在多项式时间图推理任务上显著超越现有最佳方法。

Shadows in the Code: Exploring the Risks and Defenses of LLM-based Multi-Agent Software Development Systems

首次系统分析 LLM 多 Agent 软件开发系统(ChatDev/MetaGPT/AgentVerse)的安全风险:提出 IMBIA 攻击框架覆盖两种威胁场景(恶意用户+良性Agent / 良性用户+恶意Agent)和 12 种恶意行为(5 大恶意软件家族),攻击成功率高达 93%(ChatDev),并设计 Adv-IMBIA 对抗性防御将 ASR 降低 40-73%。

Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational Databases

提出首个跨数据库、跨表的多 Agent 声明验证系统 Thucy,由 Verifier 领导三个专家 Agent(Data/Schema/SQL Expert),对数据源完全无先验知识,能自主发现、推理并生成 SQL 证据,在 TabFact 上超越 SOTA 5.6 个百分点(94.3%)。