跳转至

🦾 LLM Agent

💬 ACL2025 · 53 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (41) · 📷 CVPR2026 (21) · 🔬 ICLR2026 (47) · 🤖 AAAI2026 (44) · 🧠 NeurIPS2025 (50) · 📹 ICCV2025 (4)

🔥 高频主题: LLM ×23 · Agent ×23 · 多模态 ×4 · 对齐/RLHF ×2 · 推理 ×2

AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic LLMs

本文提出 AgentAlign 框架,利用抽象行为链作为中介,在模拟环境中合成高质量的 agent 安全对齐数据(有害+良性),通过 SFT 使三类开源模型的 agent 安全性提升35.8%-79.5%,同时保持甚至提升了任务能力。

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

本文提出 Agentic Reward Modeling,将传统基于人类偏好的奖励模型与可验证正确性信号(事实性和指令遵循)相结合,通过路由器-验证代理-判断器的 Agent 架构,实现了在多个奖励模型基准和下游任务上的显著提升。

Agentic Knowledgeable Self-Awareness

本文提出 KnowSelf,一种数据驱动方法,通过在 agent 自探索轨迹上标注特殊 token 来标识不同思维情境(快速思考/慢速思考/知识思考),经两阶段训练(SFT + RPO)使 agent 模型学会自主判断何时需要调用外部知识,以最小知识消耗代价达到最优规划效果。

Agentic Reasoning: A Streamlined Framework for Enhancing LLM Reasoning with Agentic Tools

Agentic Reasoning 提出了一个将 Web 搜索、代码执行和知识图谱记忆(Mind-Map)三种 Agent 工具集成到 LLM 推理过程中的框架,在 DeepSeek-R1 上将 Humanity's Last Exam 准确率从 9.4% 提升到 23.8%(+14.4%),GPQA 从 71.5% 到 81.2%,接近 OpenAI Deep Research 水平。

Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

本文提出Agentic Reward Modeling范式和RewardAgent实现,将传统基于人类偏好的奖励模型与来自事实性验证和指令遵循验证的可验证正确性信号进行整合,通过Router-验证Agent-Judger三模块架构显著提升奖励模型的可靠性。

An Empirical Study on LLM-based Agents for Automated Bug Fixing

本文对SWE-bench Verified上排名前六的LLM-based bug修复系统进行了系统性分析,从整体修复能力、故障定位准确率和缺陷复现有效性三个维度揭示了当前Agent系统的能力边界和改进方向。

AndroidGen: Building an Android Language Agent under Data Scarcity

提出 AndroidGen 框架,通过经验检索(ExpSearch)、反思规划(ReflectPlan)、自动校验(AutoCheck)和步骤级评判(StepCritic)四个模块,在高质量训练数据稀缺的条件下增强LLM的Android操作能力,并通过自动生成轨迹数据训练出无需人工标注的开源移动端agent。

7 Points to Tsinghua but 10 Points to 清华? Assessing Agentic Large Language Models in Multilingual National Bias

首次系统研究LLM作为多语言智能建议agent在推理型决策任务中的国籍偏见,通过大学申请/旅行/搬迁三类场景+Thurstone比较法量化GPT-3.5/GPT-4/Claude Sonnet在6种语言下的评分偏差,发现"本地语言偏见"(local language bias)普遍存在,且CoT推理在非英语语言中反而加剧偏见。

Beyond Numeric Rewards: In-Context Dueling Bandits with LLM Agents

系统评估了 LLM 在 Dueling Bandits(偏好反馈强化学习)中的零样本上下文决策能力,发现 GPT-4 Turbo 在弱遗憾(weak regret)上表现出色但强遗憾(strong regret)存在差距,进而提出 LEAD 框架(LLM with Enhanced Algorithmic Dueling),通过将经典 DB 算法与 LLM 智能体细粒度自适应融合来同时获得理论保证和鲁棒性。

BookWorld: From Novels to Interactive Agent Societies for Story Creation

BookWorld是首个基于小说的多智能体社会模拟系统,通过从源书籍中提取角色数据和世界观信息来构建交互式虚拟世界,让小说角色在其中自主行动和互动,进而生成创意故事,在75.36%的对比中超越了之前的故事生成方法。

Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking

本文提出WebExperT框架,模拟人类"快思考与慢思考"的规划模式,并通过从失败中反思的经验学习机制不断改进决策,在Mind2Web基准上取得了监督和无监督设置下的优异表现。

Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model

本文提出CoALM(Conversational Agentic Language Model),通过构建融合多轮ReAct推理和复杂API调用的多任务训练数据CoALM-IT,训练出同时擅长传统任务型对话(TOD)和语言Agent(LA)工具调用的统一模型,在MultiWOZ、BFCL V3和API-Bank三个基准上超越GPT-4o等专用模型。

Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions

本文首次系统研究了多模态 GUI Agent 对环境干扰(弹窗广告、推荐内容等)的脆弱性,在无恶意攻击的自然场景下,即使最强的 MLLM(包括GPT-4o)也有 20-40% 的概率被环境中的无关内容分散注意力而执行偏离用户目标的操作。

DICE-Bench: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues

提出 DICE-Bench,一个面向多轮多方对话场景的函数调用评测基准,包含 1607 条高质量对话实例和量化信息分散度的 DICE-Score 指标,揭示当前 LLM 在复杂对话中工具调用能力的不足。

Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration

提出 DPT-Agent,首个将双过程理论(Dual Process Theory)系统化地融入语言智能体框架的方法——用有限状态机(FSM)+code-as-policy 作为快速直觉的 System 1,用心智理论(ToM)+异步反思的 LLM 作为慢速深思的 System 2,首次实现了自主的实时同步人机协作(在 Overcooked 困难版中)。

Enhancing LLM Agent Safety via Causal Influence Prompting

提出 CIP(Causal Influence Prompting),利用因果影响图(CID)结构化表征 LLM Agent 的决策因果关系,通过初始化 CID→CID 引导交互→迭代更新 CID 三步流程,有效增强 Agent 在代码执行和移动设备控制任务中的安全性。

Explorer: Scaling Exploration-Driven Web Trajectory Synthesis for Multimodal Web Agents

提出 Explorer——一个可扩展的多智能体 pipeline,通过自主网页探索和逐步精炼来合成大规模多模态 web 轨迹数据集(94K 成功轨迹,49K+ URL,720K 截图),训练的 Explorer-7B 在 Mind2Web-Live、MiniWob++ 等 benchmark 上达到甚至超过 GPT-4 水平。

FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models

提出FACT-AUDIT——一个基于重要性采样和多智能体协作的自适应动态事实核查评估框架,通过动态生成测试数据、迭代探测模型弱点、并同时评估verdict预测和justification质量,全面审计LLM的事实核查能力边界。

GeAR: Graph-enhanced Agent for Retrieval-augmented Generation

GeAR 通过图扩展机制(SyncGE)增强传统检索器的多跳发现能力,并结合 Gist Memory 代理框架实现多步检索推理,在 MuSiQue 等多跳QA数据集上超过现有SOTA 10%+,同时消耗更少的 token 和迭代次数。

GUI Agents: A Survey

本文对基于大型基础模型的图形用户界面(GUI)代理进行了全面综述,提出了涵盖感知、推理、规划、执行四大能力的统一分析框架,系统梳理了 GUI Agent 的基准测试、评估指标、架构设计和训练方法,并讨论了关键挑战和未来方向。

GUI-explorer: Autonomous Exploration and Mining of Transition-aware Knowledge for GUI Agent

提出 GUI-explorer,一个无需训练的 GUI agent,通过自主探索收集功能感知的交互轨迹,并以无监督方式从状态转换三元组中挖掘 transition-aware 知识,在 SPA-Bench 和 AndroidWorld 上分别达到 53.7% 和 47.4% 的任务成功率。

GUICourse: From General Vision Language Model to Versatile GUI Agent

本文提出GUICourse——一套用于从通用视觉语言模型(VLM)训练多功能GUI代理的数据集系列(GUIEnv/GUIAct/GUIChat),通过两阶段训练流程先增强OCR和定位能力、再注入GUI知识,使得3.1B参数的小模型也能在网页和手机GUI导航任务上取得有效表现。

GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents

提出 GuideBench 基准测试,系统评估 LLM 在领域导向指南遵循方面的能力,覆盖 7 个任务类别共 1272 个实例,从规则遵循、规则更新鲁棒性和人类偏好对齐三个维度评估 18 个 LLM,发现当前模型在复杂领域规则遵循上仍有较大提升空间。

Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement

提出 Gödel Agent,一种受 Gödel Machine 启发的自引用 Agent 框架,能通过 Python monkey patching 在运行时读取和修改自身代码(包括修改自身的修改逻辑),实现递归自改进,在 DROP/MGSM/MMLU/GPQA 上超越手工设计和元学习优化的 Agent。

iAgent: LLM Agent as a Shield between User and Recommender Systems

提出用户-Agent-平台三层范式,在用户和推荐系统之间插入 LLM Agent 作为保护层,通过指令解析、知识获取、重排序和动态用户画像实现个性化推荐,在四个数据集上平均提升 16.6%,同时有效缓解回音室效应和低活跃用户的不公平问题。

LegalAgentBench: Evaluating LLM Agents in Legal Domain

提出 LegalAgentBench,一个面向中国法律领域的 LLM Agent 综合评测基准,包含 17 个真实语料库、37 个工具和 300 个覆盖多跳推理与写作的任务,通过关键词匹配和过程进度率实现细粒度评估。

Enhancing Interpretable Image Classification Through LLM Agents and Conditional Concept Bottleneck Models

提出 Conditional Concept Bottleneck Models (CoCoBMs) 和 LLM-driven Concept Agent 框架,通过类别条件化的概念评分机制和基于环境反馈的动态概念库优化,在 6 个数据集上提升分类准确率 6% 的同时将可解释性提升约 30%。

LLM Agents Making Agent Tools

本文提出ToolMaker,一个自主将GitHub代码仓库转化为LLM兼容工具的代理框架,给定一个仓库URL和任务描述即可自动安装依赖、生成调用代码并通过闭环自修复机制调试,在涵盖多个领域15个复杂任务的新基准上正确实现了80%的任务,大幅超越了现有软件工程代理。

LocAgent: Graph-Guided LLM Agents for Code Localization

LocAgent 将代码库解析为有向异构图(含 contain/import/invoke/inherit 四种关系),并设计统一工具(SearchEntity/TraverseGraph/RetrieveEntity)引导 LLM Agent 进行多跳推理,实现高精度代码定位,在文件级达到 92.7% 准确率,同时通过微调开源模型将成本降低 86%。

Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation

提出 Magnet 框架,基于函数依赖图的随机游走和节点操作(Insert/Merge/Split)构建高质量多轮 Function Calling 训练轨迹,结合基于提示的上下文蒸馏生成正负对比轨迹进行 SFT + mDPO 训练,使 14B 模型 Magnet-14B-mDPO 在 BFCL-v3 上达到 68.01(排名第 4),在多轮场景上大幅超越教师模型 Gemini-1.5-pro-002。

Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger

提出 MeCo(Meta-Cognition Trigger),通过表示工程从 LLM 内部提取"元认知信号"——模型对自身能力的自我评估——来自适应决定是否需要调用外部工具,无需微调且计算开销极小,在多个骨干模型和基准上显著改善工具使用决策的准确性。

MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis

提出 MEDDxAgent 框架,通过中央编排器 DDxDriver 协调病史采集模拟器、知识检索智能体和诊断策略智能体三个模块进行迭代式鉴别诊断(DDx),在交互式诊断场景下实现超过 10% 的准确率提升,同时提供完整的推理可解释性。

MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

提出 MetaSynth,利用元提示(meta-prompting)驱动的多智能体协作框架生成高多样性的合成数据,仅用 25M tokens 合成数据(不混合真实数据)就能将 Mistral-7B 成功适配到金融和生物医学领域,分别提升 4.08% 和 13.75%,同时不损害通用能力。

Unveiling Privacy Risks in LLM Agent Memory

本文系统研究了 LLM Agent 记忆模块的隐私风险,提出 MEXTRA 黑盒记忆提取攻击,通过精心设计的定位-对齐攻击 prompt 和自动化多样 prompt 生成方法,在医疗和网购两种 Agent 上成功提取大量私人查询记录。

Multiple LLM Agents Debate for Equitable Cultural Alignment

提出 Multi-Agent Debate 框架,让两个 LLM agent 围绕文化场景进行辩论并由 judge LLM 仲裁,在 NormAd-eti 基准上显著提升文化适应准确率和跨文化群体公平性,使 7-9B 小模型达到 27B 模型的性能水平。

NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization

提出 NexusSum,一个三阶段多Agent LLM框架(对话转描述→层次摘要→迭代压缩),无需微调即可处理书籍/电影/电视剧等长叙事文本的摘要生成,在 BookSum 上 BERTScore 提升达 30%。

OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents

提出 OS-Kairos,通过协作探测框架标注每步置信度分数并微调进基座模型,使 GUI Agent 能在每步预测置信度、自主决定执行或请求人类干预,在复杂场景下任务成功率 (TSR) 从 OS-Atlas-Pro-7B 的 14.29% 提升到 88.20%,在 AITZ 和 Meta-GUI 基准上也有 24~87% 的绝对提升。

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

全面综述了基于多模态大语言模型的操作系统 Agent(OS Agents),系统梳理了其基础概念(环境/观察/动作空间)、核心能力(理解/规划/动作落地)、构建方法(基础模型+Agent框架)和评估体系,涵盖 30+ 基础模型和 20+ Agent 框架的分类对比。

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

系统综述了基于多模态大语言模型(MLLM)的操作系统智能体(OS Agents),从基本概念(环境/观测/动作空间)、核心能力(理解/规划/定位)、构建方法(基础模型+智能体框架)到评估基准全面梳理,揭示了该领域从虚拟助手到通用计算设备自动化的演进路径。

OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis

提出 OS-Genesis,一种交互驱动的 GUI Agent 轨迹合成 pipeline,通过先让 agent 在环境中探索交互再反向推导任务(Reverse Task Synthesis),结合轨迹奖励模型 (TRM) 过滤质量,生成高质量多样化的训练轨迹,在 AndroidWorld 上性能接近翻倍。

PaSa: An LLM Agent for Comprehensive Academic Paper Search

PaSa 是一个基于 LLM 的学术论文搜索智能体,通过自主调用搜索工具、阅读论文和导航引用网络来实现全面准确的学术文献检索,经 RL 训练后在真实场景中大幅超越 Google Scholar 和 GPT-4o。

Play2Prompt: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play

提出 Play2Prompt,通过让 LLM 自主"玩"工具(试探输入输出行为)来零样本地生成工具使用示例和优化工具文档,无需任何标注数据即可显著提升 LLM agent 的工具调用能力。

R2D2: Remembering, Replaying and Dynamic Decision Making with a Reflective Agentic Memory

R2D2 提出了一个结合 Remember(经验回放缓冲区 + A* 搜索导航)和 Reflect(错误反思 + 反思记忆存储)两范式的 Web Agent 框架,将 Web 导航从 Unknown MDP 转化为 Known MDP,在 WebArena 上导航错误减少 50%,任务完成率提升 3 倍,超越 SOTA 17%。

REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science Research?

本文提出 REPRO-Bench,一个包含 112 个社会科学论文实例的基准,用于评估 AI Agent 自动化评估论文可重复性的能力;现有最佳 Agent 准确率仅 21.4%(低于随机猜测的 25%),作者进一步开发的 REPRO-Agent 将准确率提升至 36.6%(71% 相对提升)。

REPRO-Bench: Can Agentic AI Systems Assess the Reproducibility of Social Science?

提出 REPRO-Bench,包含 112 个社会科学论文的可复现性评估任务,发现现有 AI Agent(最高准确率仅 21.4%)远不足以自动化该流程,并据此开发 REPRO-Agent 将准确率提升至 36.6%。

Self-Taught Agentic Long-Context Understanding

提出 AgenticLU 框架,通过 Chain-of-Clarifications (CoC) 工作流让 LLM 自主生成澄清问题并检索相关上下文,再通过 SFT+DPO 两阶段微调将树搜索路径蒸馏到模型中,使 8B 模型在 128K 长上下文 QA 任务上大幅超越基线。

SMART: Self-Aware Agent for Tool Overuse Mitigation

揭示 LLM Agent 中的"工具过度使用"现象(≥30% 的工具调用是不必要的),提出 SMART 元认知范式,通过在推理步骤中显式标注"知识驱动 vs 工具依赖"来训练 Agent 的自感知能力,7B 模型匹配 GPT-4o 水平。

"sudo rm -rf agentic_security" | SUDO: Screen-based Universal Detox2tox Offense

提出SUDO攻击框架,通过Detox2tox三阶段流水线将恶意请求伪装为无害指令再恢复攻击载荷,配合基于检查清单反馈的动态迭代优化,系统性攻破Claude CUA、MANUS等计算机使用Agent的安全防护,最高达41.33%攻击成功率。

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

SynWorld 提出让 Agent 在合成的虚拟场景中通过蒙特卡洛树搜索(MCTS)来探索和优化动作知识(工具描述和工作流),使 Agent 能够自主适应新环境的工具使用,在 ToolBench 上比 ReAct 基线提升约 9 个百分点。

The Behavior Gap: Evaluating Zero-shot LLM Agents in Complex Task-Oriented Dialogs

提出综合评估框架量化 LLM agent 与人类专家在任务导向对话中的"行为差距",从 dialog acts、工具使用、知识利用三个维度系统诊断行为偏差,发现行为差距与任务复杂度高度相关(\(r=0.963\)),通过行为注入缩小差距可平均提升 24.3% 性能。

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

提出 ToolHop——一个包含 995 个多跳查询和 3912 个本地可执行工具的基准数据集,通过"查询驱动"的数据构建方式(先有查询再造工具)确保工具间有真实依赖关系和可验证答案,评测 14 个 LLM 发现最强的 GPT-4o 准确率仅 49%,揭示了不同模型家族在工具使用上的显著策略差异。

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

提出 ToolHop——一个包含 995 个多跳查询和 3912 个本地可执行工具的基准数据集,通过"查询驱动"的数据构建方式(先有查询再造工具)确保工具间有真实依赖关系和可验证答案,评测 14 个 LLM 发现最强的 GPT-4o 准确率仅 49%,揭示了不同模型家族在工具使用上的显著策略差异。

Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

提出 AIDsafe 多智能体迭代审议框架,自动生成嵌入安全策略的高质量 CoT 数据,微调后的模型在安全泛化和越狱鲁棒性上显著优于传统安全训练,同时引入 ear-whisperer agent 解决 DPO 偏好数据中 selected/rejected 难以区分的问题。