跳转至

🦾 LLM Agent

🤖 AAAI2026 · 33 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (42) · 🔬 ICLR2026 (162) · 💬 ACL2026 (82) · 🧪 ICML2026 (59) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (4)

🔥 高频主题: Agent ×10 · LLM ×10 · 推理 ×4 · 对抗鲁棒 ×2 · 对齐/RLHF ×2

A2Flow: Automating Agentic Workflow Generation via Self-Adaptive Abstraction Operators

提出 A2Flow 框架,通过三阶段流水线(案例生成→功能聚类→深度提取)从专家数据中全自动提取可复用的抽象执行算子,替代人工预定义算子,并引入算子记忆机制累积中间输出辅助节点决策,在 8 个基准上整体超越 AFLOW 等 SOTA,资源消耗降低 37%。

Agent-SAMA: State-Aware Mobile Assistant

提出Agent-SAMA,首次将有限状态机(FSM)引入移动端GUI Agent,将UI屏幕建模为状态、用户操作建模为转移,通过四个专门化Agent协作实现状态感知的任务规划、执行验证和错误恢复,在跨App基准上成功率提升最高12%、恢复率提升13.8%。

AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search

提出AgentSwift框架,通过层次化搜索空间(同时优化agentic workflow和功能组件)、轻量级value model预测agent性能、以及不确定性引导的MCTS搜索策略,自动发现高性能LLM agent设计,在7个基准上平均提升8.34%。

AMS-IO-Bench and AMS-IO-Agent: Benchmarking and Structured Reasoning for Analog and Mixed-Signal Integrated Circuit Input/Output Design

提出AMS-IO-Agent,一个基于LLM的领域专用智能体,通过结构化意图图(Intent Graph)和领域知识库将自然语言设计意图转化为可生产的模拟混合信号IC I/O环设计,配套提出首个AMS I/O环自动化基准AMS-IO-Bench,在28nm CMOS流片中验证了智能体生成的I/O环可直接用于实际芯片制造。

AutoGLM: Autonomous Foundation Agents for GUIs

AutoGLM 基于 ChatGLM 构建了面向 Web 浏览器和 Android 手机的 GUI 基础智能体,通过中间接口设计分离规划与定位行为,并提出自进化在线课程强化学习框架,在 VAB-WebArena-Lite 上达到 55.2% 成功率,大幅超越 GPT-4o 的 18.2%。

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operations

提出AutoDW框架,通过逐步规划(每次生成一个API调用)+自适应回滚(参数级+API级两层回滚)实现复杂文档工作流自动化,在250会话/1708指令的DWBench上达到90%指令级和62%会话级完成率,分别超越最强基线40%和76%。

AutoTool: Efficient Tool Selection for Large Language Model Agents

提出 AutoTool,一种基于图的工具选择框架,利用工具使用惯性(tool usage inertia)构建工具惯性图(TIG),通过统计结构绕过重复的 LLM 推理来选择工具和填充参数,在保持任务完成率的同时减少最多 30% 的推理开销。

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

提出 vPGM 框架,通过自然语言引导 LLM Agent 模拟概率图模型(PGM)的贝叶斯推理过程,发现隐变量并推断后验分布,再用 Dirichlet 先验做数值贝叶斯校准(BayesVPGM),在多个推理任务上同时提升准确率和置信度校准。

CausalTrace: A Neurosymbolic Causal Analysis Agent for Smart Manufacturing

提出 CausalTrace——一个集成于工业 CoPilot(SmartPilot)中的神经符号因果分析智能体,融合数据驱动因果发现与工业本体/知识图谱,实现了实时的根因分析、反事实推理和可解释决策支持。

Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents

提出Co-EPG框架,将GUI Agent解耦为Planning和Grounding两个模型,通过GRPO协同训练和基于置信度的动态奖励集成机制(C-DREM)建立正反馈循环,使两个模型自迭代协同进化,仅用基准数据集(无需外部数据)即在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)上达到SOTA。

Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

提出ORS3D任务——将运筹学(OR)知识引入具身AI的任务调度,要求智能体利用可并行子任务的等待时间执行其他任务以最小化总完成时间,同时在3D场景中定位目标物体;构建60K级数据集ORS3D-60K,并提出GRANT模型通过调度token机制连接外部动态规划求解器,在时间效率上比baseline提升30.53%。

COVR: Collaborative Optimization of VLMs and RL Agent for Visual-Based Control

提出 VLM 与 RL 双向协同优化框架 COVR:RL 生成的高质量交互数据用于微调 VLM,增强后的 VLM 反过来通过 action prior 指导 RL 策略学习,在 CARLA 和 DMControl 上取得 SOTA。

D-GARA: A Dynamic Benchmarking Framework for GUI Agent Robustness in Real-World Anomalies

提出 D-GARA,一个面向 Android GUI Agent 的动态鲁棒性评估框架,通过在实时交互过程中注入权限弹窗、电量警告、应用崩溃等真实世界异常,揭示现有 SOTA Agent(包括 UI-TARS-72B、GPT-4o)在中断场景下平均成功率下降超过 17.5%,最高达 33% 的严重脆弱性。

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

提出双重效率(dual-efficiency)的概念,将 LLM Agent 的效率分解为 step 级(减少每步 token 数)和 trajectory 级(减少总步数),并基于 KTO 设计了 DEPO 方法,通过在 desirable 样本的 reward 中加入效率 bonus 来联合优化效率与性能。

From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness

首个系统性案例研究,揭示基于人口统计学的 persona 分配会导致 LLM Agent 在 5 个操作领域的任务执行中出现最高 26.2% 的性能下降,证明 persona 诱导的偏见从文本生成延伸到了行动决策层面。

History-Aware Reasoning for GUI Agents

提出 HAR 框架,通过构建反思学习场景、合成纠错指南、设计混合 RL 奖励函数(含 Memory-Augmented Reward),将 GUI Agent 的推理模式从"历史无感知"转变为"历史感知",3B 模型在 AITW/Mind2Web/GUI-Odyssey 等多个 benchmark 上超越更大模型。

LLMTM: Benchmarking and Optimizing LLMs for Temporal Motif Analysis in Dynamic Graphs

提出 LLMTM——首个评估 LLM 处理动态图中时序 motif 分析能力的综合基准,包含 6 类任务覆盖 9 种时序 motif 类型,评估 9 个模型后发现 LLM 对时序 motif 的识别能力随 motif 复杂度快速下降。提出结构感知分派器(Structure-Aware Dispatcher),根据图的结构属性和认知负荷智能路由查询到标准 LLM 提示或工具增强 Agent,在维持高准确率的同时降低计算成本。

Loss-Guided Auxiliary Agents for Overcoming Mode Collapse in GFlowNets

提出 LGGFN(Loss-Guided GFlowNets),用辅助 GFlowNet 的探索直接由主 GFlowNet 的训练损失驱动——辅助 Agent 的奖励 = 原始奖励 + λ·主模型损失,优先采样主模型理解不足的区域,在网格/序列/贝叶斯结构学习任务上分别发现 40× 更多唯一模式、99% 探索误差降低。

MoralReason: Generalizable Moral Decision Alignment For LLM Agents Using Reasoning-Level Reinforcement Learning

使用Group Relative Policy Optimization (GRPO)在推理层面训练LLM进行道德框架对齐,在Moral-Reason-QA数据集(680个高歧义场景)上实现功利主义对齐分数从0.207提升到0.964的分布外泛化。

PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching

提出 PerTouch 框架,结合基于 Stable Diffusion + ControlNet 的语义区域级修图模型和 VLM 驱动的 Agent(含反馈重思考机制和场景感知记忆),实现精细化、个性化的图像修图。

Physics-Informed Autonomous LLM Agents for Explainable Power Electronics Modulation Design

提出PHIA系统:LLM规划器通过聊天接口收集设计需求,协调物理信息神经网络代理模型(层次化PINN)和优化算法自主迭代生成电力转换器调制设计方案,MAE降低63.2%、设计速度提升33倍、20位专家验证可用性。

ProBench: Benchmarking GUI Agents with Accurate Process Information

提出 ProBench,首个同时评估"最终状态"和"操作过程"的移动端 GUI Agent benchmark:200+ 挑战性任务覆盖 34 个中英文主流 App,通过 Process Provider(Structure Description Converter + MLLM Summarizer)自动捕获精确的中间过程信息,评估发现最强模型 Gemini 2.5 Pro 也仅完成 40.1% 任务,暴露了 grounding 不足、历史操作感知差、任务规划过于简化三大普遍问题。

Promoting Sustainable Web Agents: Benchmarking and Estimating Energy Consumption Through Empirical and Theoretical Analysis

首次系统性地从实证基准测试和理论估算两个角度量化了 Web Agent 的能耗与碳排放,发现更高能耗并不等于更好性能,并倡导在评测中引入能效指标。

Prune4Web: DOM Tree Pruning Programming for Web Agent

提出 Prune4Web,通过"LLM 生成评分函数参数 + 固定启发式模板执行"的编程式 DOM 剪枝方法实现 25-50 倍候选元素缩减:三阶段 pipeline(Planner 分解子任务 → Programmatic Filter 生成评分函数剪枝 DOM → Grounder 执行操作),3B 模型在 Multimodal-Mind2Web 上达到 52.4% Step SR(超越所有同参数量基线甚至部分 9.6B/32B 模型),低级 grounding 准确率从 46.8% 提升至 88.28%。

Reflection-Driven Control for Trustworthy Code Agents

提出 Reflection-Driven Control 模块,将"自我反思"从事后补丁提升为 Agent 推理过程中的一等控制回路,通过轻量自检、证据驱动修复和反思记忆库三个组件,在安全代码生成任务上显著提升代码安全率。

SoMe: A Realistic Benchmark for LLM-based Social Media Agents

提出首个面向社交媒体智能体的综合性评测基准 SoMe,包含 8 项任务、900 万+真实帖子和 17,869 条标注查询,评估 13 个主流 LLM 的社交媒体代理能力,揭示现有模型在复杂社交任务上仍有较大差距。

Structured Personalization: Modeling Constraints as Matroids for Data-Minimal LLM Agents

将 LLM Agent 个性化中的结构化约束(逻辑依赖 + 层级配额)形式化为层叠拟阵(laminar matroid),证明贪心算法在此约束下仍具有常数因子近似保证,解决了有依赖关系和层级限制的数据最小化选择问题。

Time, Identity and Consciousness in Language Model Agents

本文将Stack Theory的时间间隙概念应用于LLM智能体评估,提出区分"说得像一个稳定自我"和"组织得像一个稳定自我"的保守评估工具包,通过持久性得分和身份形态空间揭示不同scaffold结构的身份trade-off。

TongUI: Internet-Scale Trajectories from Multimodal Web Tutorials for Generalized GUI Agents

TongUI 提出从互联网上的多模态教程(视频+图文)自动转化为 GUI 操作轨迹数据的框架,构建了百万级的 GUI-Net-1M 数据集,用于微调 Qwen2.5-VL 模型,在多个 grounding 和 navigation 基准上超越或接近 UI-TARS 等 SOTA。

Towards Trustworthy Multi-Turn LLM Agents via Behavioral Guidance

提出任务完成框架,通过任务分析器(Task Profiler)、推理模块(Reasoning Module)和生成模块(Generation Module)三组件协同进化,使 LLM Agent 在多轮交互环境中实现可验证和可靠的行为引导。

Verification-Guided Context Optimization for Tool Calling via Hierarchical LLMs-as-editors

提出VGCO框架,利用LLM作为分层编辑器,通过验证引导的方式迭代优化工具文档和知识库上下文,显著提升大规模工具调用场景下的检索召回、工具选择和参数填充准确率。

When Refusals Fail: Unstable Safety Mechanisms in Long-Context LLM Agents

系统研究 LLM Agent 在长上下文填充下的安全行为变化:发现声称支持 1M-2M token 的模型在 100K token 时已出现 >50% 的性能崩溃,拒绝率以不可预测的方式波动(GPT-4.1-nano 从 5% 升至 40%,Grok 4 Fast 从 80% 降至 10%),揭示了长上下文 Agent 系统的严重安全隐患。

With Great Capabilities Come Great Responsibilities: Introducing the Agentic Risk & Capability Framework for Governing Agentic AI Systems

提出 Agentic Risk & Capability (ARC) 框架,从能力(Capability)视角系统化地识别、评估和缓解智能体 AI 系统的安全与安全风险,为组织级治理提供可操作的结构化方法论。