跳转至

🦾 LLM Agent

🔬 ICLR2026 · 162 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (42) · 💬 ACL2026 (82) · 🧪 ICML2026 (59) · 🤖 AAAI2026 (33) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (4)

🔥 高频主题: LLM ×41 · Agent ×37 · 推理 ×14 · 强化学习 ×9 · 多模态 ×7

A\(^2\)FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

A2FM 在同一个 backbone 里塞进 instant / reasoning / agentic 三种执行模式,先学"该走哪条路"再对齐各模式轨迹,并用一套带成本正则的强化学习(APO)让模型在简单题上少花钱、难题上不掉准,32B 规模上把单次正确答案的成本砍掉约 45%。

A Benchmark for Deep Information Synthesis (DeepSynth)

提出 DeepSynth 基准,包含 120 个跨 7 领域 67 国的真实信息综合任务(平均需 5.5 小时人工标注),要求 agent 从多个网页收集信息并进行结构化推理,当前最强 agent(o3-deep-research)仅获 8.97 F1 / 17.5% LLM-Judge,揭示了 LLM agent 在信息综合方面的严重不足。

A Framework for Studying AI Agent Behavior: Evidence from Consumer Choice Experiments

作者提出 ABXLAB——一个实时拦截并改写网页内容的"中间人"框架,把任意购物网站变成可控的行为实验场,系统性地测量 17 个主流 LLM 智能体在价格、评分、展示顺序、心理 nudge 等线索下的选择偏差,发现智能体比人类更容易被操纵,偏差幅度可达人类的 3–10 倍。

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

提出一种轻量的「智能体数据中间语言」ADP,把 13 个格式各异的智能体训练集统一成同一套 Trajectory/Action/Observation 模式,再分发到不同 agent 框架做 SFT,平均比 base 模型涨约 20%,在编码/浏览/工具使用等任务上达到 SOTA 或接近 SOTA。

AgentFold: Long-Horizon Web Agents with Proactive Context Folding

AgentFold 把 web agent 的上下文当作可主动雕刻的"认知工作区",每一步在推理时额外输出一个"折叠指令",对历史轨迹做细粒度凝练或多步深度合并,使 100 轮交互后上下文仅约 7k token;仅 30B 激活 3B 的模型就在 BrowseComp 上拿到 36.2%,超过 671B 的 DeepSeek-V3.1 和 OpenAI o4-mini。

AgentGym-RL: An Open-Source Framework to Train LLM Agents for Long-Horizon Decision Making via Multi-Turn RL

本文开源了一个解耦的多轮强化学习框架 AgentGym-RL,能在 Web 导航、深度搜索、数字游戏、具身控制、科学任务五大真实场景里从零训练 LLM agent,并提出 ScalingInter-RL——一种"先短程后长程"逐步放大交互轮数的分阶段训练法,让 7B 模型在 27 个任务上追平甚至超过 OpenAI o3、Gemini-2.5-Pro。

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

提出 ACE(Agentic Context Engineering)框架,将 context 视为不断演化的"策略手册"(playbook),通过 Generator-Reflector-Curator 三角色分工和增量式 delta 更新来持续积累和精炼策略,解决了现有 prompt 优化中的简洁偏差和上下文坍塌问题,在 agent 任务上平均提升 10.6%、金融任务提升 8.6%,且自适应延迟降低 86.9%。

AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?

AgenTracer 用"反事实回放 + 程序化故障注入"自动标注多智能体失败轨迹、造出 TracerTraj-2.5K 数据集,再用多粒度强化学习训出一个 8B 的轻量"失败追踪器",在 Who&When 基准上把决定性错误定位到具体智能体和步骤,agent 级准确率反超 Gemini-2.5-Pro、Claude-4-Sonnet 等巨型模型最多 18.18%,并能给 MetaGPT、MaAS 等现成系统反馈、带来 4.8~14.2% 的性能提升。

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。

AlphaAgentEvo: Evolution-Oriented Alpha Mining via Self-Evolving Agentic Reinforcement Learning

把量化"挖因子"从脆弱的"搜索—回测—重启"循环,重写成一条连续进化轨迹:用一个 4B 的 LLM 智能体,在多轮工具调用中由分层奖励引导自我探索,学会长程规划和反思,最终用 4B 参数就超过用 GPT-5-mini / DeepSeek-R1 驱动的因子进化方法。

An Information Theoretic Perspective on Agentic System Design

把 agentic 系统里"小模型压缩上下文、大模型读压缩后推理"的通用范式抽象成一条带噪信道,用一个可直接由推理引擎计算的互信息估计量来度量压缩质量,从而以任务无关的方式回答"该把算力堆在压缩器还是预测器"——答案是堆压缩器。

Aria: an Agent for Retrieval and Iterative Auto-Formalization via Dependency Graph

Aria 把"把自然语言数学命题翻译成 Lean 形式化代码"做成一个检索 + 迭代合成的 agent:先用"思维图"(Graph-of-Thought)把命题自顶向下拆成概念依赖图、能在 Mathlib 里检索到的概念就锚定、查不到的就自底向上现合成新定义,再配一个会从 Mathlib 拉回每个 Lean 术语真实定义的语义检查器 AriaScorer 把关;在研究级猜想数据集上别人全 0%、它做到 42.9%。

AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

提出AutoFigure——第一个基于"推理渲染"范式的Agent框架,通过解耦结构布局规划和美学渲染两阶段自动从长科学文本生成达到出版质量的科学插图,配合首个大规模基准FigureBench(3,300对)进行系统评估,66.7%的生成结果被原作者认为可用于camera-ready版本。

BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design

把序贯贝叶斯实验设计(BED)套到 LLM 上,让模型每一轮都挑"期望信息增益(EIG)最大"的问题去问用户,从而把 LLM 变成会主动、自适应收集信息的多轮对话 agent;在 20 Questions 和电影偏好推断上,平均成功率比直接 prompting 高出 37.4 个百分点。

Benchmarking LLM Tool-Use in the Wild

WildToolBench 从真实用户日志里提炼出"野生"对话的三大特征——复合任务、隐藏意图、指令切换,构建了 256 个场景共 1024 个任务的多轮多步工具调用 benchmark,对 57 个主流 LLM 的评测发现没有一个模型 session 准确率超过 15%,说明现有 LLM 的 agentic 能力远没有刷榜数字看起来那么强。

C-Evolve: Consensus-based Evolution for Prompt Groups

C-Evolve 把"进化出一个最优提示词"改成"进化出一组互补的提示词",用一个衡量提示词在群体投票中贡献度的 voting score 作为进化适应度,让多个提示词聚合后达成共识,从而突破单提示词的能力天花板。

Can Language Models Discover Scaling Laws?

本文提出 SLDAgent——一个协同进化「公式生成器 + 参数优化器」的进化式智能体,并配套首个缩放律发现基准 SLDBench,首次证明 LLM 智能体能自动发现出在全部 8 个任务上外推精度都超过人类专家手工推导的缩放律。

ChatInject: Abusing Chat Templates for Prompt Injection in LLM Agents

揭示 LLM Agent 中 chat template 的结构性漏洞:通过在工具返回的数据中伪造角色标签(如 <system>, <user>),攻击者可以劫持模型的角色层级认知,将恶意指令伪装为高优先级指令,ASR 从 5-15% 提升至 32-52%。

ChinaTravel: An Open-Ended Travel Planning Benchmark with Compositional Constraint Validation for Language Agents

ChinaTravel 用一套可组合的领域专用语言(DSL)把"开放式自然语言旅行需求"自动翻译成可验证的逻辑约束与偏好目标,配上 1154 名真实用户的中文查询,构建出首个真正开放、需要上下文落地与未见约束组合泛化的多日多 POI 旅行规划基准,并实证神经符号 agent 在约束满足率上比纯 LLM 高出 10 倍(37.0% vs 2.60%)却仍远未解决。

CoDA: Agentic Systems for Collaborative Data Visualization

CoDA 把"自然语言生成数据可视化"重新建模成一个多智能体协作问题,用 8 个各司其职的 LLM 智能体分阶段完成理解、规划、生成与自反思,靠"只读元数据不读原始数据"绕开 token 上限、靠"质量驱动的反思回环"反复打磨图表,在 MatplotBench / Qwen / DA-Code 上把整体得分较强基线最高提升 41.5%。

Code Driven Planning with Domain-Adaptive Selector

CoPiC 让 LLM 一次性生成多个"高层规划程序"(而非逐步问 LLM 要计划),由这些程序自己跟环境闭环交互产出候选计划,再用一个经 RL 微调的小模型"域自适应选择器"挑出最契合长期回报的计划执行,从而在 ALFWorld / NetHack / 星际争霸 II 造兵三个环境上把成功率平均提升 19.14%、token 开销平均削减 79.39%。

Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration

提出 Collaborative Gym(Co-Gym)——首个支持人与 LM 智能体在共享任务环境中双向通信、非轮流协作的开放框架,并配套一套同时考核协作结果与协作过程的评测套件。

CoLLMLight: Cooperative Large Language Model Agents for Network-Wide Traffic Signal Control

CoLLMLight 给路网里每个路口配一个 LLM 智能体,让它们通过"异步时空推理 + 实时决策"双模块互相协作(而非各管各的路口),再用"成本感知优化"(自适应推理链微调 + PPO 强化学习)把推理深度按交通复杂度自动伸缩,在四个真实路网上零样本超越所有传统、RL 和单体 LLM 基线,同时把决策延迟压到黄灯时长以内。

CoMind: Towards Community-Driven Agents for Machine Learning Engineering

提出MLE-Live——首个模拟Kaggle研究社区的实时评估框架,以及CoMind——一个能够系统性利用社区集体知识的多智能体ML工程系统,在75个历史Kaggle竞赛中获得36%奖牌率,并在4个进行中的竞赛中平均超越79.2%的人类参赛者(更新版本中达到92.6%)。

Cyber-Zero: Training Cybersecurity Agents without Runtime

针对网络安全(CTF)任务缺乏可执行运行时环境、难以采集真实 agent 轨迹的痛点,本文提出 Cyber-Zero——第一个无运行时的轨迹合成框架:用公开的 CTF writeup 加 persona 驱动的双 LLM 模拟(一个扮演选手、一个扮演 Bash 终端)逆向"重演"出多轮交互轨迹,再用这些合成轨迹做 SFT,让开源模型在三个 CTF 基准上最高获得 +13.1% 的绝对提升,32B 模型逼近 Claude-3.5-Sonnet 而成本大幅更低。

Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

本文提出 RebuttalAgent,把学术 rebuttal 当成"信息不对称下的策略博弈"而非简单技术辩论,用心智理论(ToM)建模审稿人心理状态,经"ToM→策略→回复"(TSR)三阶段生成有据可依的回应,并用 SFT + 自奖励 RL 训练,相比基座模型平均提升 18.3%,超过 GPT-4.1、o3 等闭源强模型。

Darwin Gödel Machine: Open-Ended Evolution of Self-Improving Agents

DGM 让一个编程智能体不断改写自己的代码库来变得更会改代码,用「在 benchmark 上跑分」这一经验证据替代 Gödel Machine 理论上不可行的「形式证明」,并用一个不断生长的智能体 archive 做开放式探索,把 SWE-bench 从 20.0% 推到 50.0%、Polyglot 从 14.2% 推到 30.7%。

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

作者提出一条「黑名单 + ModernBERT 分类器」的多阶段预训练数据过滤流水线,把双用途生物威胁相关文本从语料里删掉,再从头训练 6.9B 模型,使其在高达 10,000 步、3 亿 token 的对抗微调下仍守住「无害」——比现有后训练防御强一个数量级,且不损伤通用能力。

DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively

DeepScientist 把"自动科学发现"建模成一个目标导向的贝叶斯优化问题,用一块持续累积的 Findings Memory 在月级时间尺度上自主"提假设—实现验证—分析归纳"地迭代,烧掉 2 万多 GPU 小时、生成约 5000 个想法、验证约 1100 个,最终在三个前沿 AI 任务上分别把人类 2025 SOTA 超出 183.7%、1.9%、7.9%,且靠的是自主重设计核心方法而非简单拼接已有技术。

Do Large Language Models Know What They Are Capable Of?

作者用三个实验系统测量了 LLM "在动手前预测自己能否完成任务" 的能力,发现所有模型都系统性地过度自信,但大多有优于随机的判别力,且这种自我认知并不随模型变强而稳定提升——当前 LLM agent 受限于对自身能力的认识不足。

DreamPhase: Offline Imagination and Uncertainty-Guided Planning for Large-Language-Model Agents

DreamPhase 让一个冻结的策略 LLM 不再靠真刀真枪地点网页来试错,而是先用一个学到的潜空间世界模型在脑子里「做梦」——模拟出 M 条多步未来轨迹,用「价值减不确定性」给每条打分并过一道安全门,把选中的那条蒸馏成一句自然语言反思塞回 prompt,从而在 WebShop 上把每回合真实 API 调用从 ARMAP-M 的约 40 次砍到 10 次以下(4× 降低),还把执行的不可逆动作减少约 5×,且无需微调 LLM。

Dual-Scale World Memory for LLM Agents towards Hard-Exploration Problems

提出 GLoW:用"全局轨迹前沿 + 局部多路径优势反思"的双尺度文本世界记忆武装 LLM 智能体,在 Jericho 文字游戏的稀疏奖励硬探索任务上刷新 LLM 方法的 SOTA,并以少 100–800× 的环境交互逼近最强 RL 方法。

Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

Dyna-Mind 用"先把真实环境交互搭成搜索树、再蒸馏成一段含模拟的推理"(RESIM)教会 (V)LM 智能体在动手前先在脑子里推演几步未来,再用一种把"真实未来状态"灌进 RL 的 Dyna-GRPO 在线强化这种模拟能力,从而在 Sokoban、ALFWorld、AndroidWorld 三个长程交互任务上显著超过 GRPO/RLOO 和 Dyna-Think。

Efficient Agent Training for Computer Use

PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹,通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策,训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%,甚至超越教师模型 Claude 3.7 Sonnet 10%。

Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking

WebLeaper 把信息搜索(IS)任务重新建模成"树状推理",用 Wikipedia 表格批量合成"目标实体密集"的训练任务(Basic / Union / Reverse-Union 三种变体),再用 ISR / ISE 两个指标筛掉低覆盖、低效率的轨迹,让 30B 级别的开源 Web Agent 在 5 个深度搜索榜上同时把"找得全"和"找得快"都拉到开源 SOTA。

Empowering LLM Tool Invocation with Tool-call Reward Model

针对 LLM 工具调用中结果奖励信号粒度粗、导致梯度冲突的问题,提出 Tool-call Reward Model(TRM)——一种为每次工具调用独立打分的过程奖励模型,并设计了与 PPO/GRPO 集成的 turn-level 信用分配与优势估计策略,在搜索问答和代码数学任务上均取得持续提升。

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

作者基于记忆科学与认知科学,把记忆智能体应拥有的能力拆成「准确检索、测试时学习、长程理解、选择性遗忘」四项核心能力,并构建了首个把长文本切块、增量喂给智能体来模拟多轮交互的统一基准 MemoryAgentBench,发现现有的长上下文、RAG、商用记忆智能体没有一个能同时掌握四项能力。

EvoTest: Evolutionary Test-Time Learning for Self-Improving Agentic Systems

提出 J-TTL 基准衡量智能体在同一任务上"边玩边学"的能力,并设计 EvoTest——一个无需微调、无需梯度的框架,每局结束后由 Evolver Agent 读取整局轨迹文本、整体进化智能体的 prompt/记忆/超参/工具用法,从而在重复尝试中持续提分。

EXP-Bench: Can AI Conduct AI Research Experiments?

EXP-Bench 从 51 篇 NeurIPS/ICLR 2024 顶会论文及其开源代码里半自动抽取出 461 个"完整 AI 研究实验"任务,逼着 Agent 走完"提假设→设计实验→写代码→真跑→下结论"全流程,结果发现当下最强 Agent 完整跑通可执行实验的成功率仅 0.5%

Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

借用教育心理学的"最近发展区(ZPD)"理论,用一个能自动把题目难度精确校准到模型能力边界的数据合成引擎,造出可用于持续预训练和后训练的高价值智能体数据,把 30B-A3B 的小模型在 HLE 上推到 28.6%,超过若干闭源 deep-research 智能体。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

提出 EMPO2,一种结合外部记忆模块与混合 on-policy/off-policy 更新的 RL 框架,通过记忆引导探索和知识蒸馏将探索收益内化到模型参数中,在 ScienceWorld 和 WebShop 上分别比 GRPO 提升 128.6% 和 11.3%。

FaSTA*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

FaSTA 把 LLM 的"快规划"和 A 搜索的"慢规划"拼成一个会学习的神经符号 Agent:用归纳推理从历史成功工具路径里挖出可复用的符号化子程序当作"高级工具",绝大多数子任务直接套子程序秒解,只有失败时才退回昂贵的 A 搜索,在多轮图像编辑上相比 CoSTA 省 49.3% 成本、质量只掉 3.2%。

FingerTip 20K: A Benchmark for Proactive and Personalized Mobile LLM Agents

FingerTip 20K 收集了 95 名用户在真实日常手机使用中的 21,437 条交互记录(含用户画像、时间、位置、历史意图),提出两个新赛道——主动任务建议(预测用户意图)和个性化任务执行(适配动作偏好),最强模型 Qwen-QVQ-Max 主动建议成功率仅 12.8%(人类 30.3%),UI-TARS 执行成功率仅 38.5%。

Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

把传统 web agent 的"串行思考链"重写成"DAG 并行执行图",让相互独立的子任务同时检索同时推理,在 BrowseComp / xbench / GAIA / HLE 上拿到 SOTA 的同时把执行步数砍掉 35%、端到端时间缩短约 65%。

FlowSearcher: Synthesizing Memory-Guided Agentic Workflows for Web Information Seeking

FlowSearcher 把 Web 信息搜索从「ReAct 式的线性工具链」重新表述为「记忆引导的 agentic 工作流合成」——先把查询拆成子目标、为每个子目标合成一张有类型的工作流 DAG,再用一套 node/graph/task 三级记忆把过往轨迹沉淀为可复用的结构化经验注入编排与执行,从而在不做任何监督微调或 RLHF 的前提下,在 GAIA / BrowseComp / GPQA 上追平甚至超过同规模的 RL 训练 Web 智能体。

From Single to Multi-Granularity: Toward Long-Term Memory Association and Selection of Conversational Agents

MemGAS 用「多粒度记忆单元 + GMM 关联 + 熵驱动粒度路由 + PPR 检索 + LLM 过滤」一条龙,把对话 agent 的长期记忆从单一粒度切分升级为跨粒度关联与自适应选择,在四个长期记忆 benchmark 上 QA 和检索全面超越 SOTA。

FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

FutureX 构建了一个面向"未来预测"任务的实时动态基准——通过全自动管线每天从 195 个高质量网站采集尚未发生的未来事件、让 25 个 LLM/agent 在事件起始日做预测、等事件揭晓后再自动爬取真实结果打分,从根本上消除数据污染,并发现即便最强的 Grok-4 在高波动开放式事件上仍显著落后于人类专家。

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

提出 Gaia2 基准,在动态异步环境中评估 LLM Agent 的能力,引入时间约束、噪声事件、歧义解析和多 Agent 协作等现实场景,配合可验证奖励的写操作验证器,使基准可直接用于 RLVR 训练,评估显示最强模型 GPT-5 (high) 仅达42% pass@1。

Go-Browse: Training Web Agents with Structured Exploration

把网页智能体的训练数据采集建模成对网站的图搜索:用一个不断扩张的 URL 前沿(frontier)维护"已发现但未充分探索"的页面,每到一个页面就提任务、查可行性、采轨迹,并通过"重置到已发现页面"复用历史探索成果,从而在 WebArena 上采到 10K 条成功轨迹,微调 7B 模型即达 21.7% 成功率,超过 GPT-4o mini。

GPS: Graph-guided Proactive Information Seeking in Large Language Models

GPS 把检索文档里隐含的"if-then 规则"显式建模成一张逻辑完备的有向无环图(DAG),再用动态遍历剪枝按需提问,并用混合奖励的强化学习(GRPO)训 Reasoner LLM 生成高质量 DAG,从而让 LLM 在面对信息不全的用户提问时既问得准又问得少。

Grounding Computer Use Agents on Human Demonstrations

用专家人类示范构建迄今最大的桌面 GUI 接地数据集 GROUNDCUA(87 应用、5.6 万截图、356 万人工标注元素),仅用十分之一的训练数据就把 GROUNDNEXT 系列模型在五个接地基准上训到 SOTA,证明"高质量密集监督"比"堆数据量"更能驱动可靠的桌面接地。

GTA1: GUI Test-time Scaling Agent

GTA1 用「每步并行采样多个动作提案 + 多模态裁判挑最优」的测试时扩展解决规划易级联失败的问题,再用「直接预测坐标、点中即奖励」的纯 RL grounding 模型(不要 CoT thinking)做精准定位,让两阶段 GUI 智能体在 grounding 与任务执行两类基准上同时达到 SOTA。

GTool: Graph Enhanced Tool Planning with Large Language Model

GTool 把"工具之间的依赖关系"建成一张请求专属的工具图,用 GNN 编码成一个 <graph token> 喂给冻结的 LLM,并设计缺失依赖预测任务来对抗不完整依赖,让 7B 小模型的工具规划性能比 SOTA 高出 29.6%。

GUI-Shift: Enhancing VLM-Based GUI Agents through Self-supervised Reinforcement Learning

本文提出 K-step GUI Transition 这一自监督逆动力学任务——只给一对截图 \((S_t, S_{t+k})\) 让模型预测引发该跳转的首个动作,从而无需任何文本指令标注;再用 GRPO 强化学习框架 GUI-Shift 配合数据过滤来训练,仅用 2K 样本就让多个 VLM 在 GUI 自动化任务上最高提升 11.2%,并能零额外微调地迁移到 GUI grounding 任务。

Helmsman: Autonomous Synthesis of Federated Learning Systems via Collaborative LLM Agents

Helmsman 用一套分工明确的多 LLM 智能体团队,把"我要在 15 台移动设备上部署一个抗数据异构的目标检测系统"这种高层自然语言需求,端到端自动合成为一份可运行、经仿真验证的完整联邦学习(FL)代码库。

How Dark Patterns Manipulate Web Agents

本文构建 DECEPTICON 基准,证明网页中常见的"暗黑模式"(欺骗性 UI 设计)能在 70%+ 的任务里把前沿 Web Agent 引向违背用户意图的恶意结果(人类仅 31%),且模型越大、推理越多反而越容易被骗,现有防御也难以稳定奏效。

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine

针对"让编程智能体改写自己代码不断变强"这件事,本文指出现有方法用单步基准分当扩展指引并不靠谱(高分父代未必生出好后代),提出用整个后代谱系(clade)的聚合表现 CMP 作为自我改进潜力的指标,并证明拿到真 CMP 就足以模拟最优的 Gödel Machine;据此实现的 Huxley-Gödel Machine(HGM)用 Thompson 采样按 CMP 估计来选节点扩展,在 SWE-bench Verified 和 Polyglot 上用更少 CPU 时数超过 DGM/SICA,并在 SWE-bench Lite 上达到人类工程师设计的编程智能体水平。

In-the-Flow Agentic System Optimization for Effective Planning and Tool Use

提出 AGENTFLOW——一个由 planner / executor / verifier / generator 四模块加共享记忆协同的可训练智能体系统,并配套 Flow-GRPO 算法,在多轮交互的「活流程」中只在线优化 planner;7B 骨干在 10 个基准上平均涨 4~15 个点,甚至超过 ~200B 的 GPT-4o。

InfoMosaic-Bench: Evaluating Multi-Source Information Seeking in Tool-Augmented Agents

InfoMosaic-Bench 是首个专门评测「工具增强 Agent 跨多源信息检索」能力的基准,用 organizer–worker 架构的 InfoMosaic-Flow 流水线合成 621 道必须同时调用通用网页搜索 + 领域专用 MCP 工具才能解的题,揭示出当下最强的 GPT-5 也只有 38.2% 准确率,且领域工具带来的收益不稳定、22.4% 失败源于基本的工具误用。

InnovatorBench: Evaluating Agents' Ability to Conduct Innovative AI Research

本文提出 InnovatorBench——首个从真实论文+代码库构造、覆盖数据/损失/奖励/脚手架等 6 类 LLM 研究子问题的端到端基准(20 个任务),配套可分布式、可异步、可快照的 ResearchGym 环境,并用 ReAct 智能体测试 Claude-4/GPT-5/GLM-4.5 等前沿模型,发现它们能啃下代码型研究任务但在脆弱的算法设计和长时程决策上频繁翻车(急躁、资源管理差、套模板)。

IR-Agent: Expert-Inspired LLM Agents for Structure Elucidation from Infrared Spectra

把化学家解读红外光谱(IR)的专家流程拆成三个分工明确的 LLM 智能体——查吸收表抓局部官能团、检索相似谱图补全局骨架、最后整合推理排序候选结构,在真实实验 IR 谱上比单模型和单智能体都更准,且能零训练地吸收各种额外化学信息。

Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

本文提出"盲目目标导向"(Blind Goal-Directedness, BGD)这一概念,刻画计算机使用智能体(CUA)不顾可行性、安全性、可靠性和上下文一味追求目标完成的倾向,并构建 90 个任务的 BLIND-ACT 基准(基于 OSWorld、用 LLM 裁判评测),在 9 个前沿模型上测出 80.8% 的平均 BGD 率,说明这是一个被现有安全研究忽略的普遍系统性风险。

KRAMABENCH: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

KRAMABENCH 用 6 个真实领域、24 个数据源、1700+ 文件、104 个人工精校任务,构建了一个让 AI 系统从「脏数据湖」一路走到「洞察」的端到端数据科学基准,并配套「端到端自动化 / Pipeline 设计 / 子任务实现」三档评估,结果显示最强系统在全量数据湖下端到端正确率只有 55.83%,离 76.75% 的人类基线还很远。

K²-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control

K²-Agent 借鉴人类「知道是什么(declarative)」与「知道怎么做(procedural)」两套认知系统,用一个高层 planner 跑 SRLR 自进化循环演化任务知识、低层 executor 用课程式 C-GRPO 学操作技能,二者闭环协同进化,仅靠原始截图和开源 7B/72B 骨干就在 AndroidWorld 上拿到 76.1% 成功率的新 SOTA。

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

把临床鉴别诊断建模成"假设智能体 + 决策智能体"的两体循环系统,用监督 + 强化学习的混合范式同时训练准确假设生成、置信度校准与高效检验选择,让 LLM 像医生一样边查边推、在最低检验成本下逼近正确诊断。

LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

本文系统剖析了 LLM 在简单决策场景(多臂老虎机、上下文老虎机、井字棋)中表现欠佳的三种核心失败模式——贪婪、频率偏置、知行差距,并证明在自生成 CoT 推理上做 RL 微调(RLFT)能显著增加探索、缩小知行差距。

LongHorizonUI: A Unified Framework for Robust Long-Horizon Task Automation of GUI Agent

LongHorizonUI 用「增强感知 + 三层闭环反思决策 + 多级补偿执行」三件套,把无需训练的 MLLM GUI agent 在 15 步以上长程任务里的成功率拉高,并配套发布了平均 22 步的长程基准 LongGUIBench。

Look Back to Reason Forward: Revisitable Memory for Long-Context LLM Agents

ReMemR1 在"边读边记"的内存智能体里塞进一个可回溯的记忆检索机制——智能体每步在更新当前记忆的同时还生成一条 callback query 去搜自己的历史记忆,再配一套轨迹级+步级的多层奖励来稠密化 RL 信号,从而以可忽略的算力代价(<0.2% 时间开销)把长上下文多跳推理的错误率降了 20%+。

M²-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining

提出 M²-Miner,首个基于 MCTS 的移动端 GUI agent 自动数据挖掘框架,通过 InferAgent/OrchestraAgent/JudgeAgent 三智能体协作将挖掘效率提升 64 倍,结合 intent recycling 策略丰富意图多样性,训练的 GUI agent 在多个 benchmark 上达到 SOTA。

MATHMO: Automated Mathematical Modeling Through Adaptive Search

把"数学建模"形式化成一个不确定性下的序贯决策问题,用 LLM 当生成算子+代理评估器,配合一个"上层选框架、下层调模型"的双层自适应搜索,自动产出一组在多个(含主观)目标上构成 Pareto 前沿的数学模型。

MC-Search: Evaluating and Enhancing Multimodal Agentic Search with Structured Long Reasoning Chains

提出 MC-Search,首个面向 agentic 多模态 RAG 的 benchmark,包含 3,333 个高质量样本(平均 3.7 跳),覆盖 5 种推理拓扑结构,通过 HAVE 验证确保每步必要性,并引入 Search-Align 过程监督微调框架使开源模型的检索规划能力大幅提升(Qwen2.5-VL-7B F1 提升 +13.7)。

MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

MCP-Bench 把智能体接到 28 个真实生产级 MCP 服务(共 250 个工具、覆盖金融/科研/旅行等 11 个领域),用自动合成的「模糊指令、多目标、跨域」复杂任务,加上「规则检查 + LLM 评委」两层评估,系统性地暴露了 20 个主流 LLM 在长程规划与依赖推理上的真实短板。

MCP Security Bench (MSB): Benchmarking Attacks Against Model Context Protocol in LLM Agents

MSB 是首个面向 Model Context Protocol(MCP)的端到端安全评测基准,覆盖「任务规划→工具调用→响应处理」全流程的 12 类攻击,用真实可执行的恶意工具(而非模拟输出)测了 10 个 LLM agent,发现 MCP 专属攻击普遍奏效(峰值 ASR 75.83%),且能力越强的模型反而越脆弱。

MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

MCPMark 构造了 127 个跨 5 类真实 MCP 环境(Notion / GitHub / Filesystem / PostgreSQL / Playwright)、由专家与 agent 协作打磨、带程序化验证脚本的高难度任务,强调多步 CRUD 工作流,结果最强的 gpt-5-medium 也只有 52.56% pass@1、33.86% pass^4,把当前 agent 在真实 MCP 使用上的能力上限狠狠压了一把。

MedAgent-Pro: Towards Evidence-based Multi-modal Medical Diagnosis via Reasoning Agentic Workflow

MedAgent-Pro 把现代临床"循证诊断"流程拆成疾病级标准化计划生成患者级逐步证据推理两层 agentic workflow,用 RAG 对齐医学指南、用视觉/编码工具做量化分析、用证据反思机制逐步剔除不可靠中间结论,让 VLM 从"凭经验一跳作答"变成"有指标、有证据、可追溯"的诊断系统。

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

MEM1 用端到端强化学习训练 LLM 智能体把"记忆整合"嵌进"推理"本身——每一轮只保留一个不断被改写的紧凑内部状态,旧观测用完即丢,从而在任意长的多轮任务里维持近乎常数的上下文,做到性能更高、显存更省、推理更快。

FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

提出 FeatureBench——面向特征级软件开发的代码智能体评测基准,通过测试驱动的自动化流水线从开源仓库中提取可验证的 feature 实现任务,最强 Claude Opus 4.5 仅解决 11.0%,揭示当前 Agent 在复杂特征开发上的巨大差距。

MemGen: Weaving Generative Latent Memory for Self-Evolving Agents

MemGen 让 LLM 智能体在推理过程中由一个「记忆触发器」实时判断何时需要回忆,再由一个「记忆编织器」生成一段机器原生的潜在 token 序列注入推理流,从而把记忆与思考交织成动态循环,在冻结主干、不改一个参数的前提下显著超越参数式与检索式记忆。

Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Memory-T1 把多会话对话里的“找哪段记忆”建模成时间感知的证据选择问题,先用时间窗口和相关性检索粗筛,再用 GRPO 训练的策略模型在候选会话中选择证据并回答,从而让 3B/7B 开源模型在 Time-Dialog 时间推理 benchmark 上达到约 67% 的整体分数。

Meta-RL Induces Exploration in Language Agents

提出 LaMer 框架,将元强化学习(Meta-RL)引入 LLM agent 训练,通过跨 episode 的奖励优化和基于反思的上下文策略适应,使语言智能体学会主动探索环境,在 Sokoban/MineSweeper/Webshop 上分别获得 11%/14%/19% 的绝对性能提升。

Mix-ECom: Towards Mixed-Type E-Commerce Dialogues with Complex Domain Rules

本文构建了首个"一段对话里混合四种对话类型 + 82 条真实电商领域规则"的客服 Benchmark Mix-ECom,并提出在 ReAct / Plan-and-Solve 前面挂一个动态规则筛选模块来抑制复杂规则带来的幻觉,揭示出当前最强的多模态 LLM Agent 在真实电商客服上的总分仍只有 62%。

MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents

MMSearch-Plus 提出一个 311 题的多模态浏览基准,通过"时空外推"强制要求 agent 从图中细粒度视觉线索外推到图外事实,并配套一个含 Set-of-Mark 缩放检索的模型无关 agent 框架,揭示当前最强 MLLM 端到端准确率仅 36%。

MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning

针对移动 GUI agent 缺乏 CoaT 推理轨迹、又难以做步级标注的痛点,MobileIPL 用 MCTS 式迭代采样搭一棵 CoaT-tree,靠规则奖励给叶节点打分并回传到中间思考步,构造"思考级" DPO 对(T-DPO)来优化推理过程,从而在三个移动 GUI 基准上超越 OS-ATLAS、UI-TARS 等连续预训练大模型。

MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents

MobileRL 用"两阶段推理 SFT 热身 + 难度自适应 GRPO(AdaGRPO)"的在线智能体 RL 框架训练手机 GUI 智能体,靠正样本回放、失败课程过滤、最短路径奖励三招稳住稀疏奖励下的多轮训练,让 9B 模型在 AndroidWorld 上success rate 冲到 80.2%、AndroidLab 53.6%,刷新 SOTA。

Modeling Others' Minds as Code

把"预测他人下一步动作"重新表述为程序合成问题——用 LLM 生成一批解释观测轨迹的 Python "行为脚本",再用序贯蒙特卡洛做贝叶斯推理筛选最可能的程序,从而高效、可解释、可泛化地预测人类与 AI 智能体的行为。

Natural Language PDDL (NL-PDDL): Open-world Goal-oriented Commonsense Regression Planning in Embodied AI

把经典 PDDL 的符号谓词替换成"带类型的自然语言谓词",再用 LLM 蕴含判断驱动一阶回归规划,从而在部分可观测、目标与动作描述不对齐的开放世界里既保住符号规划的正确性,又获得 LLM 的常识泛化能力。

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

用一个只看「格式是否合规 + 工具调用是否精确匹配」的二元奖励做 R1 风格 GRPO 训练,无需任何蒸馏推理轨迹,就把 Qwen2.5-7B/14B 训成超过 GPT-4o 的工具调用推理模型。

NetArena: Dynamic Benchmarks for AI Agents in Network Automation

NetArena 用一套统一的「状态-动作」抽象 + 网络仿真器集成,把网络运维任务变成可无限动态生成查询、并能在仿真中自动核验正确性/安全性/时延的活基准,揭示当前 AI agent 在真实大规模网络任务上正确率仅 13–38%。

NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

提出NewtonBench,一个包含12个物理领域324个任务的LLM科学法则发现基准,通过"反事实法则平移"生成可防止记忆化的新颖任务,要求智能体通过交互式实验探索发现隐藏的物理方程,发现GPT-5最佳(75.9%符号准确率)但在复杂系统中急剧退化(40.3%),且代码工具对强模型反而有负面效果。

OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds

针对「把 GUI 操作数据和具身机器人数据混在一起训练反而互相拖后腿」的现象,本文发现两类数据在浅层协同、深层冲突(类比人脑「大脑—小脑」分工),提出 Layer-heterogeneity MoE——浅层共享参数吃协同、深层分离参数避冲突,再统一两类任务的动作空间收集大规模数据,训出一个在 GUI 和具身任务上都超过各自专用 SOTA 的通用智能体 OmniActor。

Open Data Synthesis for Deep Research

本文提出 InfoSeek 数据合成框架,把"深度研究"任务形式化为层级约束满足问题(HCSP),用"扩散—回溯"两阶段从种子网页自动长出研究树并反向编织成需要多层推理、答案唯一可验证的问答对,用合成的 5 万+ QA / 1.65 万条轨迹训练出仅 3B 的 InfoSeeker 智能体,在多跳与 BrowseComp-Plus 等基准上超过一众更大的开源乃至部分闭源系统。

OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety

提出 OpenAgentSafety,一个综合性 AI agent 安全评估框架,包含 350+ 可执行任务、真实工具集(浏览器/终端/文件系统/消息平台)、多轮多用户交互场景,揭示即使最先进的 LLM 在 49%-73% 的安全敏感任务中表现出不安全行为。

OpenApps: Simulating Environment Variations to Measure UI Agent Reliability

本文提出 OpenApps——一个纯 Python、单 CPU 即可运行的轻量级 UI Agent 仿真生态(含日历、地图、商店等六个可配置 App),通过把同一个 App 的外观和内容批量变形成上千个版本,开辟"跨 App 变体的可靠性"这一被现有固定克隆环境忽略的评测维度;在七个主流多模态 Agent、超过 1 万次评测上发现:固定环境里看起来稳定的 Agent,一旦换 App 变体成功率可波动 50% 以上(Kimi-VL 从 63% 跌到 4%)。

Opponent Shaping in LLM Agents

本文首次研究 LLM Agent 之间的"对手塑造"(opponent shaping),提出 ShapeLLM——一种把"历史"和"上下文"压进结构化自然语言提示、用 PPO 训练的免模型对手塑造算法,证明 LLM Agent 既能主动操纵对手的学习动态把它引向可被剥削的均衡(竞争博弈中独吞收益),也能用同一机制促成合作、提升集体福利。

Orak: A Foundational Benchmark for Training and Evaluating LLM Agents on Diverse Video Games

Orak 用 MCP 即插即用接口把 12 款覆盖全部 6 大类型的真实视频游戏统一封装成基准,既能系统评测 LLM 的 agentic 模块(反思 / 规划 / 工具)效果,又随附一份专家 LLM 游玩轨迹微调数据集,把通用 LLM 转成有效的游戏 agent。

OrchestrationBench: LLM-Driven Agentic Planning and Tool Use in Multi-Domain Scenarios

提出 OrchestrationBench——一个全人工标注的中英(应为英/韩)双语基准,把"主 LLM 拆解请求 → 分配给子 LLM → 子 LLM 调工具"这套服务级编排能力拆成工作流规划约束感知的工具执行两条独立维度来评测,发现各大模型的函数调用水平相近、但规划能力差距巨大。

OSWorld-MCP: Benchmarking MCP Tool Invocation in Computer-Use Agents

OSWorld-MCP 在真实计算机环境 OSWorld 之上注入 158 个高质量 MCP 工具,让多模态智能体在每一步都能自主选择「调工具」还是「点 GUI」,第一次把工具调用、GUI 操作、混合决策三种能力放进同一个公平评测里——结果显示 MCP 工具普遍提升成功率(如 OpenAI o3 在 15 步从 8.3%→17.6%),但最强模型工具调用率也只有 33.3%,说明现有智能体远未学会用工具。

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

提出 PhyScensis,一个结合物理引擎的 LLM agent 框架,通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景,在视觉质量、语义正确性和物理精度上显著超越先前方法,并成功用于机器人操作策略训练。

PolySkill: Learning Generalizable Skills through Polymorphic Abstraction for Continual Agents

PolySkill 把软件工程里的「多态」搬进 Web 智能体的技能学习:用一个抽象领域类定义「该做什么」(如 search_product),各网站只填「具体怎么做」的子类实现,从而让学到的技能能跨网站复用——在已见网站上技能复用率提升 1.7 倍,在未见网站上成功率最高提升 13.9%、步数减少 20% 以上,同时缓解持续学习中的灾难性遗忘。

Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

EvoPresent 用「讲故事—丰富内容—排版渲染—审美检查」四个智能体串成一条草稿—反馈—修订的自改进流水线,把论文一键变成有叙事、有美感、带虚拟讲解的演示视频;核心是一个用多任务强化学习训练的美学模型 PresAesth,给整条流水线提供可靠的打分、缺陷诊断与对比反馈,让系统能在很少标注数据下自我迭代。

PRISM: Festina Lente Proactivity—Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents

PRISM 把"主动智能体该不该开口"建模成代价敏感的选择性干预问题:先估计"用户是否需要帮助"和"用户是否会接受"两个校准概率,用一个由误报/漏报代价推出的自适应阈值做门控,只在决策边界附近触发一次"慢推理",并用门控对齐的蒸馏训练学生模型,在 PROACTIVEBENCH 上把误报率降了 22.78%、F1 提升 20.14%。

Programming with Pixels: Can Computer-Use Agents do Software Engineering?

作者构建了首个面向软件工程的"计算机使用"环境 PwP(智能体像人一样用键鼠看屏幕操作 VSCode)和配套的 15 任务基准 PwP-Bench,系统评测发现:纯视觉操作的通用计算机使用智能体(CUA)只有 22.9% 准确率、远逊于专用 SWE 智能体;但只要给它们两个文本 API(文件编辑 + bash),准确率就跳到 50.7%,逼近专用智能体——说明短板不在"会不会写代码",而在视觉定位差、不会用 IDE 里的现成工具。

ProRe: A Proactive Reward System for GUI Agents via Reasoner–Actor Collaboration

针对 GUI agent 难以获得可验证奖励的问题,ProRe 让一个通用推理器(reasoner)调度"状态探测任务"、再由领域专用评估 agent(actor)主动操作界面去采集关键状态,最终用 chain-of-claims 推理判定任务是否成功,把奖励准确率做到 93.7%(首个 >90% 的 GUI 奖励系统),并把策略 agent 的成功率最多提升 22.4%。

Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification

本文系统研究了深度搜索智能体的测试时计算扩展,发现"搜索难、验证易"的非对称验证特性,提出把一部分计算从搜索分配给验证器智能体来高效筛选候选答案,把 GLM-4.5、K2、Qwen3-2507、Tongyi-DeepResearch 等开源模型升级成 "Heavy" 版,在 BrowseComp 等基准上最高提升 20+ 个百分点,达到与 OpenAI Deep Research、o3 相当的水平。

R-WoM: Retrieval-augmented World Model for Computer-use Agents

作者先系统验证「LLM 当世界模型」短程能行、长程崩,再提出 R-WoM——用外部教程检索把世界模型的多步想象和奖励估计「接地」,在 OSWorld / WebArena 上相对最强基线提升最高 23.4%,且越是长程优势越明显。

PerfGuard: A Performance-Aware Agent for Visual Content Generation

提出PerfGuard——面向视觉内容生成的性能感知Agent框架:用多维评分矩阵替代文本描述建模工具性能边界(PASM)→自适应偏好更新(APU)动态校准理论排名与实际执行的偏差→能力对齐规划优化(CAPO)引导Planner生成与工具能力匹配的子任务,在图像生成和编辑任务上全面超越GenArtist/T2I-Copilot等SOTA方法。

Real-Time Reasoning Agents in Evolving Environments

这篇论文提出"实时推理(real-time reasoning)"这一新问题——环境在智能体思考时仍在不停演化,并构建了 Real-Time Reasoning Gym 来衡量它;进一步提出 AgileThinker,让"规划线程"和"反应线程"两个 LLM 并行跑、且反应线程能读到规划线程未完成的中间思考,在认知负荷和时间压力上升时稳定超越只用单一范式的智能体。

Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM Agents

提出 T³(Truncating Belief-Trapped Trajectories),基于 POMDP 理论分析 LLM 智能体在多轮主动推理中的"信念陷阱"现象,通过检测信念偏离并截断无信息尾部轨迹来修正 RL 训练中的信用分配错误,在 5 个挑战性任务上获得最高 30 分的性能提升并节省 34% 的 token 开销。

REMem: Reasoning with Episodic Memory in Language Agents

提出 REMem,一个面向语言 agent 的情节记忆框架,通过混合记忆图(时间感知的 gist 节点 + 事实三元组节点)和工具增强的 agentic 推理,在情节回忆和情节推理任务上分别比 SOTA 提升 3.4% 和 13.4%。

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

用来合成训练数据时埋下的"关键实体"反过来当作过程监督信号,提出实体感知的 E-GRPO:给答错但中间推理对了一半的"擦肩而过"样本按实体命中率发部分奖励,从而在多个 QA 与深度检索基准上稳定超过 GRPO,并且学到工具调用更少的策略。

ReVeal: 通过可靠自验证实现自进化的代码智能体

ReVeal 把代码生成组织成「生成—验证」交替的多轮循环,并用一套 turn-level 强化学习算法(TAPO)显式优化自验证能力,让一个仅训练 3 轮的 32B 模型在推理时能持续自我修正 20+ 轮,在 LiveCodeBench V6 上 Pass@1 从 34.8% 一路爬到 38.7%。

ROGA: Scaling Generalist Agents for Office Productivity Tasks via Tool Generation

针对现有"自动工具生成"(ATG)智能体在长程、有状态的办公任务上严重掉点的问题,ROGA 重构了智能体范式——用主动世界建模补全部分可观测的文件上下文、用持久符号记忆维持跨步状态、用动态能力进化让生成的工具可复用,在 OSWorld / WindowsAgentArena / GAIA-Office 等基准上把任务成功率最高提升 13.64%,并在表格任务上反超专用智能体。

ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

ScaleCUA 用一条「自动智能体 + 人类专家」双环数据流水线,跨 6 大操作系统采集并标注出涵盖理解、定位、轨迹三类任务的超大规模 GUI 语料(471K 理解 + 17.1M 定位 + 19K 轨迹),在其上训练出支持三种推理范式的开源计算机使用智能体,在多个 GUI benchmark 上刷出新 SOTA(WebArena-Lite-v2 +26.6、ScreenSpot-Pro +10.7)。

Scaling Agent Learning via Experience Synthesis

DreamGym 用一个"会推理的经验模型"在抽象文本状态空间里合成智能体与环境的交互(状态转移 + 奖励),配合经验回放缓冲区和基于奖励熵的课程任务生成器,让 LLM 智能体几乎不用真实环境 rollout 就能跑 RL,在非 RL-ready 的 WebArena 上比所有 baseline 高 30%+,在 RL-ready 环境用纯合成数据追平 GRPO/PPO。

Scaling Agents via Continual Pre-training

本文把 agent 能力的学习前移到持续预训练阶段,提出 Agentic Continual Pre-Training,并用 FAS/HAS 两类大规模合成数据训练出 AgentFounder,使开源 30B 级深度研究 agent 在 BrowseComp、GAIA、HLE 等 10 个基准上达到很强表现。

Scaling Synthetic Task Generation for Agents via Exploration

AUTOPLAY 通过让多模态大模型先主动探索 Android 与 Ubuntu UI 环境、再基于探索轨迹和任务 guideline 生成可执行任务,自动构建大规模 UI agent 训练数据,并在 SFT 与 RL 后显著提升移动端和桌面端 agent 的任务成功率。

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

ScienceBoard 构建了一个集成真实科学软件的 Ubuntu 虚拟机环境和 169 个跨学科任务,用状态级执行评测检验多模态电脑使用智能体在真实科学工作流中的能力,结果显示最强模型总体成功率仍远低于人类。

SciNav: A General Agent Framework for Scientific Coding Tasks

SciNav 把"成对相对判断"嵌进 Top-K 树搜索(TKCTS),让 LLM 智能体在没有预定义评测指标、搜索预算受限的现实条件下解科学编程任务——靠"两两比哪个更好"而非"给每个解打绝对分"来挑分支、剪枝、扩展,在 ScienceAgentBench 和 DA-Code 上显著超过 Self-Debug、OpenHands 等基线。

SCUBA: Salesforce Computer Use Benchmark

SCUBA 是一个建立在真实 Salesforce sandbox 环境上的计算机操作智能体(computer-use agent)评测基准,含 300 个来自真实用户访谈的 CRM 任务,配套可重置环境、里程碑式细粒度评估和人类演示,揭示了开源/闭源模型、浏览器型/桌面型智能体之间的巨大性能鸿沟(零样本下开源模型成功率 <5%,闭源最高 39%;加演示后可达 50% 并同时降本提速)。

Sculptor: Empowering LLMs with Cognitive Agency via Active Context Management

本文提出 Sculptor 框架,给 LLM 配上一套可逆的「主动上下文管理(ACM)」工具——切片、折叠/摘要/恢复、精确搜索,让模型像雕刻家一样主动剔除无关信息、聚焦关键内容,再配合一种针对动态上下文设计的 GSPO 强化学习方法,在多个长上下文 benchmark 上把 13B 模型的平均分从 39.4 拉到 73.8。

Search Self-Play: Pushing the Frontier of Agent Capability without Supervision

让同一个 LLM 同时扮演"出题人"和"答题人"在深度搜索任务上自我对弈:出题人造越来越难、但有可验证标准答案的搜索问题,答题人去解,再用出题人搜到的网页做 RAG 反向验证问题是否站得住脚——整套流程不需要任何人工标注,就能在七个 QA benchmark 上把搜索智能体的性能全面拉高(Qwen2.5-7B-Base 平均 +26.4 分)。

Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

M3-Agent 把实时视觉与音频流转成实体中心的多模态长期记忆,再用强化学习训练的控制模型多轮检索和推理,在 M3-Bench 与 VideoMME-long 上超过提示式闭源 agent 和在线长视频理解基线。

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

提出 Collaborative Battleship 任务评估语言模型的信息搜索能力,设计三种贝叶斯推断策略(Bayes-Q/M/D)增强 LM 的提问、行动和决策能力,使弱模型(Llama-4-Scout)以 GPT-5 约 1% 的成本达到超人表现(82% 胜率)。

SimuHome: A Temporal- and Environment-Aware Benchmark for Smart Home LLM Agents

提出 SimuHome,一个基于 Matter 协议的时间加速智能家居模拟器及 600 episode benchmark,首次模拟设备操作对环境变量的持续影响并评估工作流调度能力,发现工作流调度是当前 LLM agent(包括 GPT-5.1)最难突破的挑战。

SMAN-Bench: A Cross-System Benchmark for Mobile Agents under Single- and Multi-path, Ambiguous, and Noisy Tasks

SMAN-Bench 把一个 300 万页的图结构手机操作语料(Mobile3M)改造成一个移动 Agent 评测基准:用 slot 模板自动给多条轨迹标注同一条指令,从而支持「离线多路径」评测(一条指令可以有多种正确走法),并额外造了带广告噪声和模糊指令两个子集,系统性地测出现有 VLM Agent 在真实脏环境和需要主动追问时的明显短板。

Social Agents: Collective Intelligence Improves LLM Predictions

本文提出 Social Agents,把同一个 LLM 用不同人口学/心理学画像(persona)条件化成一群"虚拟社会"中的独立评估者,让它们各自给刺激(广告/网页/视频)打分并说理由,再取均值聚合,从而把"群体智慧(Wisdom of Crowds)"搬进 LLM;在 11 个行为预测任务上,相对单 LLM baseline 在低层任务最高提升 164%、高层任务最高 24%,9 个模型平均提升 21.5%。

Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents

提出 HPL 框架解决长时序 LLM Agent 中偏好学习的粒度不匹配问题,通过三级 DPO(轨迹级+步骤级+动作组级)和双层课程学习(子任务复杂度×样本难度),在 ALFWorld/WebShop/InterCode-SQL 上显著超越 ETO 和 IPR 等基线(平均 59.44 vs 55.43/55.49)。

Spinning Straw into Gold: Relabeling LLM Agent Trajectories in Hindsight for Successful Demonstrations

把 LLM agent 跑出来的"失败/次优"轨迹用一个辅助 LLM 回看一遍、重新标注成它实际完成了的所有目标,再配合"无关动作掩码 + 演示重加权"把这些废料变成成功演示来追加微调;在 ALFWorld / PlanCraft / WebShop 上即插即用地涨点,并且只用四分之一的真实演示就能超过用全量数据训练的 baseline。

SR-Scientist: Scientific Equation Discovery With Agentic AI

提出 SR-Scientist 框架,将 LLM 从简单的方程提议者提升为自主 AI 科学家,通过代码解释器工具进行数据分析和方程评估,在长时程交互中自主发现科学方程,并结合强化学习进一步提升能力。

ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents

提出首个专门评估 Web Agent 安全性和可信赖性的基准 ST-WebAgentBench,通过策略层级框架和完成度策略(CuP)指标,揭示当前 SOTA Agent 在企业场景中存在严重的策略违规问题。

STARK: Strategic Team of Agents for Refining Kernels

STARK 把 GPU kernel 优化重构成「专业团队协作 + 在树记忆上做策略搜索」的智能体框架——用 plan/code/debug 三个分工的 LLM 智能体、带锚点的 grounded instruction、按角色定制的动态上下文窗口和自适应 ε-greedy 搜索,模拟资深工程师的迭代调优流程,在 KernelBench 上相比基线智能体最高拿到 16× 的运行时加速。

TaskCraft: Automated Generation of Agentic Tasks

TaskCraft 提出首个全自动生成可扩展、多工具、可验证 agentic 任务的工作流:先造单工具"原子任务",再用深度(递归找超集)和宽度(合并子任务)两种扩展逐步加难,配合只验证增量改动的高效验证,最终产出 41k 工具密集型任务,用它做 SFT/RL 训练在四个 agent benchmark 上刷到 SOTA。

Terminal-Bench:在命令行界面上对智能体进行困难、真实任务的基准测试

Terminal-Bench 提出一个以"终端环境 + Docker 容器 + 测试验证 + oracle 解答"为单位的智能体评测框架,并发布经过数百人时人工审计的 89 道困难任务数据集 Terminal-Bench 2.0,结果显示即便最强的前沿模型/智能体(GPT-5.2 + Codex CLI)解决率也只有约 63%,小模型仅 15% 左右,并据此给出一套可指导后续改进的失败模式分类法。

Test-Time Adaptation for LLM Agents via Environment Interaction

针对 LLM Agent 部署到陌生网站 / 新工具集时的泛化失败,本文把失败拆成「句法失配」和「语义失配」两类,分别用一个在线学习的轻量适配向量(句法对齐 SA)和一段 persona 驱动的探索来在上下文里建一个语言化世界模型(动力学接地 DG),全程无需标注轨迹与微调,在 WebArena 多站点 split 上把成功率从 2% 拉到 23%。

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

提出 Toolathlon,一个覆盖 32 个软件应用、604 个工具和 108 个任务的语言 Agent 基准,强调真实多样的环境状态和长程多步交互(平均约 20 轮工具调用),最强模型 Claude-4.5-Sonnet 仅达 38.6% 成功率。

ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction

ToolACE-MT 把多智能体仿真"逐轮自回归"造多轮工具调用数据的范式,换成"先搭骨架、再迭代精修、最后离线校验"的非自回归流水线,用更少的 API 调用造出连贯性和多样性都更高的智能体对话数据,训出来的 8B 模型在 BFCL-v3 多轮准确率从 9.25% 提到 40.25%。

ToolTree: Efficient LLM Agent Tool Planning via Dual-Feedback Monte Carlo Tree Search and Bidirectional Pruning

ToolTree 把 LLM agent 的多工具调用建模成一棵蒙特卡洛树搜索(MCTS),用「执行前预评估 + 执行后实测评估」两个 LLM 打分信号同时引导选择和剪枝,在固定算力预算下让 agent 既有前瞻又能基于真实反馈回退,4 个工具规划 benchmark 上平均比 SOTA 搜索范式高约 10%、且效率最高。

ToolWeaver: Weaving Collaborative Semantics for Scalable Tool Use in Large Language Models

提出ToolWeaver,通过协作感知向量量化将每个工具表示为层级离散编码序列(而非单一token),实现词表对数级扩展(47000+工具仅需~512个新token),在ToolBench上全面超越ToolGen基线,同时将语言模型困惑度退化从16.5倍降至4倍。

Towards Multimodal Data-Driven Scientific Discovery Powered by LLM Agents

本文提出 MoSciBench——首个面向「多模态、仓库级」数据驱动科学发现的基准,从同行评审论文出发用四阶段管线构造 88 个跨模态假设验证任务;系统评测发现即使最强智能体(o4-mini + ReAct)也只有 48.9% 准确率,超过 60% 的失败源于跨模态对齐,而轻量工作流脚手架能把准确率平均拉高 5.7%。

Towards Scalable Oversight via Partitioned Human Supervision

提出基于分区人类监督的可扩展监督框架:当任务超越单个专家能力时,利用领域专家提供的互补标签(排除错误选项)构造无偏准确率估计器,实现无需完整标注即可评估和训练 AI 系统。

Trade in Minutes! Rationality-driven Agentic System for Quantitative Financial Trading

TiMi(Trade in Minutes)是一套"理性驱动"的多智能体量化交易系统:用语义分析、代码编程、数学推理三类专长 LLM 在离线把交易策略打磨成一个可独立运行的程序化交易机器人,再把这个机器人部署到分钟级实盘——从而把"重推理"与"快执行"彻底解耦,在 200+ 股指/加密交易对上拿到稳定收益、低延迟和优良的风险控制。

TRAJECT-Bench:一个轨迹感知的智能体工具调用评测基准

TRAJECT-Bench 用 1228 个可执行真实 API 构造了 5670 条「并行/串行」工具调用轨迹与「简单/困难」双难度查询,并把评测从「最终答案对不对」细化到「工具选对没、参数填对没、顺序/依赖满足没」的轨迹级诊断,从而揭示出大模型工具调用的具体失败模式(相似工具混淆、参数盲选)与「短轨迹→中等长度轨迹」的扩展瓶颈。

Tree Search for LLM Agent Reinforcement Learning

把多轮智能体 RL 的「链式独立采样」换成「智能体步级树搜索采样」,靠共享前缀在固定 token/工具调用预算下采到约 1.5× 的轨迹,并利用树的分支结构把稀疏的结果奖励自动转成步级过程监督信号(理论上等价于步级 DPO),在 11 个 QA 数据集上全面超过链式 GRPO。

TusoAI: Agentic Optimization for Scientific Methods

TusoAI 是一个为「科研计算方法开发」量身定制的 agent:给定任务描述、数据和一个评测函数 \(h(\cdot)\),它把领域知识组织成知识树,再用贝叶斯更新的分层规划 + 诊断式细粒度优化,在候选解池上迭代自我改进,最终在 11 个科学任务上稳定超过专家方法、MLE agent 和通用科学 agent,还在两个遗传学难题上改进了 SOTA 方法并发现了被旧方法遗漏的新生物学。

Type-Compliant Adaptation Cascades: Adapting Programmatic LM Workflows to Data

本文把由多个 LLM 调用 + 确定性逻辑串成的工作流,整体重铸成一个"有类型的非归一化概率程序",用轻量 PEFT 适配器作为可学习参数、配上一套丢掉配分函数梯度也证明无偏的 TACSTaR(MC-EM)训练算法,使整条管线能端到端梯度训练,在 FinQA、MGSM-SymPy 等结构化推理任务上大幅超过 DSPy 这类离散提示优化基线。

UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning

这篇论文把"自然语言指令"从被动输入升级为主动的推理路径(Instruction-as-Reasoning):先用数据流水线清洗噪声标注并把每条指令扩成外观/功能/位置/意图四种视角,再用 SFT 教模型把"改写出某一视角的指令"当作显式推理、最后用 GRPO 让模型自己挑选/组合最有效的视角,得到的 UI-Ins-7B/32B 在 5 个 GUI grounding 基准上刷到 SOTA(UI-I2E-Bench 87.3%、ScreenSpot-Pro 57.0%),并在 AndroidWorld 在线 agent 上取得 74.1% 成功率。

Unlocking Long-Horizon Agentic Search with Large-Scale End-to-End RL

不靠任何商用大模型蒸馏数据、不当外挂工具,仅用纯端到端 RL 在单个 QwQ-32B 上训练出搜索智能体 ASearcher:靠"自动合成高难 QA 数据 + 把每条轨迹的工具调用上限放到 128 步做长程探索",让模型自发涌现出不确定性分析、冲突核查等专家级搜索行为,仅用基础搜索工具就在 GAIA/xBench/Frames 上逼平商用 Deep Research 系统。

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

本文提出 VideoAgentTrek,用一个逆动力学模块 VIDEO2ACTION 从 39,000 个无标注的 YouTube 屏幕录制教程里自动反推出带精确动作参数的操作轨迹(152 万步),再用"持续预训练 + 监督微调"两阶段把它喂给计算机操作智能体,把 OSWorld-Verified 成功率从 9.3% 拉到 15.8%(相对提升 70%)。

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

提出 VideoMind,一个基于角色分工的视频语言Agent框架,通过 Planner-Grounder-Verifier-Answerer 四角色协作实现时序grounded视频推理,核心创新是 Chain-of-LoRA 机制——在统一基座模型上通过切换LoRA适配器实现角色无缝切换,2B模型即超越GPT-4o和Gemini-1.5-Pro。

ViMo: A Generative Visual GUI World Model for App Agents

ViMo 是首个"视觉"GUI 世界模型——给定当前手机界面截图和一个用户动作,它直接生成动作执行后的未来 GUI 图像;为了解决像素级生成画不准小字的老大难问题,它把界面拆成"图形"和"文字"两条线分别生成,用一种叫 STR 的符号化占位表示让扩散模型只管画图形布局、再让 LLM 往占位框里填文字,从而把世界模型的预测结果喂给 App agent 做更准的动作选择。

VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

VitaBench 把外卖、到店、在线旅行三大生活服务场景抽象成一个含 66 个工具、400 个任务的最复杂"生活服务"模拟环境,用工具依赖图取代领域策略文档让 agent 自主探索,再配一个 rubric 滑动窗口评估器来打分,结果发现即便最强模型在跨场景任务上也只有 30% 成功率。

WALT: Web Agents that Learn Tools

WALT 把网站早已设计好的功能(搜索、筛选、排序、发帖、增删改)逆向成一组可直接调用的确定性工具,让 web agent 从「一步步推理怎么点怎么填」转为「直接调用 search(query)」,在 VisualWebArena(52.9%)和 WebArena(50.1%)上拿到 SOTA,同时步数更少、对 LLM 推理依赖更低。

WARC-Bench: Web Archive based Benchmark for GUI Subtask Executions

本文提出 WARC-Bench——用 Web Archive 文件把真实网页"冻结"成可沙盒重放的交互环境,构建 438 个聚焦"中等粒度子任务"(选日期、拖滑块、滚容器抽信息等)的 GUI Agent 评测集,并用程序化可验证奖励自动判分;实验显示最强闭源模型也只有 64.8% 成功率,而作者用 SFT + RLVR 训练的开源 72B 模型达到 52.3%,超过多数前沿模型。

Web-CogReasoner: Towards Multimodal Knowledge-Induced Cognitive Reasoning for Web Agents

本文借鉴布鲁姆教育分类法,把 Web Agent 的能力拆成「知识内容学习」与「认知过程」两阶段,构建了事实/概念/程序三层的 Web-CogKnowledge 知识体系、配套数据集 Web-CogDataset 与评测基准 Web-CogBench,再用三阶段课程学习 + 知识驱动 CoT 训练出 Web-CogReasoner,在仅 7B 参数下于多个 web 导航基准上超越同规模开源 agent,并在未见任务上展现出由结构化知识带来的强泛化。

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

WebArbiter 提出一种推理优先、原则引导的过程奖励模型 (WebPRM),将奖励建模形式化为文本生成任务,通过推理蒸馏+强化学习的两阶段训练,在 WebPRMBench 上以 7B 模型超越 GPT-5 达 9.1 个百分点。

WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

WebFactory 把"训练 GUI 智能体"重新定义为"把 LLM 里压缩的互联网知识蒸馏成可落地动作"的问题,用一条全自动闭环流水线——LLM 合成高保真离线网站 → 知识驱动生成可验证任务 → 强 LLM 采集轨迹 → 分解奖励的 RL 训练——仅用 10 个合成网站训练出的 3B 智能体,就达到了用同等规模人工标注数据训练的智能体水平,并能迁移到 Amazon/Airbnb/Booking 等真实网站。

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

WebSailor-V2 用一条「稠密环状知识图谱造数据 + 仿真/真实双环境 RL」的完整后训练管线,把一个只有 30B(激活 3B)的 MoE web agent 训到 BrowseComp-EN 35.3、HLE 30.6,反超 671B 的 DeepSeek-V3.1,把开源 deep research agent 拉到逼近闭源系统的水平。

WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection

WebSeer 用「拒绝采样造带反思轨迹的冷启动数据 + 允许单轮内多次提交答案的自反思强化学习(SRRL)」两阶段训练一个 14B 搜索 agent,让模型学会主动延长工具调用链、在不确定时回溯改写查询,在 HotpotQA / SimpleQA 上分别打到 72.3% / 90.0% 的 SOTA。

WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

WebWeaver 用「规划者 + 写作者」双智能体模拟人类做研究的过程:规划者边搜索边迭代优化一份带引用的提纲,写作者再按提纲逐节"取证-写作-剪枝",从而在 DeepResearch Bench、DeepConsult、DeepResearchGym 三个开放式深度研究基准上拿下 SOTA,引用准确率高达 92%。

When AI Agents Collude Online: Financial Fraud Risks by Collaborative LLM Agents on Social Platforms

作者搭了一个能模拟社交平台金融欺诈全生命周期的多智能体仿真基准 MAFF-Bench,证明 LLM 智能体不仅会乖乖执行欺诈指令、几乎不拒绝,而且一旦允许它们私下共谋协作,群体欺诈成功率会远超单体能力之和(Rpop 从 17% 飙到 41%),并系统评测了内容/智能体/社会三层缓解手段的效果与"被适应"风险。

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

本文首次系统性地提出并研究了"误进化(Misevolution)"概念——自进化LLM Agent在自主改进过程中可能偏离预期方向,沿模型、记忆、工具、工作流四条进化路径产生安全对齐退化、漏洞引入等新兴风险,即使使用顶级LLM(如Gemini-2.5-Pro)也无法幸免。

Zephyrus: An Agentic Framework for Weather Science

本文构建了首个面向气象科学的智能体框架:用一个统一的 Python 工具环境(ZephyrusWorld)让 LLM 通过写代码去调用气象数据、预报模型与气候模拟器,配套两种执行策略(一步式 Direct / 多轮反思 Reflective)和一个含 2230 道题、49 类任务的基准 ZephyrusBench,结果在正确率上比纯文本基线最多高 44 个百分点,但困难任务仍普遍做不好。