🦾 LLM Agent¶

🧪 ICML2026 · 59 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (42) · 🔬 ICLR2026 (162) · 💬 ACL2026 (82) · 🤖 AAAI2026 (33) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (4)

🔥 高频主题： LLM ×22 · Agent ×13 · 推理 ×5 · 强化学习 ×4

A Minimal Agent for Automated Theorem Proving: 本文提出 AxProverBase——一个极简的 Lean 4 定理证明智能体，仅靠"编译器反馈 + 自管理笔记本 + 轻量工具搜索"三个组件，在不微调的前沿 LLM（Claude Opus）上达到甚至超越 Hilbert/Seed-Prover 等专用系统，成本却低出 100 倍。
A Systematic Study of Behavioral Cloning for Scientific Data Annotation: 这篇论文搭了一个由 9 个程序化合成标注任务 + 虚拟标注员组成的受控框架，系统研究「行为克隆」（让 VLM 直接模仿人类在标注界面里点击、导航、撤销的完整操作轨迹）能否替代「直接预测标签」，并通过训练动态、缩放规律、迁移能力和线性探针四个维度，揭示了技能分层涌现、模型比训练数据更少犯错却仍会纠错、多任务预训练才能迁移、以及跨任务共享的「出错」内部表征等一系列发现。
ACON: Optimizing Context Compression for Long-horizon LLM Agents: Acon 用失败轨迹对比来优化自然语言压缩指南，同时压缩 agent 的历史和观察上下文，在 AppWorld、OfficeBench 和多目标 QA 上把峰值 token 降低 26% 到 54%，并保持或提升长程任务成功率。
AdaMEM: Test-Time Adaptive Memory for Language Agents: AdaMEM 把智能体记忆拆成「离线存的长期轨迹记忆 + 在线现合成的短期策略记忆」两层，让智能体在长程任务执行到一半时还能随当前状态动态刷新指导策略，配合一个只保留「真正改变了动作」的策略的微调技术 Step-MFT，在 ALFWorld、WebShop、HotpotQA 上相对静态记忆基线最高拿到 13~17% 的相对提升。
Agent-Omit: Adaptive Context Omission for Efficient LLM Agents: 通过 Monte-Carlo rollout 量化"哪些回合的 thought / observation 可以省"，再用冷启动 SFT + 双采样 omit-aware GRPO 训出能自适应跳过冗余思考和观测的 8B agent，五个基准上 token 用量大降而准确率与七大前沿模型持平。
Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling: 这篇论文把网页 Computer-Use Agent 从逐步截图-调用 LLM-执行的循环，改造成类似 JIT 编译器的系统：把自然语言任务编译成可校验、可缓存、可并行调度的代码计划，从而让 JIT-Planner 比 Browser-Use 快 10.4×且准确率高 28pp，让 JIT-Scheduler 比 OpenAI CUA 快 2.4×且准确率高 9pp。
Agentic Monte Carlo: Simulating Reinforcement Learning for Black-Box Agents: 把"对黑盒 LLM Agent 做 RL"重写成"从最优策略后验里采样"，用序贯蒙特卡洛（SMC）配一个轻量价值函数在测试时引导冻结的黑盒模型，不碰任何参数就实现 RL 式优化，在 AgentGym 三个环境上既超过 prompting 基线、又在放大测试时计算后反超需要全参数权限的 GRPO。
AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction: 作者把"对黑盒 agent 系统反推一个等价白盒 workflow"作为新任务 AWR，用 MCTS 在 agent 原语序列空间中搜索，再配上一种基于评分动态着色的 Red-Black 剪枝来平衡深度与宽度，在五个真实领域上实现可解释的白盒重建。
Answer Only as Precisely as Justified: Calibrated Claim-Level Specificity Control for Agentic Systems: 这篇论文把 agentic 系统里的“说得过细但证据不够”建模为 claim 级过度承诺问题，并提出 calibrated CSS：对每个原子 claim 在精确表述、粗粒度回退和省略之间做校准选择，在 LongFact 全量实验中将 OAU 从无后处理的 0.8460 提升到 0.9130，同时保留 0.9381 的特异性。
AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions: 提出 AutoRPA 框架，通过翻译器-构建器流水线将 ReAct 风格 GUI Agent 的交互轨迹自动蒸馏为可复用的 RPA 函数，结合混合修复策略迭代优化代码，在保持甚至超越原始 Agent 成功率的前提下减少 82%~96% 的 token 消耗。
Closing the Feedback Loop: From Experience Extraction to Insight Governance in Verbal Reinforcement Learning: 这篇论文指出训练自由的「言语强化学习」（不更新参数、把经验提炼成规则塞进上下文）在非平稳环境里有个被忽视的「保留-遗忘困境」，提出一套「规则 / 证据 / 技能」三层架构 + critic-proposer-curator 治理回环，让同一批积累的经验从「拉低到零样本基线以下」翻转成「方向准确率 +5.3pp、Sharpe 翻倍」。
CoDA-Bench: Can Code Agents Handle Data-Intensive Tasks?: CoDA-Bench 是第一个把"代码智能"和"数据智能"放在同一个数据密集 Linux 沙盒里联合评测的基准——智能体被丢进平均含 980 个文件的 Kaggle 生态环境里，必须先从一堆语义相似的干扰文件中自己找到对的数据、再写代码算出答案；结果连最强的 Mini-SWE-Agent (GPT-5.5) 也只有 61.1% 执行准确率，暴露出当前代码智能体严重缺乏自主数据发现能力。
CollabBench: Benchmarking and Unleashing Collaborative Ability of LLMs with Diverse Players via Proactive Engagement: 论文提出 CollabBench——一个让 LLM 智能体在合作游戏里与"性格各异的队友"协作的基准与训练框架：用大五人格驱动模拟出多样玩家，用统一 agentic rollout + "效率/情感"双层混合奖励做强化训练，并配一套"效率指标 + 情感指标"的评估协议；训练后的 Qwen2.5-7B 在效率和情感维度分别提升约 19.5% 和 24.4%。
Constitutional Black-Box Monitoring for Scheming in LLM Agents: 本文提出一套端到端的"宪法式黑盒监控"框架，利用两条合成数据流水线（STRIDE 和 Gloom）生成 2,000 条合成轨迹来优化提示分类器，在仅观察外部可见的工具调用与输出（不看 CoT）的条件下检测 LLM 代理的阴谋行为，发现简单的 prompt grid search 即可饱和性能，更激进的优化反而导致过拟合。
EvoClaw: Evaluating AI Agents on Continuous Software Evolution: EvoClaw 提出"里程碑级"的软件演化评测范式：用 DeepCommit 流水线把开源仓库的噪声 commit 历史重建成可执行、可验证的里程碑依赖 DAG，让智能体在同一个持久化代码库上连续完成一串有依赖的开发任务，结果发现 12 个前沿模型在独立任务上能拿 >80% 的分，到连续演化场景却最高只有 38%，暴露出它们在长程维护与抑制错误传播上的根本短板。
EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle: EvolveR 给 LLM agent 套一个「在线交互 → 离线自蒸馏成原则库 → GRPO 策略进化」的闭环生命周期：agent 不再丢弃过去轨迹，而是把自己的成功失败抽象成可检索的「策略原则」，再用 RL 学会如何用自己的原则去解新问题，在 7 个多跳 QA benchmark 上明显跑赢 Search-R1 等 RL agent baseline。
ExCyTIn-Bench: Evaluating LLM Agents on Cyber Threat Investigation: 本文构建了首个评测 LLM Agent 端到端做"网络威胁调查"的 benchmark ExCyTIn-Bench：从真实 Azure 租户的 57 张安全日志表里，用 alert-entity 二部图自动生成 7542 道带证据链的 SQL 问答题，并提供 MySQL 环境让 Agent 通过查询日志、多跳追踪证据来回答，目前最强模型 Claude-Opus-4.5 也只能拿 0.606 的 reward。
From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory: MemoPilot 是一个即插即用的「记忆副驾」——它不动玩家 LLM（冻结），而是单独训练一个记忆模型，用 multi-turn GRPO 把「每局交互后怎么更新记忆」当成一个端到端可优化的多轮决策问题，配上逐轮奖励和按轮归一化的优势估计，让一个冻结玩家在重复对局中真正「越打越强」，在石头剪刀布和限注德州扑克两个测试床上 Elo 双双第一，超过包括 DeepSeek-V3.2 在内的所有记忆基线和专有模型。
HawkesLLM: Semantic Uncertainty Propagation in Agentic Text Simulation: HawkesLLM 把多变量 Hawkes 点过程嫁接到 LLM 智能体文本模拟循环中：Hawkes 负责安排"何时由哪个节点生成"以及"用哪些历史节点的输出作为压缩记忆"，LLM 只负责把被选中的记忆写成下一条事件，在 GDELT Artemis II 新闻级联上获得了在紧凑提示预算下仍随时间上升的后段语义对齐度。
Hunt Instead of Wait: Evaluating Deep Data Research on Large Language Models: 本文提出 Deep Data Research（DDR）这一开放式 agentic 任务范式——只给 LLM 一个结构化数据库和最小工具集（SQL+Python），不给任何具体问题或回合上限，要求模型自主探索、提出假设并决定何时停止；并构建 DDR-Bench（MIMIC-IV / GLOBEM / 10-K，291 个实体、2058 条 checklist），用从非结构化文本抽取的可验证 fact checklist 客观评测主流 LLM 的"investigatory intelligence"，结果显示即使 Claude 4.5 Sonnet 也只能拿到 47.7% 平均准确率。
Internalizing Agency from Reflective Experience: 本文提出 LEAFE 框架，让 LLM agent 通过反思失败轨迹生成「失败→回滚→修正→成功」的经验数据，再用 SFT 蒸馏出 feedback-grounded 的恢复能力，在 CodeContests、WebShop、ALFWorld 等长程任务上把 Pass@128 拉高最多 14%，远胜 GRPO 等 outcome-driven RL。
It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents: TRAP 是一个面向 Web Agent 的"任务重定向说服"评测基准，把提示注入拆成"界面 × 说服"五个可组合维度共 630 个任务-注入组合，在六个真实网站克隆上测六款前沿模型，发现它们平均 25% 的任务会被注入劫持（GPT-5 仅 13%、DeepSeek-R1 高达 43%），且按钮注入比超链接有效三倍多、轻量上下文裁剪能把成功率拉高近六倍。
Learning Efficient Guardrails for Compliance: 本文构造了一个 60k 规模的 PolicyGuardBench（5 个域、733 条标准化轨迹 × 2195 条原子策略 → 6 万 trajectory-policy 对，含跨子域和前缀截断设置），并基于 Qwen3-4B-Instruct 全参数 SFT 出一个轻量 guardrail 模型 PolicyGuard-4B，在 22.5 ms/样本的延迟下取得 90.14% 准确率 / 87.59% F1，匹配甚至超过 70B 级开源模型和 Claude-Sonnet-4，并展现了强跨域泛化（LODO OOD F1≈0.91）。
Lifting Traces to Logic: Programmatic Skill Induction with Neuro-Symbolic Learning for Long-Horizon Agentic Tasks: NSI 把 LLM agent 的交互轨迹 "提升" 为带显式条件分支和动态变量绑定的神经符号工作流图，使技能从无状态脚本进化成可状态感知的逻辑程序，在 ALFWorld / WebShop / TextCraft 上分别拿到 98.0 / 76.5 / 95.2 的成功率，全面碾压 ASI 和 AWM 等编程式技能基线。
LLM Agents Are the Antidote to Walled Gardens: 这是一篇 ICML 2026 立场论文，主张 LLM 智能体能够通过自动格式转换 + 拟人化 UI 交互"绕过"主流平台的 API 封闭策略，实现"通用互操作性"（universal interoperability），从而瓦解传统网络效应造成的"围墙花园"，但同时需要 ML 社区主动建立 agent-friendly 接口、安全机制和生态基础设施来管控随之而来的安全、法律与新一层 lock-in 风险。
MacArena: Benchmarking Computer Use Agents on an Online macOS Environment: MacArena 把 OSWorld 移植任务、macOSWorld 任务和 49 个全新 macOS 原生任务（共 421 个、覆盖 50 个应用）统一搬进运行在 Apple Silicon 原生虚拟化框架上的真实 macOS 环境，配上逐任务手写的执行式评测脚本，发现当前 GUI 智能体在 macOS 上普遍比 Linux 掉点、且模型排名在「移植任务」和「macOS 原生任务」之间发生反转——揭示现有 benchmark 的高分更多是「见过这类任务分布」而非真正的跨平台 GUI 能力。
MCP-Persona: 用环境模拟评估 LLM agent 在真实个人化应用上的能力: MCP-Persona 是首个针对真实个人化 MCP 工具（Slack/Rednote/Instagram/Lark 等 12 服务器）的 LLM agent benchmark；提出 Tool-Traverse + Context-Tree + Persona-Gen 三套方法，用 LLM 自动 synthesize Python simulator 代码避免真实账号问题；测 10+ SOTA agent 发现连 Claude-Sonnet-4.5 也只达 38.66% Acc，证明个人化工具使用是被严重低估的能力短板。
Measuring Agents in Production: 这是第一项系统性研究"生产环境里的 LLM agent 到底是怎么被造出来、怎么被评估的"的实证工作——作者通过 20 个深度访谈案例 + 306 份从业者问卷（筛出 86 个已部署/试点系统）跨 26 个领域收集一手数据，发现生产 agent 普遍走"简单、可控"路线（68% 在人工介入前执行 ≤10 步、70% 直接 prompt 现成模型不做权重微调、74% 主要靠人工评估），而可靠性是头号挑战、从业者主要靠系统级设计而非算法/模型层创新来解决它。
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents: MRAgent 把"先检索后推理"的静态记忆范式换成"边推理边重构"，用一个 Cue–Tag–Content 关联记忆图加一套主动重构循环，让智能体根据中间证据动态选择遍历方向、剪掉无关分支，在 LoCoMo / LongMemEval 上相对最强基线最高提升 23%，同时把 token 和耗时大幅压低。
NaviAgent: Graph-Driven Bilevel Planning for Scalable Tool Orchestration: NaviAgent 把 LLM 工具调用拆成"高层四选一决策 + 低层图上路径搜索"两层，由一个用 HGT 训练的 Tool World Navigation Model（TWNM）显式建模工具之间的结构与行为依赖，在 ToolBench/API-Bank 与 50 个真实 RapidAPI 上把任务成功率（TSR）相对最强基线整体提升 4.3–18.2 个点，同时显著减少调用步数。
On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents: 针对 LLM agent 在多轮主动推理中"动作选择(AS)"与"信念跟踪(BT)"互相拖累、outcome-only RL 训练陷入低信息自锁(SeL)的失效模式，本文给出 POMDP 视角下的耦合梯度分析与"自锁区"形式化定义，并提出 AReW：用环境/读出层即可获得的方向性 critique 对 stepwise advantage 做加性 reweighting，在 9 个主动推理任务上最高带来 60 分性能提升。
OTora: A Unified Red Teaming Framework for Reasoning-Level Denial-of-Service in LLM Agents: OTora 提出一种全新的攻击范式 Reasoning-Level Denial-of-Service（R-DoS）：不破坏任务正确性，而是通过两阶段红队管线（先用插入感知优化诱导 agent 主动访问攻击者控制的外部资源，再在该资源里投放经 ICL 遗传搜索优化的「思考型 payload」）让 LLM agent 进入持续多轮的过度推理状态，在 WebShop / Email / OS 三类 agent 上实现 10× 推理 token 膨胀和数量级延迟攻击，且最终任务准确率几乎不变。
Persona2Web: Benchmarking Personalized Web Agents for Contextual Reasoning with User History: 本文提出首个针对个性化 web agent 的开放网页 benchmark Persona2Web，用「隐式用户历史 + 三档模糊查询 + 推理感知评分」逼迫 agent 从浏览记录中推断用户偏好来消歧 ambiguous query；在 GPT-4.1 / o3 等 5 个主流模型上，即使提供历史，level-2 query 的成功率也只有 13%，揭示当前 web agent 缺乏真正的个性化能力。
Position: Agentic AI Orchestration Should Be Bayes-Consistent: 这篇 position paper 主张：不要再尝试让 LLM 本身 "Bayesian"（那条路在工程上和理论上都跳不过去），而是把贝叶斯结构搬到 agentic AI 的编排控制层——让控制器维护一个低维任务级隐变量的信念，按 Bayes 规则在 agent/工具返回的"消息观测"上更新，并用期望效用或 value-of-information 做路由、停止、升级和预算分配。
Position: Assistive Agents Need Accessibility Alignment: 这是一篇 position paper，作者通过对 417 篇文献中 778 个盲人辅助任务实例做系统综述，论证 "accessibility alignment" 应当被视为与 helpful/harmless/honest 并列的 Agent 一级对齐目标，并提出覆盖目标-交互-风险-生命周期四维度的设计 pipeline。
Position: Modular Memory is the Key to Continual Learning Agents: 这是一篇出自 Dagstuhl 持续学习研讨会的立场论文，主张：单纯靠改权重（IWL）会灾难性遗忘、单纯靠塞上下文（ICL）会算力爆炸且基座僵化——真正通往"能持续学习的 agent"的缺失拼图，是用模块化记忆把 ICL 的快适应和 IWL 的慢巩固结合起来（核心模型 + 工作记忆 + 长期记忆，外加睡眠式离线巩固）。
Post-Training LLMs as Better Decision-Making Agents: A Regret-Minimization Approach: 作者提出 Iterative RMFT，把 LLM 自己 rollout 出来的决策轨迹按 regret 从低到高排序，挑出最优的 \(k\) 条用 SFT 反复微调模型，从而在不依赖任何已知最优算法（如 UCB/FTRL）也不需要人工设计 CoT 模板的前提下，让 LLM 在多臂赌博机、在线学习和非平稳赌博机这三类语言化决策任务上自动涌现出 no-regret 行为和合理的探索-利用平衡。
PragLocker: Protecting Agent Intellectual Property in Untrusted Deployments via Non-Portable Prompts: PragLocker 用 "代码符号初始化 + 黑盒目标模型反馈下的噪声注入" 两阶段策略，把 agent system prompt 编码成一段只能在 target LLM 上 work、迁移到其它任意 LLM 都会失效的 obfuscated text，从而在 prompt 被部署侧窃取时让攻击者无法在自己的 LLM 上复用。
Probabilistic Modeling of Latent Agentic Substructures in Deep Neural Networks: 作者把神经网络（特别是 LLM）形式化为多个隐式子代理（每个是 outcome 上的概率分布）通过对数加权池化合成的复合代理，并在认知效用 \(W_i(o)=\log P_i(o)\) 框架下证明了 "严格一致受益（strict unanimity）" 在线性池化或二元 outcome 下不可能、但 \(|\mathcal O|\ge 3\) 下可行，进而推出"显式让 Waluigi 先显形再压制"严格优于"只强化 Luigi"的对齐原则。
Process Reward Agents for Steering Knowledge-Intensive Reasoning: 把过程奖励模型从"事后打分"重构成一个在线 agent：在每个推理步实时决定是否检索证据并给出奖励，借助 beam search 对冻结策略的候选轨迹进行剪枝，使 Qwen3-4B 在 MedQA 上达到 81.9% 的 4B-scale SOTA，且能直接迁移到 0.5B–8B 各种未见骨干（最高带来 25.7% 提升）。
Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents: 针对 GUI 智能体在真实部署中容易陷入"自己造的错误"无法恢复这一痛点，作者一边搭出 GUI-RobustEval（1216 个可执行测试，覆盖 11 种策略诱发错误 + 4 档错误深度）做细粒度评测，一边提出 RoTS——一种基于轨迹树的在线数据合成框架：在成功子树上用脆弱度 UCB 主动暴露新错误，在失败子树上用邻居经验做长程恢复回滚，最终合成 800k 反思数据，使 RoTS-32B 在 OSWorld 上拿到 47.4% SR / 33.8% All-Pass@4 的开源 SOTA。
ReflexGrad: Within-Episode Failure Recovery in LLM Agents via Progress-Gated Dual-Process Routing: ReflexGrad 把 TextGrad 的"每 3 步局部梯度精调"作为快过程、把 Reflexion 风格的"连续低分触发的因果重规划"作为慢过程，用一条进度门控路由规则在同一个 episode 内无示范地切换两者，在 ALFWorld 134 任务上把 Qwen-3-8B 从 35.1% 拉到 75.4%（+40.3pp），并在算力对等条件下击败 1-shot 的 LATS / ToT / Self-Refine。
Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use: RHB 构造了一套现实工具型多步任务（独立 + 链式两种模式，含数据流水线、日志取证、性能优化、多文件重建四大家族）来量化 LLM agent 的奖励黑客行为，跨 13 个前沿模型发现 RL 后训练显著提高 exploit 率（DeepSeek-V3 0.6% vs R1-Zero 13.9%），且 exploit 率随链长上升、在更难变体上即使近零率模型也会"复发"，而轻量级环境硬化能在不损害任务成功率前提下把 exploit 率减少 87.7%。
Rule2DRC: Benchmarking LLM Agents for DRC Script Synthesis with Execution-Guided Test Generation: 作者构建了 Rule2DRC —— 一个含 1000 条自然语言设计规则、13921 个评测版图的大规模 EDA 基准，通过 KLayout 引擎做执行级别打分而非代码相似度对比，并提出 SplitTester：把 N 个候选 DRC 脚本按"在当前测试下是否输出一致"做聚类，每轮挑「分数 × 簇大小」最大的簇生成新版图把它拆开，最后让 judge LLM 在 Top-3 候选与其差异化测试上选最优。
SafeHarbor: Defining Precise Decision Boundaries via Hierarchical Memory-Augmented Guardrail for LLM Agent Safety: SafeHarbor 把 LLM Agent 的安全防御从「静态粗粒度分类器」升级为「动态分层记忆树 + 双分数门控」，通过对抗规则生成 + 信息熵自演化让 GPT-4o 在保持 93%+ 拒绝率的同时把 benign 工具调用成功率拉到 63.6%，显著缓解 over-refusal 问题。
Scaling, Benchmarking, and Reasoning of Vision-Language Agents for Mobile GUI Navigation: 小米团队针对 VLM 移动 GUI 智能体提出"数据-评测-推理"三位一体的系统性研究：发布 16k 任务 / 674 个中文 App 的 HyperTrack 数据集和支持 30+ 模型的 GUIEvalKit 评测工具，证明 DAPO 风格 RL 在 OOD 场景明显胜过 SFT、并用半在线评测 SOEval 揭示了"显式 reasoning 会牺牲 PASS@1 稳定性但提升 PASS@n 多样性"的核心权衡。
Scaling Small Agents Through Strategy Auctions: 论文提出 sale（Strategy Auctions for Workload Efficiency）：让大小不一的 Qwen3 智能体在每个任务上提交"策略短计划"作为竞拍标书，按 cost-minus-value 选出执行者，并用历史竞拍记忆让便宜 agent 持续精炼自己的标书；在 deep search 与 coding 上既超过最大模型的 pass@1，又把对最大 agent 的依赖降低 52%、总开销降低 35%。
SE-GA: Memory-Augmented Self-Evolution for GUI Agents: SE-GA 给基于 VLM 的 GUI 智能体配了一套"情景+语义+经验"三层记忆库（TTME）+ 一个两阶段记忆增强自演化训练流程（MASE，SFT→改进版 GRPO），把 Qwen2.5-VL-7B 在 ScreenSpot 推到 89.0、AndroidControl-High 推到 75.8、AndroidWorld 推到 39.0，全面超越同规模基线甚至打平 72B 模型。
Self-evolving LLM agents with in-distribution Optimization: Q-Evolve 让 LLM 智能体在一个固定的混合离线数据集上学一个「分布内 critic」、用优势估计自动给每一步打过程奖励、再用 behavior-proximal 策略优化更新，全程不离开数据分布，从而在 AlfWorld/WebShop/ScienceWorld 上以远少的环境交互实现稳定的自我进化。
Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents: Skill-Pro 把 LLM agent 的交互经验显式抽成"激活+执行+终止"三件套的 Skill，用语义梯度生成候选 Skill、再用 PPO 风格的信任域验证 (PPO Gate) 决定是否纳入，最终在 ALFWorld / Mastermind 上以 ~800 token 的极小记忆库实现 0.85+ 的复用率和显著性能提升。
Talk, Judge, Cooperate: Gossip-Driven Indirect Reciprocity in Self-Interested LLM Agents: 本文提出 ALIGN，让一群完全自利、去中心化的 LLM 智能体通过五档语气的公开"八卦"消息互相评价、形成声誉、惩罚背叛，从而在无中心监管的捐赠博弈、投资博弈和电商市场中稳定地建立间接互惠合作，并发现推理型 LLM 比 chat 型 LLM 更能按博弈论激励"该合作时才合作"。
Think Twice Before You Act: Enhancing Agent Behavioral Safety with Thought Correction: 本文提出 Thought-Aligner——一个 1.5B/7B 的轻量级即插即用安全模型，在 LLM agent 的 think-act-observe 循环里、在每个动作执行前对中间思维做因果纠偏，把 6 个主流 LLM 在 ToolEmu/Agent-SafetyBench 上的行为安全率从约 50% 拉到约 90%，同时帮助度还提升约 5%。
Towards a Science of AI Agent Reliability: 论文借鉴航空 / 核能 / 汽车等安全关键工程的成熟做法，把 AI agent 的"可靠性"分解为一致性、鲁棒性、可预测性、安全四个维度共 12 个与准确率无关的指标，在 GAIA 和 \(\tau\)-bench 两个基准上系统评测 15 个前沿模型，得出"过去 24 个月准确率猛涨、可靠性几乎没动"这一行业级结论。
Towards Diverse Scientific Hypothesis Search with Large Language Models: 把"用 LLM 搜科学假设"重新看成在固定验证预算下高效产出一批多样且高质量假设的采样问题，借鉴物理里的并行回火（Parallel Tempering）造了一个双温度池的进化框架 EvoDiverse，让高温池负责探索、低温池负责精炼、两池之间按 Metropolis-Hastings 规则交换样本，从而在分子/方程/算法三类发现任务上同时提升质量和多样性。
Towards Feedback-to-Plan Decisions for Self-Evolving LLM Agents in CUDA Kernel Generation: 针对自演化 LLM agent 写 CUDA kernel 的场景，提出 CUDAnalyst：通过"冻结某一代中间程序状态 + 选择性注入/屏蔽反馈"做生成级干预，并用 Banzhaf 联盟博弈解构 debugger / analyzer / profiler 三类反馈的边际贡献和高阶交互，得出"显式 plan 只有在反馈对齐时才有用、强模型的 plan 可向同家族弱模型迁移"等四条结论，并据此设计出 2.08×–10.32× 超过 torch.compile 的 CuGEdit 插件。
Towards Pareto-Optimal Tool-Integrated Agents with Pareto Ranking Policy Optimization: ParetoPO 把"工具使用 Agent 的对齐"显式建成一个多目标 RL 问题（准确率 vs 工具调用效率），用两阶段训练——先用超体积引导的动态标量化做全局探索、再用 Pareto 占优排序算优势做局部精修——在数学推理和多跳 QA 上同时拿到更高准确率和更少工具调用。
Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining: Video2GUI 用「元数据粗筛 → 视频质量精筛 → Gemini-3-Pro 提任务/动作 → 高分辨率三帧精确空间 grounding」四段流水线把 5 亿条 YouTube 视频元数据炼成 WildGUI（12.7M 轨迹、124.5M 截图、1500+ 应用），并把 Qwen2.5-VL/Mimo-VL 在多个 GUI grounding 与 agent benchmark 上提升 5–20%。
Weasel: 通过重要性-多样性数据选择实现 Web Agent 的域外泛化: 通过结合目标相关性和多样性的轨迹步骤选择方法，Weasel 在减少训练数据到原始 20% 的同时实现 9.7-12.5 倍训练加速，并显著提升 Web Agent 在未见域上的泛化能力。
Web Agents Should Use Typed Actions Instead of Click-Based Browsing: 这是一篇立场论文（Position Paper），主张要建一个可靠的"能动 Web"（agentic web），光靠更强的模型不够，必须让网站把常见 web 操作暴露成带类型签名的"动作"——作者把它具体设计成 web verbs（网页动词）：一个有结构化输入/输出、文档化行为的类型化函数，无论底层是服务端 Web API 还是客户端浏览器工作流；智能体在这层之上把任务合成成短小、带显式控制流/数据流、可审计的程序，从而比"点击+键盘+DOM"的低层原语更可靠、更高效、更可验证。