🦾 LLM Agent¶
📷 CVPR2026 · 42 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (162) · 💬 ACL2026 (82) · 🧪 ICML2026 (59) · 🤖 AAAI2026 (33) · 🧠 NeurIPS2025 (39) · 📹 ICCV2025 (4)
🔥 高频主题: Agent ×16 · LLM ×5 · 多模态 ×5 · 推理 ×4 · 语义分割 ×2
- AdapAction: Adaptive Target Action Backdoor Attack against GUI Agents
-
针对 MLLM 驱动的 GUI 智能体,把传统"触发器→固定动作"的后门换成"触发器→情境自适应恶意动作":用一个对抗教师 LLM 生成结构化恶意推理轨迹、通过 SFT 蒸馏进目标智能体,使其在被触发时根据当前界面和指令自主挑选一个看起来完全合理的恶意操作,从而在保持正常任务效用的同时把攻击成功率推到 100%,并躲过多原则 LLM 防御。
- AeroAgent: A Vision-Physics-Decision Framework for Aerodynamic Vehicle Design
-
AeroAgent 把"文本/图像生成 3D 车形 → 用 Transformer 代理模型 AeroFormer 秒级预测阻力和流场 → 规划器在预算内做 propose-evaluate-refine 闭环编辑"串成一个统一框架,只在最后用少量高保真 CFD 确认 top-K 候选,5 步迭代即可平均降阻 2–12%、把高保真 CFD 调用减少 50–80%。
- Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection
-
用一套 LLM 驱动的多智能体系统去"扮演"造假者和社交网络上的吃瓜群众,模拟人脸伪造从创作到传播的完整生命周期,合成出带文图一致性标注的训练数据,让 deepfake 检测器在跨域、跨伪造算法的真实场景下涨点显著(如 Celeb-DF AUC 从 70% 级提到 87.1%)。
- BAMI: Training-Free Bias Mitigation in GUI Grounding
-
本文先用 MPD 归因法诊断出 GUI grounding 的错误主要来自两类归纳偏差(精度偏差 + 歧义偏差),再提出免训练的 BAMI 推理框架,用「由粗到精聚焦」消除精度偏差、用「候选选择」消除歧义偏差,把 TianXi-Action-7B 在 ScreenSpot-Pro 上的准确率从 51.9% 提到 57.8%。
- BridgeEQA: Virtual Embodied Agents for Real Bridge Inspections
-
本文把基础设施巡检抽象成一类新的具身问答任务(Inspection EQA),发布了 2,200 条专家标注的桥梁巡检问答基准 BridgeEQA,并提出 EMVR 方法——把"一次性塞全部图片"的长上下文问答重构成"智能体在以图片为节点的场景图上按 MDP 主动导航取证",从而缓解长上下文"中间信息丢失",在条件评级准确率、图像引用相关性、答案正确率上都显著超过非导航基线。
- CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning
-
针对 GUI agent 在 app 频繁更新下"学新忘旧"的问题,本文发现 SFT 学得快但会覆写旧知识、RL(GRPO)抗遗忘但学得慢,于是提出 CGL 框架——用"错误感知路由 + 熵调控加权 + 条件梯度手术"把 SFT 和 GRPO 拧成一股绳,在自建的 AndroidControl-CL 基准上同时拿到最高准确率和近乎为零的遗忘度。
- DRAMA: Next-Gen Dynamic Orchestration for Resilient Multi-Agent Ecosystems in Flux
-
DRAMA 把具身多智能体系统里的 agent 和 task 统一抽象成"资源实体",用亲和度矩阵 + 改造版匈牙利算法做事件触发的动态调度,再加一条"信任链"做去中心化故障接管,让团队在 agent 中途掉线/加入/恢复时仍能不间断完成任务,在 VirtualHome-Social 上比 SOTA 平均步数更少、冲突率更低、吞吐更高。
- Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos
-
提出 Ego2Web,首个将第一人称视频感知与 Web 代理执行相结合的基准测试,配套半自动数据构建流程和 Ego2WebJudge 自动评测框架,实验揭示当前最强 Agent 在真实视觉感知到在线行动的跨模态迁移上仍有巨大差距,最高仅 48.2% 成功率。
- EpiAgent: An Agent-Centric System for Ancient Inscription Restoration
-
EpiAgent是首个面向古代铭文修复的Agent系统,通过LLM中央规划器协调多模态分析、专用修复工具和迭代自我优化,在文字真实性和视觉保真度上超越现有方法。
- Experience Transfer for Multimodal LLM Agents in Minecraft Game
-
本文提出 Echo——一个面向"迁移"的记忆框架,把可复用知识显式拆成结构/属性/过程/功能/交互五个迁移维度,封装进统一的上下文状态描述符(CSD),再用上下文类比学习(ICAL)主动地从记忆库里推断并验证新任务,在 Minecraft 从零学习场景里把物品解锁速度提升 1.3×–1.7×,并出现"链式爆发解锁"现象。
- GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents
-
提出 GUI-CEval,首个面向中文移动端 GUI Agent 的综合评测基准,覆盖 201 个主流中文 App、4 种设备类型,采用"基础能力+应用能力"两层结构从感知、规划、反思、执行、评估五个维度进行细粒度诊断,在 20 个代表性模型上的实验揭示当前模型在反思和自我评估方面仍有明显短板。
- HATS: Hardness-Aware Trajectory Synthesis for GUI Agents
-
提出难度感知的轨迹合成框架 HATS,通过 hardness-driven exploration 和 alignment-guided refinement 的闭环机制,专注采集和修正语义歧义动作的训练轨迹,大幅提升 GUI Agent 在复杂真实场景中的泛化能力。
- HAVEN: Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
-
HAVEN 提出音视频实体凝聚 + 层次索引 + Agent搜索的统一框架,通过说话人身份作为跨模态一致性信号,构建全局-场景-片段-实体四级层次数据库,在LVBench上达到84.1%整体准确率的SOTA。
- History to Future: Evolving Agent with Experience and Thought for Zero-shot Vision-and-Language Navigation
-
EVONAV 给零样本视觉语言导航(VLN-CE)的 LLM 智能体补上「回顾历史 + 预判未来」的反馈回路:用 Future Chain-of-Thought(F-CoT)预测未来动作与地标来估计导航进度、用 History Chain-of-Experience(H-CoE)把已完成轨迹和走过的场景在线总结成可检索经验,两者协同让决策从「一锤子直推」进化为「带反馈的连续纠错」,在 R2R-CE 上比同 LLM 的 Open-Nav 提升 +20% SR、+21% OSR、+17% SPL,且更省时省显存。
- iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception
-
iSHIFT 是一个仅 2.5B 参数的多模态 GUI 智能体,让模型自己用 token 生成来决定要不要进入"慢思考"——简单动作(滑动)走轻量快路径,需要精确点击小图标时才临时调起一个 DINO 视觉感知模块做细粒度定位,从而在小模型尺寸下逼平 18B 级 SOTA 的准确率。
- JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
-
JarvisEvo 把"会修图的设计师"做成一个单模型 Agent:它一边调用 Lightroom 工具迭代修图、一边对中间结果做视觉自评、再据此反思纠错,并用一套"编辑器自奖励 + 评估器人标校准"的双环 RL(SEPO)让它不靠外部奖励模型就能自进化,在 ArtEdit-Bench 上像素保真度比 Nano-Banana 高 44.96%。
- Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration
-
针对网页 Agent 依赖人工流水线或昂贵专家轨迹、难以适应动态网页的问题,作者提出 SCALE——让同一个 MLLM 扮演选择器/预测器/裁判三个对抗角色,通过"预测失误"自动发现并扩展自身认知边界,再用 SCALE-Hop 图探索做全局规划,最终为 InternVL2.5-8B 和 Qwen2.5-VL-7B 分别带来 231.8% 和 176.3% 的平均任务成功率提升,并产出 2 万条 SCALE-20k 数据集。
- Learning to Select Visual Tools from Experience
-
本文提出 VisTA(VisualToolAgent),用强化学习训练一个 agent,让它仅凭"任务做对没做对"的反馈,就自主学会从 23 个异构视觉工具里挑出对当前 query 最有用的组合,喂给一个冻结的 VLM 推理器,在 ChartQA/Geometry3K/MathVerse/BlindTest 上显著超过免训练和微调基线,且学到的策略能直接迁移到更强的推理器(如 GPT-4o)而无需重训。
- MMBench-GUI: A Unified Hierarchical Evaluation Framework for Multi-Platform GUI Agents
-
MMBench-GUI 把 GUI 智能体评测组织成「内容理解→元素定位→单应用自动化→跨应用协作」四个递进层级、覆盖 Windows/macOS/Linux/iOS/Android/Web 六大平台共 8000+ 任务,并提出同时考量成功率与动作冗余的 EQA 度量,系统揭示出「精确视觉定位才是决定成败的关键、几乎所有 agent 都存在严重步数冗余」等六条诊断结论。
- ModularAgent: A Task-Aware Modular Framework for Joint Optimization of Multimodal Large Language Models and World Models
-
ModularAgent 让多模态大模型(MLLM)和世界模型(WM)在潜空间里双向耦合:前向把 MLLM 的语义注入 WM 引导"想象",反向用 WM 生成的稠密文本对齐奖励反过来修正 MLLM 的语义空间,并通过任务感知的逐层双专家路由缓解多任务冲突,在 DMC 运动控制的多任务与跨环境迁移上超过 GenRL/FOUNDER 等基线。
- ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering
-
ORCA 把单页文档问答(DocVQA)做成一条五阶段多智能体流水线——先用思考 agent 把问题拆成推理路径,再按内容类型路由并编排九个专精 agent 作答,仅在专家答案与思考答案不一致时才触发压力测试与正反方辩论验证,最后做格式校正——在三个文档理解基准上几乎全面超越单模型 SOTA,且辩论只在 8.3% 的样本上激活、把算力集中在真正存疑的难例上。
- OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models
-
针对"看屏幕操作电脑"的 GUI agent 缺乏可靠的逐步判错器这一痛点,OS-Oracle 用一条从正样本轨迹自动伪造四类典型错误动作的数据流水线造出 31 万条 critic 样本,再用 SFT + 一致性保持的 CP-GRPO 两阶段训练出 7B critic 模型,并配套首个覆盖移动/网页/桌面的人工标注 critic 基准 OS-Critic Bench,开源模型里拿到 SOTA 并能实测提升 UI-TARS 的任务成功率。
- Paper2Figure: A Multi-Agent Collaborative System for Figure Generation Towards Academic Research Paper
-
Paper2Figure 用「生成智能体 + 精修智能体」双多智能体系统,先把论文文字描述翻译成自研的结构化中间语言 FigScript、渲染成图,再让一组批评-修订智能体闭环自纠,配上可交互的 Web 编辑器把人类控制权交还给作者,在自建的 Paper2Figure Bench 上准确性、美观度、完整度全面超过 SVG/Mermaid 代码生成和文生图基线(综合 +14.1%)。
- ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
-
针对当前移动智能体只会"被动执行命令"的局限,本文提出 ProactiveMobile——一个把"主动智能"形式化为「从四维设备上下文推断潜在用户意图并生成可执行函数序列」的大规模基准(3,660 条多意图样本 / 14 个场景 / 63 个 API),并配套可客观评测的 SR/FTR 指标,证明主动性是当前 MLLM 普遍缺失但可学习的能力(微调后的 Qwen2.5-VL-7B 达 20.82% 成功率,反超 o1 的 17.02%)。
- RAAS: LLM Agentic System Architecture Search with GRPO
-
RAAS 把"群组相对评估"思想引入 agentic supernet 的架构搜索:让一批候选架构在同一道题上对打(CAO)、每个架构跑多次独立试验取截尾均值(MTAS),用零中心化的相对优势信号去更新生成分布,从而把"架构好坏"和"题目难易/执行随机性"解耦,在 MATH、HumanEval、GAIA 等六个基准上稳定超过最强基线 MaAS(平均 +5.41)。
- REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting
-
提出 REALM 框架,利用 MLLM 的推理能力通过全局到局部空间定位策略在 3DGS 上进行开放世界 3D 推理分割,无需 3D 后训练即可处理隐式指令,在 LERF 上 mIoU 达 92.88%,远超基线方法 40+ 个百分点,并支持物体移除、替换和风格迁移等编辑任务。
- ReFAct: Empowering Multimodal Web Agents with Visual and Context Focusing
-
ReFAct 让多模态网页搜索 agent 学会主动管理跨模态上下文:用 Grounding 工具裁出高相关图像区域去对抗"视觉噪声"、用 Defocus/Refocus 外部记忆操作压缩并按需取回长文本去对抗"检索噪声",再配上专为高噪声场景构建的 GroundedVQA 数据集做 GRPO 强化学习,训出的 ReFAct-7B 在高噪声基准上显著超过同量级 RL 智能体。
- Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation
-
Refer-Agent 把指代视频目标分割(RVOS)拆成「帧选择→意图分析→目标定位→掩码生成」的分步推理流水线,再叠一层由提问者-回答者构成的双阶段 Chain-of-Reflection(存在性反思 + 一致性反思)在推理与反思之间交替自纠,从而在完全免训练、仅用 9B 开源 MLLM 的条件下,于 5 个 RVOS 基准上同时超过 SFT 方法和接入 GPT-4o 的零样本方法。
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding
-
针对长文档问答里"关键证据稀疏散落、冗余上下文干扰判断"的痛点,提出免训练多智能体框架 SLEUTH,用"检索→线索挖掘+视觉筛选→难度评估→决策"的 coarse-to-fine 流水线,把噪声满满的 top-K 检索页蒸馏成简洁且证据密集的多模态上下文,在四个长文档基准上以模型无关方式刷到 SOTA。
- RetouchIQ: MLLM Agents for Instruction-Based Image Retouching with Generalist Reward
-
针对"创意修图本质主观、单一参考图的规则化奖励不可靠"的痛点,提出 RetouchIQ:让 MLLM agent 把自然语言指令翻译成可执行的 Lightroom 参数,并用一个会"逐例自生成评价 metrics 再打分"的通用奖励模型(GRM)配合策略引导奖励训练(PGRT)做 RL,在自建 RetouchEval 与 MIT-Adobe5K 上的语义一致性与感知质量都超过 MLLM/扩散基线。
- SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
-
SAGE 把长视频推理从"一口气塞进上千帧、单轮直答"的 DIRECT 范式,改造成"像人一样按需多轮检索、简单题直接答"的 AGENT 范式:用一个会编排 6 种工具的 orchestrator VLM(SAGE-MM)+ 低成本合成数据 + 多奖励 GRPO 后训练,在自建的 SAGE-Bench 上开放式问答提升最高 6.1%、>10 分钟长视频最高提升 14.6%。
- SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System
-
SciEducator 把管理学里的戴明环(Plan–Do–Study–Act)改造成一个会自我进化的多智能体闭环,让系统反复"规划—执行—复盘—改进"地读懂科学实验视频,并进一步生成图文音并茂的儿童科普电子手册,在自建的 SciVBench 上大幅超过 GPT-4o、Gemini 等闭源 MLLM 和现有视频 Agent。
- Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding
-
把细粒度视觉理解从"贴一个标签"重新定义成"像专家一样举证推理",提出三阶段闭环 Agent KFRA:先检索生成候选假设、再把检索到的文字知识 grounding 到判别性图像区域、最后让大模型基于多模态证据推理并自我纠错;在自建的 FGExpertBench 上相比基座模型最高提升 19%。
- Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization
-
针对科学工具"最后一公里"适配难题,本文用一个极简的"编码-执行"闭环智能体,仅凭几十张验证图就能自动生成预/后处理代码,在三条生产级生物医学影像流水线(Polaris/Cellpose/MedSAM)上稳定超过原作者手工调了数周到数月的专家代码,并系统证明:树搜索、函数库、AutoML 等复杂组件并非普遍有益。
- Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding
-
Symphony 模仿人类认知把长视频理解拆给"按能力维度分工"的多个专用智能体(规划、反思、grounding、字幕、视觉感知),用一个 Actor-Critic 式的反思增强动态协作机制反复纠偏推理,并为复杂问题设计了一个会"先扩写查询再用 VLM 打分"的 grounding 智能体,在 LVBench、LongVideoBench、Video-MME、MLVU 四个基准上达到 SOTA,LVBench 比前最优高 5.0%。
- Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
-
提出 VideoHV-Agent,将长视频问答重新建模为"假设-验证"过程:Thinker 将答案选项改写为可测试假设,Judge 提取区分性线索,Verifier 在视频中定位证据进行验证,Answer 综合证据给出最终答案,在 EgoSchema/NextQA/IntentQA 三个基准上取得 SOTA,同时推理效率优于现有 Agent 方法。
- Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding
-
首次系统研究离散扩散视觉语言模型(DVLM)在 GUI Grounding 中的应用,将 LLaDA-V 适配为单步动作预测,并提出混合掩码调度(线性+确定性)以捕获边界框坐标间的几何层次依赖,在 Web/Desktop/Mobile 界面上展示了扩散模型作为 GUI Agent 基础的可行性。
- Universal Guideline-Driven Image Clustering via a Hybrid LLM Agent
-
本文提出首个用「文本指南」统一各类图像聚类场景(通用 / 细粒度 / 多视角 / 长尾)的免训练混合 LLM 智能体:先用 MLLM 把图像写成「概念代理 caption」再交给指令感知嵌入模型,得到对齐指南的嵌入直接喂给传统聚类算法;当簇数未知时再用一套基于最小生成树(MST)的 LLM 遍历选择性合并小簇,把昂贵的 LLM 调用从 \(O(M^2)\) 降到 \(O(M\log M)\),在四类任务上全面超越需要专门训练的方法。
- ViLoMem: Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
-
ViLoMem 给多模态大模型外挂一套「视觉流 + 逻辑流」双通道语义记忆,让 agent 在解题失败后把感知错误和推理错误分开归因、分开存储、分开检索,用 grow-and-refine 的增量更新避免遗忘,在六个多模态推理 benchmark 上稳定提升 pass@1 并显著减少重复犯错。
- VULCAN: Tool-Augmented Multi Agents for Iterative 3D Object Arrangement
-
VULCAN 把"按指令重新摆放 3D 场景里的物体"从一锤子单步编辑,升级成"规划—执行—评估"循环的多智能体长程任务:用 MCP 视觉 API + 约束求解器替代脆弱的原始脚本操作,用三类专职 agent 分担全局规划与局部执行,再加自适应回溯搜索从死局里恢复,在 25 个复杂场景上把碰撞率/悬浮率压到 0、显著超过所有基线。
- WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces
-
WebChain 由真人在真实网站上操作采集,构建了目前最大规模的人工标注 Web 交互轨迹数据集(31,725 条轨迹、318k 步、428 个域名),核心是把视觉截图、结构 AX 树、动作坐标做"三重对齐",并基于它提出解耦空间定位与长程规划的 Dual Mid-Training 训练配方,在自建 WebChainBench 及多个公开 GUI benchmark 上取得 SOTA。
- WebGym: Scaling Training Environments for Long-Horizon Visual Web Agents with Realistic Tasks
-
WebGym 把 10 个现成网页 benchmark 聚合并程序化扩展成近 30 万个带 rubric 评估的真实网页任务,再配一套 4-5× 加速的异步 rollout 系统,用最简单的 REINFORCE 就把开源 Qwen3-VL-8B 在「全是训练时没见过的网站」的 OOD 测试集上从 26.2% 拉到 42.9%,反超 GPT-4o(27.1%)和 GPT-5-Thinking(29.8%)。