🦾 LLM Agent¶
🎞️ ECCV2024 · 3 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (41) · 📷 CVPR2026 (21) · 🔬 ICLR2026 (47) · 🤖 AAAI2026 (44) · 🧠 NeurIPS2025 (50) · 📹 ICCV2025 (4)
🔥 高频主题: Agent ×3
- Agent3D-Zero: An Agent for Zero-shot 3D Understanding
-
Agent3D-Zero 提出一个基于 VLM 的零样本 3D 场景理解 Agent 框架,通过鸟瞰图上的 Set-of-Line 视觉提示引导 VLM 主动选择观察视角,并综合多视角图像进行 3D 推理,在 ScanQA 等任务上超越了需要微调的 3D-LLM 方法。
- HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning
-
(注:基于摘要的简要笔记)提出 HYDRA,一种多阶段动态组合式视觉推理框架,通过规划器(Planner)、强化学习认知控制器(RL Agent)和推理器(Reasoner)三模块协作,实现可靠且渐进式的视觉推理,在 RefCOCO/RefCOCO+、OK-VQA、GQA 等多个数据集上取得 SOTA。
- VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
-
提出 VideoAgent,一个记忆增强的多模态 Agent,通过构建结构化记忆(temporal memory 存储事件描述 + object memory 存储物体跟踪状态)并利用 4 个工具与记忆交互,零样本完成长视频问答任务,在 NExT-QA 上平均 +6.6%、EgoSchema 上 +26.0%,接近 Gemini 1.5 Pro 的性能。