🤖 机器人/具身智能¶
🎞️ ECCV2024 · 17 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (7) · 📷 CVPR2026 (49) · 🔬 ICLR2026 (47) · 🤖 AAAI2026 (38) · 🧠 NeurIPS2025 (59) · 📹 ICCV2025 (26)
🔥 高频主题: 机器人 ×6 · 导航 ×5 · 多模态 ×2 · 少样本学习 ×2
- AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation
-
提出 STAformer 架构和两个基于 affordance 的模块(环境 affordance 数据库 + 交互热点),将第一人称视频中的短期物体交互预测(STA)在 Ego4D 和 EPIC-Kitchens 上提升了 30-45% 的相对性能。
- An Economic Framework for 6-DoF Grasp Detection
-
提出EconomicGrasp框架,通过发现密集监督中的歧义问题(ambiguity problem)是性能与资源矛盾的根源,设计经济监督范式(保留所有视角但裁剪角度/深度)和焦点表示模块(交互式抓取头+复合评分),在GraspNet-1Billion上以1/4训练时间、1/8内存成本超越SOTA约3AP。
- Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation
-
提出 Decomposed VQ-VAE (DVQ-VAE),通过将手部分解为六个部分分别编码到独立码本,并设计双阶段解码策略(先姿态后位置),在四个基准数据集上质量指标相对提升约14.1%。
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control
-
提出 DISCO,通过可微分场景语义表征(包含物体和 affordance)实现动态场景建模,结合全局-局部双层粗到细控制策略实现高效移动操作,在 ALFRED benchmark 的 unseen scenes 上以 +8.6% 成功率超越使用分步指令的 SOTA,且无需分步指令。
- DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control
-
提出 DISCO 框架,通过可微分场景语义表示和双层粗-细动作控制,在 ALFRED 基准上实现具身导航与交互的显著性能提升(未见场景成功率超越 SOTA +8.6%,且无需逐步指令)。
- GraspXL: Generating Grasping Motions for Diverse Objects at Scale
-
提出 GraspXL,一个基于强化学习的抓取动作生成框架,仅用58个物体训练即可泛化到50万+未见物体,同时支持多运动目标(抓取区域、朝向、手腕旋转、手部位置)控制和多种灵巧手平台。
- Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos
-
提出层次化神经骨骼(Hierarchical Neural Bones)框架,通过树状结构的骨骼系统以粗到细的方式分解物体运动,从随手拍摄的视频中重建可操控的高质量 3D 模型。
- Learning Cross-Hand Policies of High-DOF Reaching and Grasping
-
提出一种两阶段层次化框架,通过语义关键点和交互等分面(IBS)作为手型无关的状态表示,结合Transformer策略网络和手型特定的适配模型,实现了灵巧抓取策略在不同高自由度机械手之间的零样本迁移。
- LLM as Copilot for Coarse-Grained Vision-and-Language Navigation
-
本文提出VLN-Copilot框架,让视觉语言导航智能体在粗粒度(简短模糊)指令下遇到困惑时主动向LLM求助,LLM作为副驾驶实时生成细粒度导航指导,在两个粗粒度VLN数据集上显著提升导航成功率。
- Octopus: Embodied Vision-Language Programmer from Environmental Feedback
-
提出 Octopus,一个具身视觉-语言编程模型,通过生成可执行代码来连接高层规划与底层操控,并引入 Reinforcement Learning with Environmental Feedback (RLEF) 训练方案来提升决策质量。
- Octopus: Embodied Vision-Language Programmer from Environmental Feedback
-
Octopus 是一个具身视觉-语言编程模型,通过将 VLM 与可执行代码生成相结合,利用 GPT-4 收集训练数据并引入 RLEF(环境反馈强化学习)进行微调,在三个不同模拟器(OmniGibson、Minecraft、GTA-V)中实现了端到端的视觉感知→计划→代码生成→执行闭环。
- Prioritized Semantic Learning for Zero-shot Instance Navigation
-
提出Prioritized Semantic Learning (PSL)方法,通过语义增强的Agent架构、优先语义训练策略和语义扩展推理方案,显著提升零样本目标/实例导航中Agent的语义感知能力,在ObjectNav和新提出的InstanceNav任务上实现SOTA。
- Prioritized Semantic Learning for Zero-Shot Instance Navigation
-
提出 Prioritized Semantic Learning (PSL) 方法,通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案,显著提升导航智能体的语义感知能力,在零样本 ObjectNav 上超越 SOTA 66%(SR),并提出了更具挑战性的 InstanceNav 任务。
- ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments
-
提出 ReALFRED 基准,使用 150 个真实世界 3D 扫描的多房间可交互环境替代 ALFRED 的合成单房间场景,提供 30,696 条自由格式语言指令,揭示了现有具身指令跟随方法在真实环境中性能显著下降的问题。
- See and Think: Embodied Agent in Virtual Environment
-
提出 STEVE,一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体,通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库,在科技树解锁和方块搜索任务上大幅超越现有方法。
- SemGrasp: Semantic Grasp Generation via Language Aligned Discretization
-
提出 SemGrasp,通过层次化 VQ-VAE 将抓取姿态离散化为三个语义对齐的 token(方向/方式/精修),并微调多模态大语言模型实现基于语言指令的语义抓取生成。
- SemGrasp: Semantic Grasp Generation via Language Aligned Discretization
-
提出SemGrasp方法,设计层次化VQ-VAE将抓取姿态离散为"方向-方式-精修"三个语义token,然后微调多模态大语言模型(MLLM)在统一语义空间中融合物体、抓取与语言,实现根据自然语言指令生成物理合理且语义一致的人类抓取姿态。