🤖 机器人/具身智能¶

🎞️ ECCV2024 · 17 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (7) · 📷 CVPR2026 (49) · 🔬 ICLR2026 (47) · 🤖 AAAI2026 (38) · 🧠 NeurIPS2025 (59) · 📹 ICCV2025 (26)

🔥 高频主题： 机器人 ×6 · 导航 ×5 · 多模态 ×2 · 少样本学习 ×2

AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation: 提出 STAformer 架构和两个基于 affordance 的模块（环境 affordance 数据库 + 交互热点），将第一人称视频中的短期物体交互预测（STA）在 Ego4D 和 EPIC-Kitchens 上提升了 30-45% 的相对性能。
An Economic Framework for 6-DoF Grasp Detection: 提出EconomicGrasp框架，通过发现密集监督中的歧义问题（ambiguity problem）是性能与资源矛盾的根源，设计经济监督范式（保留所有视角但裁剪角度/深度）和焦点表示模块（交互式抓取头+复合评分），在GraspNet-1Billion上以1/4训练时间、1/8内存成本超越SOTA约3AP。
Decomposed Vector-Quantized Variational Autoencoder for Human Grasp Generation: 提出 Decomposed VQ-VAE (DVQ-VAE)，通过将手部分解为六个部分分别编码到独立码本，并设计双阶段解码策略（先姿态后位置），在四个基准数据集上质量指标相对提升约14.1%。
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control: 提出 DISCO，通过可微分场景语义表征（包含物体和 affordance）实现动态场景建模，结合全局-局部双层粗到细控制策略实现高效移动操作，在 ALFRED benchmark 的 unseen scenes 上以 +8.6% 成功率超越使用分步指令的 SOTA，且无需分步指令。
DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-Level Control: 提出 DISCO 框架，通过可微分场景语义表示和双层粗-细动作控制，在 ALFRED 基准上实现具身导航与交互的显著性能提升（未见场景成功率超越 SOTA +8.6%，且无需逐步指令）。
GraspXL: Generating Grasping Motions for Diverse Objects at Scale: 提出 GraspXL，一个基于强化学习的抓取动作生成框架，仅用58个物体训练即可泛化到50万+未见物体，同时支持多运动目标（抓取区域、朝向、手腕旋转、手部位置）控制和多种灵巧手平台。
Hierarchically Structured Neural Bones for Reconstructing Animatable Objects from Casual Videos: 提出层次化神经骨骼（Hierarchical Neural Bones）框架，通过树状结构的骨骼系统以粗到细的方式分解物体运动，从随手拍摄的视频中重建可操控的高质量 3D 模型。
Learning Cross-Hand Policies of High-DOF Reaching and Grasping: 提出一种两阶段层次化框架，通过语义关键点和交互等分面（IBS）作为手型无关的状态表示，结合Transformer策略网络和手型特定的适配模型，实现了灵巧抓取策略在不同高自由度机械手之间的零样本迁移。
LLM as Copilot for Coarse-Grained Vision-and-Language Navigation: 本文提出VLN-Copilot框架，让视觉语言导航智能体在粗粒度（简短模糊）指令下遇到困惑时主动向LLM求助，LLM作为副驾驶实时生成细粒度导航指导，在两个粗粒度VLN数据集上显著提升导航成功率。
Octopus: Embodied Vision-Language Programmer from Environmental Feedback: 提出 Octopus，一个具身视觉-语言编程模型，通过生成可执行代码来连接高层规划与底层操控，并引入 Reinforcement Learning with Environmental Feedback (RLEF) 训练方案来提升决策质量。
Octopus: Embodied Vision-Language Programmer from Environmental Feedback: Octopus 是一个具身视觉-语言编程模型，通过将 VLM 与可执行代码生成相结合，利用 GPT-4 收集训练数据并引入 RLEF（环境反馈强化学习）进行微调，在三个不同模拟器（OmniGibson、Minecraft、GTA-V）中实现了端到端的视觉感知→计划→代码生成→执行闭环。
Prioritized Semantic Learning for Zero-shot Instance Navigation: 提出Prioritized Semantic Learning (PSL)方法，通过语义增强的Agent架构、优先语义训练策略和语义扩展推理方案，显著提升零样本目标/实例导航中Agent的语义感知能力，在ObjectNav和新提出的InstanceNav任务上实现SOTA。
Prioritized Semantic Learning for Zero-Shot Instance Navigation: 提出 Prioritized Semantic Learning (PSL) 方法，通过语义感知智能体架构、优先语义训练策略和语义扩展推理方案，显著提升导航智能体的语义感知能力，在零样本 ObjectNav 上超越 SOTA 66%（SR），并提出了更具挑战性的 InstanceNav 任务。
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments: 提出 ReALFRED 基准，使用 150 个真实世界 3D 扫描的多房间可交互环境替代 ALFRED 的合成单房间场景，提供 30,696 条自由格式语言指令，揭示了现有具身指令跟随方法在真实环境中性能显著下降的问题。
See and Think: Embodied Agent in Virtual Environment: 提出 STEVE，一个基于视觉感知、语言指令和代码动作三大组件的 Minecraft 开放世界具身智能体，通过 STEVE-21K 数据集微调 LLaMA-2 并结合视觉编码器和技能数据库，在科技树解锁和方块搜索任务上大幅超越现有方法。
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization: 提出 SemGrasp，通过层次化 VQ-VAE 将抓取姿态离散化为三个语义对齐的 token（方向/方式/精修），并微调多模态大语言模型实现基于语言指令的语义抓取生成。
SemGrasp: Semantic Grasp Generation via Language Aligned Discretization: 提出SemGrasp方法，设计层次化VQ-VAE将抓取姿态离散为"方向-方式-精修"三个语义token，然后微调多模态大语言模型(MLLM)在统一语义空间中融合物体、抓取与语言，实现根据自然语言指令生成物理合理且语义一致的人类抓取姿态。