跳转至

🤖 机器人/具身智能

📷 CVPR2025 · 40 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (146) · 🔬 ICLR2026 (162) · 💬 ACL2026 (11) · 🧪 ICML2026 (53) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (75)

🔥 高频主题: 机器人 ×19 · 多模态 ×10 · 导航 ×4 · 推理 ×2

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

提出3D-MVP,将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器,下游微调后在RLBench上平均成功率从62.9%提升到67.5%,在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

通过系统评估发现DINO/iBOT在机器人任务上优于MAE但在非物体中心(NOC)数据上性能退化,原因是丧失了物体中心表示能力。提出SlotMIM方法,通过语义瓶颈(减少原型数量促进objectness涌现)和跨视图一致性正则+slot级对比学习,使模型在NOC数据上也能学到物体中心表示,仅用241K样本即超越用>1M样本的MVP/VC-1。

CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos

利用互联网上超过 2000 小时的城市步行和驾驶视频,通过视觉里程计 (VO) 自动提取动作标签进行大规模模仿学习,训练出能在复杂动态城市环境中导航的具身智能体,真实部署成功率达 77.3%,显著超越现有方法。

Coordinated Manipulation of Hybrid Deformable-Rigid Objects in Constrained Environments

本文提出基于应变参数化 Cosserat 杆模型(GVS)的准静态轨迹优化框架,用于双臂机器人在约束环境中协调操纵混合变形-刚性线性物体(hDLO),利用解析梯度实现比有限差分快 33 倍的求解速度,并在真实双臂平台上验证了 ~3cm 的变形误差。

CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

提出 CoT-VLA,将视觉思维链推理引入视觉-语言-动作模型,通过两阶段推理——先预测子目标图像再生成动作序列——结合混合注意力和动作分块策略,在 LIBERO 基准上实现 81.13% 平均成功率,显著超越现有方法。

Decision SpikeFormer: Spike-Driven Transformer for Decision Making

提出 DSFormer,首个用于离线强化学习的脉冲驱动 Transformer,设计了时序脉冲自注意力 (TSSA) 和位置脉冲自注意力 (PSSA) 来捕获 RL 中的时序/位置依赖,并引入渐进式阈值依赖批归一化 (PTBN) 解决归一化与脉冲特性的冲突,在 D4RL 基准上超越 ANN 对手且节省 78.4% 能耗。

DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness

本文提出 DexGrasp Anything,将三种物理约束力集成到扩散模型的训练和采样阶段,实现几乎所有开放数据集上 SOTA 的灵巧手抓取姿态生成,并构建了包含 15K+ 物体、340万+ 抓取姿态的最大规模灵巧抓取数据集。

DRAWER: Digital Reconstruction and Articulation with Environment Realism

提出 DRAWER 框架,从静态场景视频自动构建可交互数字孪生,结合 SDF + 高斯泼溅双场景表示实现高保真渲染和精细几何,支持铰接体识别与仿真、Unreal Engine 游戏创建、以及 real-to-sim-to-real 机器人策略迁移。

g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks

本文提出g3D-LF,通过在约5K室内3D场景和近100万语言描述上进行多级对比学习预训练,构建了可泛化到未知环境的3D-语言特征场,在VLN(单目/全景)、零样本物体导航和情境问答四种具身任务上均取得SOTA或接近SOTA表现。

GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities

GigaHands 是迄今为止最大的双手活动数据集,通过设计"指令-标注"程序化采集策略和 51 相机无标记捕捉系统,收集了 34 小时、56 名被试、417 个物体的双手活动数据,包含 1.83 亿帧 RGB 图像和 84K 条详细文本标注,在文本驱动手部动作生成和动作描述任务上展示了数据规模的价值。

Hearing Anywhere in Any Environment

提出 xRIR,一个可跨房间泛化的声脉冲响应(RIR)预测统一模型,结合全景深度图的几何特征提取器和少量参考 RIR 的声学编码器,配合新构建的 AcousticRooms 数据集(260 个房间、30 万+ RIR),在已见/未见模拟环境和真实环境中均大幅超越基线方法。

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation

提出 LaDA,将 7-DoF 机器人动作解耦为平移/旋转/夹爪三类运动原语并与语言语义建立对应,通过软标签对比学习和自适应损失加权,以 1.3B 参数在 LIBERO 上达到 93.6% 平均成功率。

Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking References

仅使用约 30 秒的行走 MoCap 数据,通过将行走动作中的可迁移运动模式(浅层网络特征对齐)与运动学方法生成的抓取姿态(主动数据扩充策略)相结合,实现了物理可行、自然流畅的全身人体接近-抓取运动生成,在简单场景下抓取成功率达 99.8%。

Let Humanoids Hike! Integrative Skill Development on Complex Trails

提出 LEGO-H 框架,通过 TC-ViT(时序条件 ViT)统一导航感知和低层运动控制,结合层次潜空间匹配(HLM)从 oracle 策略高效蒸馏,使 Unitree H1 人形机器人在复杂户外山径上达到 68.4% 成功率。

Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation

Lift3D提出了一个两阶段框架,先通过任务感知MAE重建深度信息增强2D基础模型的隐式3D感知能力,再通过将3D点云投影到虚拟平面建立与2D位置嵌入的映射关系来直接让2D模型编码点云数据,在MetaWorld上平均成功率达83.9%(超越前SOTA DP3的65.3%达18.6个百分点)。

Magma: A Foundation Model for Multimodal AI Agents

Magma 通过在图像上标注可交互区域(Set-of-Mark)和在视频中标注运动轨迹(Trace-of-Mark),将 UI 截图、机器人数据和人类操作视频统一到同一个预训练框架中,使单一模型同时具备多模态理解和跨域动作预测能力,在 UI 导航和机器人操控上均取得 SOTA。

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

提出 ManipTrans,两阶段残差学习框架将人手动捕数据迁移到灵巧机器手的双手操作:Stage-1 在纯手轨迹上预训练模仿模型(手腕+手指跟踪+平滑奖励),Stage-2 通过残差模块+课程学习加入物体交互约束(物体跟踪+接触力),在 OakInk-V2 上物体旋转误差仅 8.60°、双手成功率 39.5%。

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping

提出多层遮挡(MLO)表示学习 3D 手-物遮挡关系,并将 Objaverse 大规模 3D 物体数据整合进训练,实现首个支持灵巧双手操作 + 可泛化物体外观的手-物操作视频生成框架。

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

提出 HR-Align 适配范式,利用配对人-机器人视频数据和对比对齐损失,以参数高效的方式弥合人类数据预训练模型与机器人域之间的语义差距,在 20 个仿真任务和 5 个真实任务上平均成功率提升 7%+。

MoManipVLA: Transferring Vision-Language-Action Models for General Mobile Manipulation

提出 MoManipVLA,将预训练的固定基座 VLA 模型迁移到移动操作场景,通过双层轨迹优化联合规划底盘移动和机械臂轨迹(优化可达性/平滑性/碰撞避免),在 OVMM 基准上达到 66.1% 成功率(+4.2%),仅需 50 条演示即可在真实世界部署。

Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning

提出 MoSim,一个基于刚体动力学先验和 Neural ODE 的世界模型,可在物理状态空间中进行高精度长时域预测,首次实现零样本强化学习——不需任何真实环境交互即可训练策略。

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

提出 Concept-Gated Visual Distillation (CGVD),一种无需训练的推理时框架,通过语言指令解析 → SAM3 分割 → 集合论交叉验证 → LaMa 修复的流水线,从 VLA 模型的视觉输入中选择性移除语义干扰物,在高度杂乱场景中将 π₀ 的操作成功率从 43.0% 提升至 77.5%。

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

提出PanoAffordanceNet——首个360°全景affordance grounding框架,通过失真感知频谱调制器(DASM)处理ERP纬度依赖畸变、全球面致密化头(OSDH)恢复稀疏激活为拓扑连续区域、多层级训练目标抑制语义漂移,并构建首个全景affordance数据集360-AGD,全面超越现有方法。

Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception

提出一种面向人机协作的感知调度框架,基于信息增益和计算代价的权衡来选择性激活感知模块(目标检测/姿态估计),在流式感知场景下将计算延迟降低最多 27.52%,同时 MMPose 激活召回提升 72.73%。

Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction

提出 Phoenix 框架,用运动指令作为桥梁连接 MLLM 的高层语义反思和底层机器人动作纠正,通过双过程运动调整机制+运动条件扩散策略实现精细粒度的操作失败恢复,并支持终身学习自我提升。

Prof. Robot: Differentiable Robot Rendering without Static and Self-Collisions

提出 Prof. Robot,首个结合碰撞约束的可微机器人渲染框架——将 3D 高斯点绑定到机器人 URDF 模型的各连杆上实现可微渲染,同时在优化中加入静态碰撞(与环境)和自碰撞(机器人自身)约束,将碰撞率从 24% 降至 0%,同时保持视觉保真度。

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

通过262个真实机器人导航episode的大规模实验,深入分析端到端RL训练的导航智能体内部涌现出的推理能力——包括类Kalman滤波的动力学模型、场景结构的潜在记忆、有限水平的规划能力以及与长期规划相关的价值函数。

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

提出 RoboGround,一个两阶段框架:先用 Grounded VLM(GLaMM)从图像和文本指令中生成目标物体和放置区域的分割掩码,再通过 Grounded Perceiver 将掩码作为中间表示引导机器人策略网络执行操作,在复杂语义操作任务上实现 60-100% 的相对提升。

Robotic Visual Instruction

提出 Robotic Visual Instruction (RoVI),一种以手绘箭头和圆圈为核心的视觉指令范式,替代自然语言来指导机器人操作,并设计 VIEW pipeline 将2D视觉指令转化为3D动作序列,在真实环境中达到87.5%成功率。

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins

RoboTwin提出了一个基于生成式数字孪生的双臂机器人基准框架,利用3D生成基础模型从单张2D图像创建物体数字孪生,并结合大语言模型自动生成机器人操作代码,在仿真预训练+少量真实数据微调的范式下实现了单臂任务成功率提升70%、双臂任务提升40%的显著效果。

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

SaPaVe 提出了一种端到端的主动操作框架,通过解耦相机运动和操作动作的 action space,采用自底向上的两阶段训练策略(先学语义相机控制,再联合优化),在 200K 语义相机运动数据集上训练主动感知先验,配合 3D 几何感知模块增强视角变化下的执行鲁棒性,在真实世界任务中比 GR00T N1 和 \(\pi_0\) 分别高 31.25% 和 40% 成功率。

ShowUI: One Vision-Language-Action Model for GUI Visual Agent

ShowUI 基于 Qwen2-VL-2B,通过 UI 连通图引导的视觉 token 选择减少 33% 冗余 token 并加速 1.4 倍,配合交错式视觉-语言-动作流和精选 256K 训练数据,仅 2B 参数即在零样本 ScreenSpot 上达到 75.1% 的 SOTA 精度。

SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters

提出 SOLAMI,首个端到端的社交视觉-语言-动作 (VLA) 建模框架,通过将语音和动作离散化为 token 并基于 decoder-only LLM 统一建模,实现用户与 3D 虚拟角色通过语音和肢体语言的沉浸式实时交互,同时构建了合成多模态社交交互数据集 SynMSI。

Solving Instance Detection from an Open-World Perspective

从开放世界视角出发,通过度量学习适配基础模型特征、干扰物采样和NeRF新视角合成三种策略,显著提升实例检测中的实例级特征匹配性能,在CID和NID两种设定下均大幅超越前人方法。

SortScrews: A Dataset and Baseline for Real-time Screw Classification

提出SortScrews数据集——一个包含560张512×512 RGB图像、覆盖6类螺丝的工业分类数据集,配套可复用的数据采集流水线,并以迁移学习的EfficientNet-B0和ResNet-18作为基线,ResNet-18在该数据集上达到96.4%验证准确率。

Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation

提出 Primitive Prompt Learning (PPL),通过将运动原语编码为可复用的提示向量,结合光流感知的 Motion-Aware Prompting(MAP)实现跨技能运动原语共享,用冻结-扩展机制支持终身机器人操作学习,在 LIBERO 和真实世界中均优于 LoRA、经验回放等基线。

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

在 ESP32 微控制器上部署端到端量化 CNN,仅用 23k 参数和 ToF 深度相机实现 30ms 延迟的实时自主导航。

Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method

定义长程视觉语言导航(LH-VLN)任务,构建 NavGen 自动生成平台和 LHPR-VLN 基准(3260 个多阶段任务,平均 150 步),提出 MGDM 方法通过短期记忆模糊+长期记忆检索+CoT反馈实现多阶段导航,在 ISR 指标上超越 NaviLLM 23%。

UniAct: Universal Actions for Enhanced Embodied Foundation Models

UniAct提出在通用动作空间(Universal Action Space)中构建具身基础模型,通过向量量化codebook编码跨具身平台共享的原子行为,0.5B参数模型性能超越14倍大的SOTA模型,并支持快速适配新机器人。

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

ZeroGrasp 提出了一个基于八叉树条件变分自编码器(CVAE)的统一框架,从单张 RGB-D 图像同时完成高分辨率 3D 物体重建和 6D 抓取姿态预测,通过多物体编码器和 3D 遮挡场建模物体间关系,在 GraspNet-1B 基准上达到 SOTA,并在真实机器人上验证了泛化能力。