跳转至

🤖 机器人/具身智能

📷 CVPR2026 · 146 篇论文解读

📌 同领域跨会议浏览: 🔬 ICLR2026 (162) · 💬 ACL2026 (11) · 🧪 ICML2026 (53) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (75) · 📹 ICCV2025 (26)

🔥 高频主题: 机器人 ×57 · 多模态 ×33 · 导航 ×20 · 推理 ×17 · Agent ×11

A Cross-view Fusion Framework for Robust 6-DoF Grasp Pose Estimation

针对单视角点云在「角落视角(corner view)」因遮挡丢失几何信息、导致 6-DoF 抓取不稳的问题,本文用机械臂顺手多看一眼的辅助视角后融合(post-fusion)——用自监督对比学习把跨视角点特征拉成「空间一致 + 方向可辨」,再用一个「跨视角对齐圆柱积分」模块在抓取相关的圆柱邻域里融合两视角几何,在 GraspNet-1Billion 上 Seen 分割 AP 达 74.08(RealSense,+3.55),真实机械臂清桌成功率 96%。

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

把 VLA 的"中间推理"从语言子任务或目标图像换成动作空间里的粗粒度参考动作序列(Action Chain-of-Thought),用一个显式动作推理器生成参考轨迹、一个隐式动作推理器从 VLM 的 KV cache 里抽动作先验,两路共同给动作头做条件,在 LIBERO/LIBERO-Plus/VLABench 三个仿真基准和真机上都刷到 SOTA。

Action-Sketcher: From Reasoning to Action via Visual Sketches for Robotic Manipulation

本文提出 Action-Sketcher:让 VLA 模型在"看-想-画-做"(See-Think-Sketch-Act)循环里,先把空间意图画成一张由点、框、箭头组成的视觉草图(Visual Sketch)作为人可读、可改的中间表示,再据此生成动作;在长程、杂乱、指代模糊的真实操作任务上显著超过 π0.5、OpenVLA-OFT 等强基线,且草图允许人在回路里直接修改来进一步把成功率拉高。

ActiveGrasp: Information-Guided Active Grasping with Calibrated Energy-based Model

针对杂乱场景下机器人靠有限视角难以抓准目标的问题,ActiveGrasp 用一个校准过的能量模型直接在 SE(3) 流形上建模抓取分布,把"下一最佳视角"的信息增益定义为抓取成功熵的下降量,从而把机器人引导到"抓取最不确定"的区域,在仿真和真机上以更少视角预算取得最高成功率(仿真 79% SR)。

ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation

ActiveVLA 给 3D 视觉-语言-动作(VLA)模型加上「主动感知」:先用多视角正交投影+热图定位 3D 关键区域,再围绕该区域主动挑选最优虚拟相机视角、并对关键区做虚拟 Zoom-in 提分辨率,从而在遮挡和精细操作场景下显著提升成功率(RLBench 平均 91.8%)。

AdaDexTrack: Dynamic Modulation for Adaptive and Generalizable Dexterous Manipulation Tracking

AdaDexTrack 把"语言指令 → 灵巧手物交互"重新定义为可调制的跟踪:用一个蒸馏出来的通用跟踪器当"技能载体",再在反馈环里塞一个 RL 训练的调制器,从「参考轨迹 / 物体隐变量 / 位置目标」三个接口实时纠偏,从而把含噪的文本生成参考稳定地执行成长程、抗漂移的操作,并实现零样本 sim-to-real。

Adaptive Action Chunking at Inference-time for Vision-Language-Action Models

提出自适应动作分块(AAC)策略,利用动作熵作为线索在推理时动态确定最优分块大小,无需额外训练或架构修改,在RoboCasa和LIBERO等基准上持续提升GR00T N1.5和π0.5的任务成功率。

Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation

针对 VLA 模型在场景扰动下"照搬训练轨迹、把机械臂开向旧位置"的记忆陷阱问题,本文用一个无需训练的 3D 空间可供性场(SAF)作为即插即用插件:靠本体感受检测陷阱、回滚到安全历史位姿、再用 SAF 采样路点并对 VLA 候选轨迹按累积可供性打分重排,在真实平台 OOD 场景上平均提升 23.5%。

AffordGen: Generating Diverse Demonstrations for Generalizable Object Manipulation with Affordance Correspondence

AffordGen 把"affordance 语义对应"从在线规划信号改造成离线数据生成的先验:用 DINOv2 在大规模 3D mesh 之间建立关键点对应,把一条人类示教里的抓取段和技能段批量迁移到成百上千个新物体上,合成出覆盖全 6D 位姿、跨类别的轨迹数据集,再用这些数据训练闭环视觉运动策略,从而对真正没见过的物体实现零样本泛化。

AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions

AGENTSAFE 是首个系统评测「具身 VLM 智能体执行危险指令」安全性的 benchmark:它用一个可对接任意 agent 的对抗仿真沙盒(SAFE-THOR)+ 9,900 条按「机器人三定律」分类的危险指令(SAFE-VERSE)+ 跨「感知-规划-执行」三阶段的细粒度诊断协议(SAFE-DIAGNOSE),评测了 9 个 VLM 与 2 套 agent workflow,揭示出当前智能体「能看出危险却无法把这种认知落到规划和执行上」的系统性失效,并给出一个思维层防御模块 SAFE-AUDIT。

AGiLe: Learning Robust Long-Horizon Manipulation via Affordance-Grounded Bidirectional Latent Planning

AGiLe 用「反向规划器 + 前向评判器」联合训练生成既贴合目标又动态可达的隐空间子目标序列(时间鲁棒性),再把这些抽象子目标当 Query 通过交叉注意力过滤视觉特征、隐式地接地到像素级可供性来驱动动作(空间鲁棒性),在 LIBERO-LONG 上平均成功率 97.1%,比此前最强基线 LBP 提升 8.5%。

AirSim360: A Panoramic Simulation Platform within Drone View

基于 Unreal Engine(兼容 UE 4.27–5.6)搭一个面向无人机视角的 360° 全景闭环仿真平台 AirSim360,配套"渲染对齐的像素级标注、可交互行人系统、自动轨迹生成"三件套工具链,一口气合成 6 万多帧带深度/全景分割/3D 关键点的全向数据,并在深度估计、分割、行人测距、视觉语言导航等五类任务上证明合成数据能迁移到真实场景。

Align While Search: Belief-Guided Exploratory Inference for World-Grounded Embodied Agents

针对 LLM 具身 agent 在部分可观测环境下「搜索物体时只会机械重放训练轨迹」的问题,AWS 把搜索建模成单状态的贝叶斯自适应控制——在测试时维护一个分层信念(全局语言假设 + 低层动作分布),用冻结 LLM 模拟观测来做「更新→投影」的信念刷新,并按预测信息增益选动作,不更新任何梯度就把搜索成功率和 token 开销同时压过了推理时扩展与训练时世界模型基线。

Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning

Arcadia 把具身学习从"单阶段优化"重新定义为"全生命周期问题",用一条紧耦合的 real→sim→real 闭环把自主探索采数、生成式场景重建、导航/操作共享骨干、部署反馈回灌四个环节串成一个自我改进系统,在导航/操作 benchmark 上分别平均提升 7.07% / 11.08%,真机成功率远超 NaVILA、OpenVLA。

AstraNav-Memory: Contexts Compression for Long Memory

AstraNav-Memory 把具身终身导航的"记忆"做成图像中心的隐式表示——用一个 ViT-原生的视觉压缩 tokenizer 把每帧从 598 个视觉 token 压到约 30 个(≈20×),让 Qwen2.5-VL-3B 能在单个 context 里塞进数百帧历史,从而在陌生环境探索得更高效、在熟悉环境复用记忆走更短的路,在 GOAT-Bench 和 HM3D-OVON 上刷到 SOTA。

AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models

AT-VLA 在预训练 VLA(GO-1)上引入一个可学习的触觉门控,只在机器人「接触物体」的瞬间才把触觉信号注入动作专家,避免新模态破坏预训练的视觉定位能力;并用慢视觉流 + 快触觉流的双频解耦实现 0.04s 闭环反应,在拉拉链、盖章、擦花瓶、拧瓶盖等真实接触密集任务上把平均成功率从 vanilla 的 0.22 提到 0.50。

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

提出AtomicVLA,在π₀基础上构建统一规划-执行框架,通过自适应Think-Act切换生成原子技能抽象,并用技能引导的MoE(SG-MoE)将动作路由到专精expert执行,LIBERO-LONG成功率从85.2%提升至95.2%(+10%),真实Franka长任务+18.3%,持续学习+21%。

AURA: Multi-modal Shared Autonomy for Urban Navigation

AURA 把城市人行道导航拆成「人给高层指令、AI 做低层控制」的分层共享自治,用一个 SIE 把文字/画线/箭头三类人类指令对齐到场景的语义与几何,再用锚点扩散策略生成轨迹,在仿真和真实世界把接管频率降了 44%、人类操作成本降了 70%+。

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention

从POMDP视角重新审视VLA模型的视觉处理,提出AVA-VLA框架通过循环状态和主动视觉注意力模块,根据历史上下文动态调制当前帧的视觉token重要性,在LIBERO和CALVIN等基准上达到SOTA。

AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation

AwareVLN 给端到端 VLN 模型装上"自我感知推理"能力——只在关键导航节点(子任务完成 / 走偏 / 停错)稀疏触发结构化推理,并用一个无需人工标注的自动数据引擎生成这种自省式监督,使纯单目 RGB 智能体在 R2R-CE / RxR-CE 上大幅超过此前 SOTA。

Beyond Mimicry: Learning Whole-Body Human-Humanoid Interaction from Human-Human Demonstrations

为了让类人机器人学会拥抱、握手、击掌这类全身物理交互,本文先用接触语义保留的重定向(PAIR)把海量"人-人交互"数据翻译成物理一致的"人-机器人交互"数据,再用一个把"何时动"与"何处动"解耦的分层扩散策略(D-STAR)学会同步交互,在 6 类交互任务上平均成功率达 75.4%,并在 Unitree G1 实机部署。

Beyond Success: Refining Elegant Robot Manipulation from Mixed-Quality Data via Just-in-Time Intervention

针对 VLA 策略从混合质量人类示范里学到"会成功但动作不优雅"的问题,本文不重训基策略,而是离线训一个 Elegance Critic(用 Cal-QL 估计动作的"优雅价值"),并在推理时通过监控 Q 值波动只在少数"决策关键时刻"触发多候选重选,在 LIBERO-Elegant 与真机上把 Elegant Success Rate 从约 50% 提到 67%(真机 +23.7 pts)。

BiPreManip: Learning Affordance-Based Bimanual Preparatory Manipulation through Anticipatory Collaboration

提出 BiPreManip 框架,基于视觉可供性表示实现双臂预备操作:先预想主手的目标交互区域,再引导辅助手进行预备动作(如翻转瓶子使瓶盖朝向主手),在仿真和真实环境中大幅优于基线。

Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior

提出可行动作邻域(FAN)正则化器,将 VLA 模型的输出分布塑造为与物理动作容差匹配的高斯形状,在 SFT 和 RFT 两种微调范式下均显著提升成功率、泛化性和样本效率(RFT 仅需 1/3 训练步数达到 90% 成功率)。

Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation

本文提出 HSGM——一个把 3D 几何信息栅格化成 VLM 看得懂的多通道 2D 俯视图的分层地图,让 VLM 只做"在地图上选下一个 waypoint"的高层语义决策、A* 算法负责底层无碰撞移动,从而在完全免训练的零样本设定下在 R2R-CE / RxR-CE 上达到 SR 47.9% / 41.8%,超过所有零样本方法并反超部分监督方法。

Chain of World: World Model Thinking in Latent Motion (CoWVLA)

提出CoWVLA,统一世界模型VLA和隐动作VLA的优势:通过Latent Motion Extractor将视频分解为结构隐变量和运动隐变量,VLA在隐运动空间做世界模型预测而非重建冗余像素,配合Co-Fine-tuning交替生成关键帧和动作token,LIBERO-LONG达95.2%超越π₀(85.2%),SimplerEnv-WidowX avg 0.560超π₀(0.425)。

CLaD: Planning with Grounded Foresight via Cross-Modal Latent Dynamics

CLaD 让机器人在一个紧凑的潜在空间里规划:它用「本体感受变化去查询语义变化」的非对称交叉注意力建模两种模态如何随动作共同演化,预测出被 EMA 目标和重建损失双重「接地」的潜在预见,再用它调制一个扩散策略生成动作;在 LIBERO-LONG 上仅用 0.66B 参数就拿到 94.7% 成功率,超过了 7B 的 OpenVLA。

CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning

提出 CoMo,通过早期时序差分(Td)和时序对比学习(Tcl)两个机制协同解决连续隐运动学习中的捷径学习问题,从互联网视频中提取精细的连续伪动作标签,使视频数据与机器人动作在统一连续分布下联合训练,显著提升策略性能。

Contact-Aware Neural Dynamics

针对灵巧手富接触操作的 sim-to-real 鸿沟,本文把现成仿真器当先验、用一个"先预测接触事件、再做接触条件扩散位姿预测"的神经前向动力学模型来隐式对齐仿真与真实,靠机器人手上的触觉二值接触信号锚定真实物理,在单/多物体任务上把长程预测 MSE 和 ADD-S 都刷到最好,并能把纯仿真训练的策略筛选/微调到更高真实成功率。

Cross-Domain Demo-to-Code via Neurosymbolic Counterfactual Reasoning

提出 NeSyCR 神经符号反事实推理框架,将视频示教抽象为符号世界模型,通过反事实状态推演检测跨域不兼容并自动修正程序步骤,在跨域 demo-to-code 任务上比最强基线 Statler 提升 31.14% 成功率。

Cross-Hand Latent Representation for Vision-Language-Action Models

XL-VLA 为四种结构各异的灵巧手训练了一个共享的、与本体无关的潜在动作空间,把它直接插进 π0 这样的 VLA 框架替换原来的关节状态 token,使单一手无关策略能同时控制多种灵巧手,在真机上把跨本体操作平均成功率从 0.55 提到 0.90。

Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation

针对 VLN 中"部分可观测"导致的语言-感知对齐难题,本文用语言(而非图像)来想象未来关键语义,提出双分支左右脑结构 ATD——左脑 LLM 估计当前导航状态、右脑 LLM 文本化想象前方场景,再用状态接地想象(SGCA)过滤无关想象并以 decoder-free 潜向量注入图导航策略,在仅 1.5B 参数下于 R2R 上 val unseen SR/SPL 较基线提升 12%/11%。

CUBic: Coordinated Unified Bimanual Perception and Control Framework

CUBic 把"双臂协调"重新建模成一个统一的感知表征问题——用一对共享映射的 VQ 码本把左右臂的感知 token 绑在同一潜空间里,再接一个 DiT 扩散策略输出动作,让"各臂独立"和"双臂协同"都从结构中自然涌现,在 RoboTwin 上平均成功率比 SOTA 视觉运动策略高 12%。

CycleManip: Enabling Cycle-based Manipulation via Effective History Perception and Understanding

针对机器人"摇瓶子三次""敲钉子八下"这类需要数清楚循环次数并准时停手的周期性操作,CycleManip 在端到端模仿学习里用「成本感知采样」高效扩展历史观测视野、用「多任务进度预测」逼模型理解周期阶段,在仿真和真机上把周期任务成功率从个位数/几十拉到 53–97%。

D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation

D3D-VLP 把"规划—3D 定位—导航"三件事重写成一个 3D-VLM 内部的统一自回归链式思考(3D CoT),并配一个 CoT 记忆反馈回路实现动态重规划;再用「碎片化监督」策略让大量只标了一部分(比如只标导航动作)的 1000 万样本也能联合训练,在 R2R-CE、REVERIE-CE、HM3D-OVON、SG3D 等多个具身导航/定位基准上刷到新 SOTA。

Dejavu: Towards Experience Feedback Learning for Embodied Intelligence

给一个冻结的 VLA 策略外挂一个经验反馈网络(EFN):它从一个会在部署中持续增长的「经验库」里检索语义相似的历史轨迹,用强化学习预测一个加到原动作上的残差修正,从而让机器人在不更新任何主干权重的前提下,靠「攒记忆 + 调用记忆」越用越好,LIBERO 长任务成功率从 53.7% 提到 76.5%,真机平均成功率从 25.8% 提到 70.2%。

DemoFunGrasp: Universal Dexterous Functional Grasping via Demonstration-Editing Reinforcement Learning

把"功能性抓取"拆成 affordance(抓哪里)+ grasping style(怎么抓)两个条件,再用"单步示范编辑 RL"——只采集一条示范、让策略对它输出残差修正——绕开高自由度灵巧手的多步多任务探索难题,在 3,200 个物体上训出一个通用功能抓取策略,并零样本迁移到真机(VLM 引导下真实成功率 64.4%)。

DextER: Language-driven Dexterous Grasp Generation with Embodied Reasoning

DextER 把"语言驱动的多指灵巧抓取"重新写成一条自回归序列——模型先生成接触 token(哪根手指链节碰物体表面的哪个 3D 位置),再生成抓取动作 token,用"接触推理"当作具身版的思维链中间步骤,在 DexGYS 上把成功率推到 67.14%(+3.83 p.p.),意图对齐指标 P-FID 相对前 SOTA 改善 96.4%。

Dexterous World Models

给定一个静态 3D 场景和一段第一人称的灵巧手部运动,DWM 用「场景-动作」条件化的视频扩散模型只生成手部操作引起的残差视觉变化(抓取、开门、移物),同时保持相机运动与未受影响区域不变,让原本只能导航/看的数字孪生第一次"动"起来,并能当作可仿真的视觉世界模型来评估候选动作。

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

提出 ViFailback 框架,利用可视化符号(箭头、准星、标签等)高效标注真实世界机器人操作失败,构建 58,128 个 VQA 对的数据集,并训练 ViFailback-8B VLM 实现失败诊断和视觉+文本纠正指导,集成到 VLA 后实现 22.2% 的任务成功率提升。

DiffuView: Multi-View Diffusion Pretraining for 3D-Aware Robotic Manipulation

DiffuView 把"多视图扩散生成"当作一种 3D 一致的视觉预训练任务——让网络学会"给定源视角观测和相机位姿、生成目标视角",从而隐式恢复场景几何;再把预训练好的扩散 UNet 当作视觉骨干接到扩散动作策略上,使机械臂在相机视角变化下仍能稳定操作,在视角偏移场景下成功率比现有方法高近 20%。

Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control

RoboPerform 把"音频→人形机器人动作"做成一个端到端、免重定向的生成框架:用对比学习把音频隐变量对齐到运动隐空间、用残差式混合专家(ΔMoE)训练教师策略、再蒸馏出一个把"内容(文本指定的任务)+ 风格(音频节奏/韵律)"解耦的扩散学生策略,让 Unitree G1 能直接随音乐跳舞、随语音打出协同手势,且延迟显著低于"先生成动作再重定向"的级联管线。

DynBridge: Bridging Imagination and Control through Interaction Dynamics for Robot Manipulation

DynBridge 提出"交互动力学(interaction dynamics)"这一潜表征,端到端地把"想象未来(轨迹生成)"和"控制决策(动作预测)"耦合进同一套表示里,让机器人不只是预测"环境会在哪里变(where)"还学到"动作如何引起这些变化(how)",在 LIBERO / Meta-World 等模拟与真机基准上无需任何额外机器人数据预训练就全面超越 ATM、GraphMimic 等方法。

EgoRoC: Towards Egocentric Robotic Control via Task-Agnostic Visual Alignment

EgoRoC 把"机器人怎么看"从"机器人怎么做"里解耦出来,做成一个即插即用的第一视角对齐头:操作前先用腕部相机把视角对准目标、只吐出一个 6-DoF 位姿接口给下游 VLA,再配一个扩散式在线手眼标定模块把对齐动作转换/校正到末端执行器坐标系;只用静态图像对训练一次,就能跨任务、跨硬件、零样本地提升各种 VLA 的成功率(尤其长程和分布外任务)。

End-to-End Language-Action Model for Humanoid Whole Body Control

SENTINEL 是首个完全端到端的"语言→人形全身底层动作"模型——它在仿真里用预训练全身控制器追踪人体动作、配上文本标注造出大规模语言-动作数据集,再用 flow matching 动作专家直接把语言指令和本体感受映射成 29 维关节目标,最后用残差强化学习头修补开环漂移,在仿真和真机 Unitree G1 上都拿到了显著优于"文本生成动作 + 控制器"两段式 baseline 的语义对齐和执行成功率(仿真成功率 99.45%)。

EnergyAction: Unimanual to Bimanual Composition with Energy-Based Models

把两条预训练的单臂策略当成能量函数、用能量求和直接"拼"成一条双臂策略,再用能量约束保证时空协调、用能量大小自适应决定去噪步数,从而在几乎不需要双臂示范数据的情况下做出协调的双臂操作(RLBench2 上 20 条示范即达 77.3% 成功率,比次优高 32.5%)。

Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment

Evo-1 用一个仅 0.77B 参数的原生多模态 VLM 当主干,配上纯交叉注意力的流匹配扩散动作专家和一套"先冻结后微调"的两阶段训练,在完全不做机器人数据预训练的前提下,靠保住 VLM 的语义空间在 Meta-World / RoboTwin / LIBERO 上拿到 SOTA,真机 78% 成功率且推理频率 16.4 Hz、显存仅 2.3 GB。

Expanding Spatial and Temporal Context for Robotic Imitation Learning With Scene Graphs

针对家庭/办公等大空间下机器人"看不全、记不住"的部分可观测难题,本文把任务相关的动态场景图当作模仿学习策略的显式结构化记忆——只跟踪和任务有关的物体、维护它们随时间演化的外观与三维位置,再把整张图编码成 token 喂给扩散策略,从而在需要长程推理的移动操作和桌面操作任务上显著提升成功率。

Extending Embodied Question Answering from Perception to Decision

本文构建了 400 万级的具身问答数据集 EQA-Decision(覆盖静态场景、空间理解、任务动态、即时决策四大模块九个子任务),并基于 Qwen3-VL-8B 用「SFT→CoT-SFT→GRPO + 混合奖励」三阶段训练出强基线 RoboDecision,把具身 QA 从"看到了什么"推进到"此刻该做什么",在自建 benchmark 六类任务上整体分数从 48.84 提到 68.06。

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-and-Language Navigation

FantasyVLN 让一个 VLN 模型在训练时同时学文本、视觉、多模态三种思维链(CoT),并把"想象的未来观测"压进 VAR 潜空间避免 token 爆炸,再用跨模态对齐约束把这些推理能力蒸馏进"不出 CoT 的直接决策"通路,从而在推理时直接 instruction→action、零显式推理开销,却仍保留推理能力,在长程导航 LH-VLN 上 SR 从次优的 0.65 提到 2.44、推理延迟比显式 CoT 快约一个数量级。

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

提出 Fast-ThinkAct,通过将冗长的文本 CoT 推理(~250 token)压缩为 6 个可语言化的连续 latent token,结合 reward-guided preference distillation 和 visual trajectory alignment,实现 89.3% 推理延迟降低(9.3× faster than ThinkAct-7B)同时保持甚至超越 SOTA reasoning VLA 的性能。

FLARE: A Failure-Aware Framework for Autonomous Correction and Recovery in Visual-Language Robotic Manipulation

FLARE 把机器人 VLA 的失败按"机器人姿态出错(ID)"和"环境被破坏(OOD)"分成两类,用扰动-桥接数据增强让模型自带"重试"能力、用 MLLM 离线挖掘失败视频自动学一套物体级"复位"技能,再由在线 MLLM 监控器闭环切换两种技能,把 RoboMimic 9 个接触密集任务的平均成功率从 π0.5 的 72.2% 提到 84.0%。

FloVerse: Floor Plan-Guided Multi-Modal Navigation

FloVerse 把户型图(floor plan)作为统一的空间先验,提出一个把 PointNav / ObjectNav / ImageNav 三种目标模态合并到单个模型的导航任务与数据集,并用两阶段扩散策略 ThreeDiff(带模态掩码的规划器 + 基于深度 SDF 的细化器)在三种模态上都拿到比无户型图、比单模态专家模型更高的成功率与路径效率。

FM-Steer: Enhance Generalist Policies with Value-Guided Cascaded Denoising

FM-Steer 给流匹配(flow-matching)VLA 通用策略加了一套测试时计算框架:用一个中间流验证器对"半去噪"的候选动作打 Q 值、Best-of-N 选最优,再把选中的噪声动作交给一个轻量 Lite-Flow 去噪器异步补完剩余去噪,从而在不重训基座、还把控制频率从 4 Hz 拉到 90 Hz 的前提下,让 π0 在 LIBERO/Simpler/真机上分别涨 +4.4%/+25.9%/+12.9%。

FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

分析发现视觉 jailbreak attack 迁移性差的根因是 attack 处于 high-sharpness loss region——源于浅层特征过度依赖 model-specific 表示和高频信息过度影响;提出 FORCE 方法通过 layer-aware regularization 扩展浅层 feasible region + spectral rescaling 抑制高频非语义成分,引导 attack 进入 flatter loss landscape,显著提升跨模型迁移性。

ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation

提出ForceVLA2,首个在VLA框架中统一力感知(force awareness)与混合力-位置控制(hybrid force-position control)的端到端模型:通过Force-based Prompts在VLM中构建跨阶段力感知任务概念,Cross-Scale MoE自适应融合任务语义与实时交互力实现闭环力-位置调节,在5个contact-rich任务上平均成功率66%,超π₀和π₀.5分别48.0%和35.0%。

ForeAct: Steering Your VLA with Efficient Visual Foresight Planning

不再用一句高层语言指令去驱动 VLA,而是用一个高效的"前瞻图像生成器 + VLM 子任务规划器"逐步给 VLA 喂入"想象出来的未来观测图 + 子任务文本",让 VLA 只管把图变成动作(visuo-motor),在 11 个真实多步任务上把 π0 的平均成功率从 46.5% 抬到 87.4%(+40.9%)。

From Manuals to Actions: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

ManualVLA 用一个 Mixture-of-Transformers 统一框架,让 VLA 模型先从"目标态"想象出图文并茂的中间手册(子目标图+像素坐标+文本指令),再通过显式/隐式两条 Manual Chain-of-Thought 把手册落成精确动作,在乐高拼装、物体重排等长程任务上平均成功率比此前分层 SOTA 高 32%。

GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation

把 RGB-D 观测投影成一张以智能体为中心、融合显式深度几何与 3D 基础模型隐式先验的紧凑 BEV 表征,替换掉 MLLM 导航器里冗余的稠密 RGB patch token,在不用 DAgger 增广、不混训 VQA 的前提下,用更少的 token 跑出了连续环境 VLN 的 SOTA。

Gallant: Voxel Grid-based Humanoid Locomotion and Local-navigation across 3D Constrained Terrains

Gallant 把车载 LiDAR 点云体素化成机器人中心的占据栅格,用一个「把 z 轴当通道」的轻量 2D CNN 端到端映射到全身控制策略,再配上能模拟机器人自身肢体的高保真 LiDAR 仿真,让单个策略零样本迁移到真机,在爬楼、上高台等任务上首次做到 >90% 成功率,并覆盖地面、侧向、头顶三类障碍。

GeCo-SRT: Geometry-aware Continual Adaptation for Cross-Task Sim-to-Real Transfer

GeCo-SRT 把"模拟到真实"迁移从一次性调参改造成跨任务持续累积的过程:用人在回路的纠错轨迹量化 sim-to-real gap,再用「几何感知混合专家(Geo-MoE)」把点云的局部几何特征(平面性、线性、显著性)作为跨任务、跨域不变的可复用知识载体,并用「几何专家引导的优先经验回放(Geo-PER)」保护闲置专家不被遗忘,最终在 4 个真实机械臂任务上平均成功率比 baseline 高 52%,且只用 1/6 数据就能追平。

General Process Reward Modeling for Robotic Reinforcement Learning

提出 Robo-Dopamine:先用 3,400 小时多视角视频训练一个"步进式、跨任务"的通用进度奖励模型 GRM,再配一套有理论保证的"策略不变奖励塑形"把稠密信号喂给 RL,让真机策略在单条示范 + 约 150 次在线 rollout(约 1 小时)内从近乎 0 涨到 95% 成功率。

GeniNav: Generative Model Driven Image-Goal Navigation via Imagination-Guided Consistency Flow Matching

GeniNav 用 VLM 在潜在空间"想象"中间子目标来引导一个多段一致性流匹配(MS-CFM)策略生成平滑轨迹,再用融合几何安全、语义对齐、视野增益的混合排序模块挑出最优路径,在无地图的图像目标导航上把成功率从 ~54% 提到 68.7%。

GeoDexGrasp: Geometry-aware Generation for Data-efficient and Physics-plausible Dexterous Grasping

GeoDexGrasp 用一个 SIM(3) 等变网络配合自监督解耦预训练,从点云里抽出可解释、可迁移的形状/尺寸/位姿/交互方向四类几何表征,再把灵巧抓取拆成「SO(3) 流形上的根旋转生成 + 欧氏空间里的手指关节扩散生成」两段解耦流程,用不到 SOTA 五分之一的参数量做到了相当的成功率,并把穿透深度降了约 40%。

GeoPredict: Leveraging Predictive Kinematics and 3D Gaussian Geometry for Precise VLA Manipulation

GeoPredict 给一个连续动作的 VLA 策略(基于 π₀)加上两个「未来预测」辅助任务——预测机器人关键点的多步 3D 轨迹、预测工作空间的未来 3D 高斯几何,且这两个模块只在训练时作监督信号、推理时完全不跑,从而在不增加部署开销的前提下,让策略学到面向 3D 空间和长程动力学的内部表示,在 RoboCasa、LIBERO 和真机上都明显超过 π₀ 基线。

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

OptimusVLA 给分层 VLA 的动作生成器配了两块记忆——全局先验记忆(GPM)用检索到的相似轨迹替换高斯噪声起点、缩短流匹配生成路径,局部一致性记忆(LCM)用轻量结构建模历史动作、注入时序一致性约束——在三个仿真平台和真机上同时拿到更高成功率(LIBERO 98.6%)和 2.9× 的推理加速。

GraspALL: Adaptive Structural Compensation from Illumination Variation for Robotic Garment Grasping in Any Low-Light Conditions

GraspALL 把连续变化的光照编码成一组可学习的"亮度曲线",用估计出的光照等级去动态调控 RGB 与深度(非 RGB)特征的融合权重,从而在任意低光条件下生成光照一致的衣物抓取表征,在自建的多光照衣物抓取数据集上把抓取成功率相对基线提升了 32–44%。

GraspGen-X: Cross-Embodiment 6-DOF Diffusion-based Grasping

GraspGen-X 把扩散式 6-DOF 抓取模型额外条件化在「夹爪表征」上——用一个 12 维的 Swept Volume(扫掠体)启发式描述夹爪闭合时手指扫过的空间,再用程序化生成的 25 个夹爪 + 3.95 亿次仿真抓取来训练,从而第一次实现了对未见过的真实夹爪 + 未见过物体的零样本 6-DOF 抓取,真机成功率 79%,显著超过抓取位姿重定向等基线。

GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion

提出 GraspLDP,将预训练抓取检测器的 grasp pose 先验和 graspness map 视觉线索注入潜在扩散策略框架,通过 VAE 编码的动作潜空间引导和自监督重建目标,显著提升抓取精度和泛化能力。

HiF-VLA: Hindsight, Insight and Foresight through Motion Representation for Vision-Language-Action Models

提出 HiF-VLA 框架,通过运动向量(Motion Vector)作为紧凑时间原语,统一回顾(Hindsight)、洞察(Insight)和前瞻(Foresight)三种时间推理能力,实现 VLA 模型的双向时间扩展,在长时操作任务中以极低计算开销大幅超越基线。

Hoi! - A Multimodal Dataset for Force-Grounded, Cross-View Articulated Manipulation

Hoi! 是一个面向"力接地、跨视角、跨具身"铰接家具操作的真实多模态数据集——用一把自研的手持力反馈夹爪,在 38 个真实室内场景里采集了人用四种具身(裸手 / 裸手+腕相机 / UMI 夹爪 / Hoi! 夹爪)操作 381 个抽屉门冰箱等铰接部件的 3048 条序列,每条序列时空对齐了 RGB-D、力/力矩、触觉、手部位姿和场景级激光点云,并配套了铰接估计、触觉测力、视觉测力三个 benchmark。

HQC-NBV: A Hybrid Quantum-Classical View Planning Approach

把机器人探索里的"下一最佳视点"(NBV)问题改写成一个量子哈密顿量的求基态问题,用 10 量子比特的变分线路 + VQE/SPSA 同时评估多个移动方向,借助量子叠加与纠缠跳出经典启发式/采样方法的局部最优,在 2D 探索场景里把探索效率相比经典方法提升 7.9–49.2%。

HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation

HTNav 用「IL 预训练 + PPO 微调」的混合训练范式给城市无人机视觉语言导航打底,再叠一个「宏观规划航点 + 微观选动作」的分层决策机制和一个残差地图编码模块,在 CityNav 上把测试集未见场景的成功率从 9.70% 翻倍到 25.49%。

Humanoid Generative Pre-Training for Zero-Shot Motion Tracking

把人形机器人的全身运动跟踪重新定义成「GPT 式因果序列建模」:先在 20 亿帧重定向运动语料上用 RL 训练约 300 个分簇运动专家,再用 DAgger 把它们蒸馏进一个带因果注意力的 Transformer(Humanoid-GPT),靠数据和模型规模同时打破「敏捷性 vs 泛化性」的取舍,在真实 Unitree-G1 上零样本跟踪舞蹈、功夫、跳跃等未见过的高动态动作。

IGen: Scalable Data Generation for Robot Learning from Open-World Images

IGen 从单张开放世界图像出发,通过3D场景重建→VLM任务规划→SE(3)动作生成→点云合成→帧渲染,自动生成大规模视觉-动作训练数据,仅用生成数据训练的策略即可完成真实世界操作。

INSIGHT Bench: Towards Grounded IN-SItu Guidance for Robotic Manipulation

针对当前 VLA 模型"会听外部语言指令、却读不懂物体上印着的 PUSH/PULL/箭头/squeeze 等在物符号"这一空白,本文提出 INSIGHT Bench——一个把在物视觉指引与物理约束程序化绑定的机器人操作基准,配套五类指引分类法、可扩展的自动数据生成管线和 14,076 条轨迹数据集,并实测出 π0、GR00T N1.5、SmolVLA 普遍无法稳定 ground 这类在物指引。

InternData-A1: Pioneering High-Fidelity Synthetic Data for Pre-training Generalist Policy

InternData-A1 用一条全解耦、自主运行的仿真合成管线造出 63 万条、7433 小时的高保真机器人操作数据,首次证明「纯合成数据」单独预训练的 VLA 模型能在 49 个仿真 + 9 个真机任务上追平用闭源真机数据 π-dataset 训练的官方 π0。

Iterative Closed-Loop Motion Synthesis for Scaling the Capabilities of Humanoid Control

本文提出 CLAIMS——一个让"动作数据合成"与"人形控制器训练"协同进化的闭环框架:用动作扩散模型从难度分级的语义模板提示词生成专业高动态动作、用物理 + VLM 双重过滤后训练物理仿真追踪器,再用物理指标 + VLM 反馈驱动 LLM 自动升难度,从而用仅约 AMASS 1/10 的数据量把 PHC 追踪器在 2201 段测试集上的平均失败率降低 45%。

Language-Grounded Decoupled Action Representation for Robotic Manipulation (LaDA)

提出 LaDA 框架,用自然语言作为语义桥梁将连续 7-DoF 动作解耦为平移/旋转/夹爪三个可解释原语,通过软标签对比学习在共享嵌入空间中对齐跨任务动作表示,仅 0.6B 参数在 LIBERO 上达 93.6% 成功率,超越 1.3B~8.5B 参数的所有基线。

Learning a Unified Latent Action Space from Videos with Action-centric Cycle Consistency

提出 CycleMimic,用"动作中心循环一致性(AC3)"约束从无标注视频里学习潜在动作 tokenizer——靠"采样潜在动作→生成未来帧→再从原帧和生成帧预测回该动作"的闭环,逼出语义一致且跨本体统一的潜在动作空间,在 LIBERO 上比 OpenVLA 提升 20.1%、CALVIN 平均完成任务数从 3.27 升到 3.93。

Learning Surgical Robotic Manipulation with 3D Spatial Priors

把一个前馈式 3D 几何重建模型(MASt3R)在自建的合成手术数据集上微调,端到端地从立体内窥镜图像里抽出 3D 隐式表征,再用轻量连接器把它对齐到机器人动作空间,让真实手术机器人在打结、离体胆囊解剖等精细任务上不靠腕部相机就能拿到 SOTA 成功率。

Learning to Act Robustly with View-Invariant Latent Actions

VILA 提出:视角不变性不该强加在「整张场景的视觉表征」上,而该只加在「与动作相关的动态变化」上——用 IDM/FDM 学一个编码相邻帧变化的紧凑隐动作,再用真值动作序列做动作引导的加权对比+结构对齐,把不同视角下同一段运动的隐动作拉齐,最后把这个隐策略当视角不变编码器去 condition 下游策略,在仿真与真机上对未见视角和新任务都显著更鲁棒。

Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions

Mimic2DM 把"从视频学物理可控角色"重新表述成纯 2D 重投影追踪问题——只用从野外视频抽出的 2D 关键点、靠物理仿真当先验过滤不可行姿态,训练一个视角无关的追踪策略;再通过多视角特征聚合零样本扩展到 3D 追踪,并接上一个自回归 2D 动作生成器构成分层控制器,能合成跳舞、足球盘带、四足动物运动等物理可信动作,全程不碰任何显式 3D 动作数据。

Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation

提出 TVVE 框架,通过强化学习驱动的多视角探索策略(MVEP)选择最优虚拟相机视角并在线重渲染观测,同时设计任务感知 MoE 视觉编码器(TaskMoE)解决多任务特征干扰问题,在 RLBench 18 个任务上平均成功率达 86.6%。

LIBERO-Plus: A Progressive Robustness Benchmark for Visual-Language-Action Models

针对"VLA 模型在 LIBERO 上动辄报 95%+ 成功率却在真实部署里频频翻车"的虚高假象,构建了一个自动、细粒度、七维度可控扰动的鲁棒性基准 LIBERO-Plus,对 10 个主流 VLA 做系统评测,揭示出在适度扰动下成功率从 95% 暴跌到 30% 以下,并发现这些模型存在"忽略语言、依赖固定视觉、靠位置记忆"等深层脆弱性。

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

提出终身模仿学习框架,通过多模态潜在回放(MLR)在冻结编码器的特征空间中存储和回放紧凑表示,并引入增量特征调整(IFA)机制用角距离约束维持任务间可分性,在LIBERO基准上AUC提升10-17点、遗忘降低最多65%。

Localizing, Structuring, and Rendering: Bridging 3D and 2D Vision-Language-Action Models for Robotic Manipulation

DiffRender-VLA 用「可微渲染」当桥梁,把点云里的 3D 空间关系编码成带颜色光束的可微图像喂给 2D VLA,让 2D VLA 的动作损失能反传回 3D 表征里去优化目标定位和视角,从而在遮挡/杂乱/复杂空间操作任务上平均涨点 +12.1%。

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Mantis 把"预测未来画面"这件事从 VLA 主干上解耦出去——用一组潜在动作查询 + 独立的扩散 Transformer(DiT)头去生成下一帧,让主干只需吐出一段紧凑的帧间动态作为动作监督信号,从而既保住了视觉前瞻的好处,又腾出主干容量保留语言理解与推理能力,在 LIBERO 上拿到 96.7% 成功率,真实机器人上指令跟随和泛化都超过 π0.5。

MAPS: Preserving Vision-Language Representations via Module-Wise Proximity Scheduling for Better Vision-Language-Action Generalization

针对 VLA 模型从 VLM 初始化后一微调就破坏预训练表示、丢失泛化能力的问题,MAPS 把鲁棒微调里的"全局邻近约束强度"改成一条沿"视觉编码器 → 语言层"线性衰减的逐模块调度——让视觉层牢牢贴住预训练几何先验、让面向动作的语言层自由适配,不加任何参数和数据,就在 SimplerEnv / CALVIN / LIBERO 及真机 Franka 上把 OOD 泛化最多提升 30%。

MaskDexGrasp: Generative Masked Modeling for Part-Aware Dexterous Grasp Synthesis

MaskDexGrasp 把灵巧手抓取按手部解剖结构拆成「手掌 + 五指」六个部件、用 VQ-VAE 量化成离散 token,再用一个双向掩码 Transformer 在物体点云和任务文本条件下迭代采样这些 token,从而生成高质量、语义对齐且可逐指编辑的抓取,并在自建的 TDG 数据集(6.5 万抓取 / 26 万文本 / 11 类任务)上取得 SOTA。

Memory-Augmented Scene Understanding and Exploration for Open-World Aerial Object-Goal Navigation

针对无人机在大尺度户外场景中"只给目标物体描述、没有逐步指令"的空中目标导航任务,本文提出 OctMem-Agent:用一个自适应八叉树记忆把历史 RGB-D 观测增量聚合成可扩展的分层 3D 表征,再用指令调制的记忆查询抽出"定位用"和"探索用"两类紧凑 token 喂给 VLA 决策,在 UAV-ON 基准上成功率比此前最优方法提升 7.5%。

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

首次系统诊断 VLA 模型不可合并的两大根因(LoRA 自私参数冲突 + 动作专家自注意力导致的任务耦合),提出 MergeVLA——通过任务掩码稀疏激活 LoRA、去自注意力动作专家、无训练测试时路由,将多个单技能 VLA 专家合并为一个通用 agent,在 LIBERO 上达 90.2% 成功率,真机 SO101 达 90%。

MM-ACT: Learn from Multimodal Parallel Generation to Act

MM-ACT 把文本、图像、动作都表示成同一套离散 token,用一个带双向注意力的掩码 token 预测器统一并行解码(文/图多步 re-mask、动作一步出),再用 Context-Shared 多模态学习让任务规划和未来图像预测反哺动作生成,在 LIBERO 拿 96.3%、RoboTwin2.0 八任务 52.38%(跨模态训练带来 +9.25%)、Franka 真机 72.0%。

MoEActok: A MoE-based Action Tokenizer for Vision-Language-Action Models

MoEActok 把单一动作 tokenizer 拆成「按技能聚类的多专家 VQ-VAE」,让每个专家只负责一类动作技能(移动 / 抓取等),再配合「先预测技能类别、再生成动作 token」的粗到细训练范式,在 RoboTwin、Simpler-Env 仿真和真机零样本迁移上都显著超过 Binning / FAST / VQ-BET / VQ-VLA 等现有离散化方法。

Motus: A Unified Latent Action World Model

Motus 用一个 Mixture-of-Transformers 架构把「理解 / 视频生成 / 动作」三个预训练专家缝在一起,靠共享自注意力(Tri-model Joint Attention)+ UniDiffuser 式异步调度,在单一模型里统一了 VLA、世界模型、IDM、视频生成、视频-动作联合预测这 5 种具身范式;再用光流提炼出像素级「潜在动作」让动作专家也能在海量无标注视频上预训练,最终在仿真上比 π0.5 高 45%、比 X-VLA 高 15%,真机提升 11~48%。

NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction

NavForesee 把"高层语言规划"和"世界模型未来预测"统一进同一个 Qwen2.5-VL-3B 里——一边把长指令拆成里程碑子目标并跟踪进度,一边在隐空间预测短期(k 步)和长期(到下个里程碑)的深度/语义特征,再用一个 MLP 把这些"想象的未来"转成连续航点动作,在 R2R-CE 上达到 66.2% SR / 78.4% OSR,只用公开数据就接近 SOTA。

NIL: No-data Imitation Learning

NIL 用预训练视频扩散模型从「一张初始帧 + 一句任务描述」生成一段参考视频,再在物理仿真器里训练 RL 策略去模仿这段视频——奖励完全来自「视频编码相似度 + 分割掩码 IoU」而非判别器,从而在不收集任何 3D 动捕数据的前提下,让人形/四足等多种机器人学会走路、坐、吊单杠等全身技能。

Obstruction Reasoning for Robotic Grasping

针对杂乱场景中"目标物被挡住、得先搬开遮挡物才能抓"这一被长期忽视的问题,本文提出 UNOGrasp——一个以目标物为中心构建有向遮挡图、再用 SFT+RFT(GRPO + IoU 奖励)训练的视觉语言模型,配套自建的 10 万+遮挡路径基准 UNOBench,在合成与真实场景的遮挡推理与抓取成功率上全面超过 Qwen2.5-VL 与谷歌专有的 Gemini Robotics-ER 1.5。

OctoNav: Towards Generalist Embodied Navigation

OctoNav 把 ObjNav / PointNav / ImgNav / Ins-ImgNav / VLN 五类彼此割裂的导航任务统一进一条"自由形式、多模态、多能力"指令里,配套放出 45k+ 指令-轨迹对的 OctoNav-Bench 与带推理链的 TBA-CoT 数据集,并训练出一个"先思考再行动"的 VLA 模型 OctoNav-R1(LLaMA-VID 底座 + 三阶段 SFT/GRPO/在线 RL 混合训练范式),把统一设定下的整体成功率从此前最好的 9.2% 提到 19.4%。

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

DoorMan 用一条「教师-学生-自举(teacher-student-bootstrap)」的三阶段管线,在 IsaacLab 里靠大规模物理+视觉随机化训练出一个纯 RGB 输入的人形全身开门策略,零样本迁移到真实世界开各种门,任务完成时间比人类遥操作还快最多 31.7%。

ORV: 4D Occupancy-centric Robot Video Generation

ORV 在预训练视频扩散模型(CogVideoX-2B)上,用「分块 7-DoF 动作条件」加「4D 语义占据渲染出的软视觉先验」共同驱动机器人操作视频生成,把稀疏控制信号和稠密像素之间的鸿沟补上,从而做到高保真、可控、跨视角一致、还能仿真到真实迁移的机器人世界模型,FVD 比 SOTA 低 18.8%,并能给视觉规划和策略学习当数据引擎。

Parse, Search, and Confirmation: Training-Free Aerial Vision-and-Dialog Navigation with Chain-of-Thought Reasoning and Structured Spatial Memory

针对"高空无人机视觉对话导航(AVDN)以往都得监督微调、换环境就要重标重训"的痛点,本文提出免训练框架 PSC-AVDN:把 MLLM 的导航拆成"解析—搜索—确认"三段式思维链,再配一个结构化空间记忆(SSM)补足 MLLM 缺失的空间/历史信息,在 ANDH / ANDH-Full 上拿到免训练设定下的 SOTA,甚至追平或超过若干微调方法。

Physically Ground Commonsense Knowledge for Articulated Object Manipulation with Analytic Concepts

本文提出"解析概念"(analytic concepts)——一种用数学符号过程化定义、可被机器直接计算与仿真的物体结构/操作知识表示,把 MLLM 推理出的语义级常识知识接地到物理世界,再据此指导机器人完成铰接物体操作,在仿真未见类别上相对 A3VLM 提升约 27%。

Predict Before You Explore: Predictive Planning with Specialized Memory for Embodied Question Answering

Pred-EQA 把具身问答(EQA)从"看一步走一步"的反应式探索改造成"先预测再探索"的预测-纠错循环:用高层规划器预测证据可能藏在哪、生成几条带长程意图的探索分支,低层执行器在分支内主动消除不确定性并在预测失败时剪枝,再配一套把"稳定结构先验"和"问题相关视觉证据"分开存的双记忆,在 A-EQA 和 Express-Bench 上同时把答题准确率和探索效率刷到 SOTA。

Probabilistic Concept Graph Reasoning for Multimodal Misinformation Detection

本文将多模态虚假信息检测(MMD)重构为基于概念图的结构化概率推理问题,提出PCGR框架,通过MLLM自动发现并验证人类可理解的概念节点,构建层次化概率概念图,实现可解释的虚假信息检测,在三个基准上全面超越13个baseline。

ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation

提出 ProFocus,一个免训练的渐进式框架,通过主动感知(将全景图转为语义地图+LLM 生成针对性视觉查询)和聚焦推理(BD-MCTS 从大量历史路点中筛选 top-k 高价值候选),在 R2R 和 REVERIE 基准上达到零样本方法的 SOTA。

PvP: Data-Efficient Humanoid Robot Learning with Proprioceptive-Privileged Contrastive Representations

PvP 把人形机器人训练时唯一可得的"特权状态"当成本体感知观测的"天然数据增强",用 SimSiam 式对比学习把两者拉近,不需要任何手工增强就让策略编码器学到紧凑且任务相关的表示,从而显著提升强化学习(PPO)在全身控制任务上的样本效率与最终性能。

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

提出 QuantVLA,首个面向 Vision-Language-Action (VLA) 模型的免训练后量化框架,通过选择性量化布局和两个轻量级标定机制(注意力温度匹配 ATM 和输出头平衡 OHB),在 W4A8 精度下实现约 70% 的内存节省,同时任务成功率超过全精度基线。

REACH: Explicit Recovery Behavior for Diffusion Policies

REACH 给扩散策略装上"自我纠错"能力:用一个自编码器错误检测器盯住执行过程,一旦发现机器人滑进 OOD(容易失败)的状态,就沿动作缓冲区回退到上一个安全状态,再把失败动作当成负向提示喂给扩散采样器,逼策略在同一决策点采出一个"明显不同"的更鲁棒动作,从而在仿真和真机操作任务上稳定提升成功率。

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as Aligned Real Manuals

作者手工建模了 100 件与真实说明书严格对齐的高保真家电数字资产(尺寸/纹理/物理机制/电子机制/程序逻辑全部按真实说明书复刻),并在其上搭建 RealAppliance-Bench,用「说明书检索 / 部件 grounding / 开环规划 / 闭环纠偏」四个任务系统评测主流 MLLM 与具身规划模型,发现哪怕 GPT-5 在完整开环规划上成功率也只有个位数。

Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

提出 R²VLM,通过循环推理框架逐步处理本地视频片段,维护动态更新的 CoT 记录任务分解和完成状态,结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA,并支持策略学习、奖励建模、主动辅助等下游应用。

RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model

RehearseVLA(World-Env)用一个「物理一致的视频世界模型」当虚拟训练场,让 VLA 策略在想象出来的未来观测里安全地做强化学习后训练,再配一个 VLM 反思器给连续奖励并实时判定任务完成,从而在每个任务只有 5 条专家示范的极端数据稀缺下把 LIBERO 平均成功率从 74.85% 提到 79.6%。

Rethinking Camera Choice: An Empirical Study on Fisheye Camera Properties in Robotic Manipulation

首次系统性地对腕部鱼眼相机在机器人操作模仿学习中的特性进行实证研究,围绕空间定位、场景泛化和硬件泛化三个核心问题揭示了宽视场角的优势与局限,并提出 Random Scale Augmentation (RSA) 策略解决跨相机迁移中的尺度过拟合问题。

Rethinking Intermediate Representation for VLM-based Robot Manipulation

针对"VLM 把人类指令翻译成可执行中间表示"这件事,本文借鉴上下文无关文法把中间表示拆成词表 + 文法,设计出既好让 VLM 理解、又能泛化到未见任务的 SEAM 表示,并配一套 RAG 少样本开放词表零件分割,真实机器人成功率比此前 SOTA 高约 15%。

Rethinking Visual Rearrangement from A Diffusion Perspective

把"把被打乱的房间恢复原样"这一具身重排任务重新理解成一个扩散桥过程——打乱是前向扩散、复原是反向去噪——并用高斯混合分布表示物体状态、用去噪 Transformer 逐步推断每个物体该往哪挪,在 RoomR 上把成功率从 14.2% 提到 17.8%。

RoboAgent: Chaining Basic Capabilities for Embodied Task Planning

提出 RoboAgent,一种能力驱动的具身任务规划框架,用单个 VLM 同时实现调度器和 5 种基本能力(探索引导、物体定位、场景描述、动作解码、经验总结),通过三阶段训练(SFT + DAgger + 专家引导 RL)在 EB-ALFRED 和 ALFWorld 上达到 SOTA。

RoboTAG: End-to-end Robot Pose Estimation via Topological Alignment Graph

针对单目 RGB 机器人位姿估计高度依赖标注、且把 3D 问题压成 2D 而丢掉空间先验的痛点,RoboTAG 把相机-机器人系统的各个状态变量组织成一张含 2D 分支与 3D 分支的"拓扑对齐图",在图里找出若干"闭环"施加 2D-3D 一致性监督,使两条骨干网络协同进化,从而能利用无标注野外图像训练,在 DREAM 的 9 个基准上 5 个达到 SOTA、平均 AUC 76.9%。

RoboWheel: A Data Engine from Real-World Human Demonstrations for Cross-Embodiment Robotic Learning

RoboWheel 把单目 RGB(D) 拍到的「人手操作物体」视频,经过高精度重建 + 物理可信优化 + 跨机器人形态重定向 + 仿真域增强,自动转换成可直接训练 VLA / 模仿学习策略的机器人监督数据,并据此造出了 15 万条轨迹的多模态数据集 HORA,首次定量证明 HOI 视频能当机器人学习的有效监督。

Scalable Trajectory Generation for Whole-Body Mobile Manipulation

AutoMoMa 把移动底盘、机械臂和被操作物体统一成单条"增强运动学链(AKR)",再把轨迹优化和碰撞检测整体搬到 GPU 上批量并行,从而以每 GPU·小时 5000 条的速度(比 CPU 基线快约 80 倍)自动合成 50 万条物理可行的全身协调轨迹,证明此前阻碍全身移动操作策略学习的根本瓶颈是数据规模而非算法。

Semantic Audio-Visual Navigation in Continuous Environments

本文提出 SAVN-CE 任务,将语义音视觉导航扩展到连续3D环境中,并设计 MAGNet(记忆增强目标描述网络),通过融合历史上下文和自运动线索实现在目标声音消失后的稳健目标推理,成功率绝对提升最高达 12.1%。

SemanticVLA: Towards Semantic Reasoning over Action Memorization via Synergistic Explicit Trace and Latent Action Planning

SemanticVLA 用「显式轨迹推理 + 隐式动作 token」双路设计,把 VLM 原生的空间 grounding 能力真正用起来去做机器人操作,在 LIBERO 上拿到 97.0% 成功率、SimplerEnv WidowX 上 65.1%,并且在指令改写、长程与推理密集任务上比基线稳得多。

SIR: Structured Image Representations for Explainable Robot Learning

SIR 把机器人观测先转成一张全连接场景图,再用一个端到端可学的稀疏化模块只保留任务相关的少数节点,把这个"瘦身后的子图"当作策略的状态表示——既在 RoboCasa 上把成功率从 14.81% 提到 19.5%,又因为子图本身就是模型决策依据而天然可解释,进而能反查出数据集里的伪相关与位置偏置。

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

SocialNav 用「大脑(VLM 推理)+ 行动专家(流匹配轨迹生成)」的层次化基础模型,配上 700 万样本的认知—轨迹数据集和首个面向导航的 flow-based 强化学习 SAFE-GRPO,让机器人不只是走最短路,而是走得「合乎社会规范」——相比 SOTA 成功率 +38%、社会合规率 +46%。

Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

针对 VLA 模型「用 2D 视觉去驱动 3D 物理动作」这一感知-动作鸿沟,本文提出在学机器人策略之前先做一个「空间感知预训练」阶段——从大规模人类操作视频里抽出 3D 视觉标注和 3D 动作标注作为监督,训练双编码器模型 VIPA-VLA 把 2D 语义视觉对齐到 3D 空间,结果不用一帧机器人数据预训练就在 LIBERO 上做到 92.4% 平均成功率,real robot 上也明显超过强基线。

SPEAR-1: Scaling Beyond Robot Demonstrations via 3D Understanding

SPEAR-1 主张机器人基础模型泛化差的根因在于底座 VLM 只懂 2D,于是先用「易采集的非机器人 2D 图像 + 自动生成的 3D 标注」把 VLM 训练成会预测 3D 坐标的 SPEAR-VLM,再在它之上接动作专家训练 VLA,最终在未见过的 Franka(DROID) 环境零样本性能追平 π0.5、超过 π0-FAST,而所用机器人演示数据少 20×。

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

SRPO 用同一训练 batch 里自己跑出来的成功轨迹当参照、用世界模型潜空间表征衡量失败轨迹"离成功有多近",把 GRPO 那种 0/1 稀疏奖励变成稠密的过程奖励,不靠任何额外演示或人工奖励工程,就把 OpenVLA* 在 LIBERO 上从 48.9% 拉到 99.2%(200 步内)。

StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation

StaMo 用一个轻量编码器 + 预训练 DiT 解码器,把一张静态图像无监督压成仅 2 个 1024 维 token 的紧凑状态表示,并发现「两个状态 token 之差」天然就是可执行的机器人动作(latent action)——无需任何视频与时序建模,就把 VLA 在 LIBERO 上提升 11.6%、真机成功率提升 31%。

Structural Action Transformer for 3D Dexterous Manipulation

SAT 把灵巧手的动作块从"按时间排列的动作向量序列 \((T,D_a)\)"翻转成"按关节排列的轨迹序列 \((D_a,T)\)",让 Transformer 把关节数当成可变序列长度天然处理异构本体,再配一套描述关节功能/运动学角色的 Embodied Joint Codebook,用流匹配从 3D 点云生成整段动作,仅 19.36M 参数就在 11 个仿真任务和 6 个真机双手任务上全面超过 2D/3D baseline。

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

SwiftVLA 让一个 0.45B 的小 VLA 在训练时"借用"4D 时空特征学会几何与动态推理,再用掩码重建把这份知识蒸馏进 2D 分支,从而在推理时直接丢掉 4D 模块——在边缘设备上比 π0 快 18×、省 12× 显存,成功率却追平参数量大 7× 的模型。

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

首次提出 Test-time Ego-Exo Adaptation for Action Anticipation(TE2A3)任务,设计 DCPGN 网络通过多标签原型增长和双线索(视觉+文本)一致性,在测试时将源视角训练模型在线适配到目标视角进行动作预测,大幅超越现有 TTA 方法。

Test-Time Perturbation Tuning with Delayed Feedback for Vision-Language-Action Models

针对 VLA 在物体微小位姿变化下就崩的"轨迹过拟合"问题,本文提出 PDF——一个无需 verifier、不更新主干参数的测试时自适应框架:用不确定性自适应分配的数据增强+多视角投票抑制虚假相关,再用 episode 结束后的延迟反馈训练一个轻量扰动头来纠正模型的过度自信,在 LIBERO 上成功率 +7.4%、Atari 上人类归一化分 +0.10。

Towards Human-Like Robot Handwriting via Contour-Aware Generation

为了让书写机器人写出像人一样有笔锋粗细变化的字,本文提出"轮廓感知手写轨迹重建(CHTR)"新任务,配套构建了 11 万样本的 CHTR-110K 数据集,并用基于多尺度字符图的 G-HTR 方法把字符图像重建成"带笔宽的轨迹序列",在多项指标上大幅超越 TrajFormer 等 SOTA,并成功部署到真实书法机器人上。

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

作者借鉴图灵测试提出「运动图灵测试」(Motion Turing Test)——只看运动(剥离外观)让人判断一段姿态序列是人还是人形机器人,并发布含 1000 段、15 类动作、11 款机器人 + 真人的 HHMotion 数据集(每段由人工打 0–5 类人度分),同时给出一个简单回归基线 PTR-Net,结果显示当前机器人运动离真人仍有明显差距、连 SOTA 多模态大模型都打不准这个分。

Towards Open Environments and Instructions: General Vision-Language Navigation via Fast-Slow Interactive Reasoning

针对开放环境下视觉语言导航(GSA-VLN)任务,受人类快慢认知双系统启发,提出 slow4fast-VLN 框架:快推理模块基于端到端策略网络实时导航并积累历史记忆,慢推理模块借助 LLM 反思生成结构化泛化经验,经验通过注意力融合反馈增强快推理网络,实现在未见环境和多样指令下的持续适应,在 GSA-R2R 数据集上全面超越前 SOTA(GR-DUET)。

Towards Training-Free Scene Text Editing

提出TextFlow,一个免训练的场景文字编辑框架,通过在去噪早期阶段使用Flow Manifold Steering(FMS)保持风格一致性、后期阶段使用Attention Boost(AttnBoost)增强文字渲染准确性,在不需要任务特定训练的情况下达到与训练方法可比甚至更优的编辑质量。

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos

TraceGen 把"世界模型"从像素空间搬到一个紧凑的场景级 3D 轨迹(trace)空间,配套用 TraceForge 数据引擎把 12.3 万段人类与机器人视频统一成一致的 3D trace,预训练出一个跨形态的运动先验,从而只用 5 段目标演示就能在新机器人/新任务上达到 80% 成功率,推理还比基于视频生成的世界模型快 50–600 倍。

Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning

CrossHA 把"语言/grounding/motion/原子/latent"等异构动作空间统一进一个 VLM 智能体,用"混合 SFT → 单步 RL → 多轮 RL"的三阶段 GRPO 管线训练它在轨迹每一步自主挑选最合适的动作空间,仅用 30 个 Minecraft 任务训练就泛化到 800+ 任务并刷到 SOTA(全任务 ASR 54.6%)。

TrajRAG: Retrieving Geometric-Semantic Experience for Zero-Shot Object Navigation

TrajRAG 把历史导航轨迹压缩成"拓扑-极坐标"结构存进一个可终身累积的 RAG 知识库,导航时让每个候选前沿生成一条假想轨迹去粗到精地检索相似历史经验,再把检索到的经验喂给 LLM 规划器选下一个 waypoint,在 MP3D / HM3D-v1 / HM3D-v2 三个零样本 ObjectNav 基准上都刷到了新 SOTA。

TRM-VLA: Temporal-Aware Chain-of-Thought Reasoning and Memorization for Vision-Language-Action Models

TRM-VLA 让 VLA 模型只在「关键帧」上做分层思维链推理、并用一个粒度自适应的记忆缓冲把历史推理结果跨帧检索回来,从而在 SIMPLER、LIBERO-90 和四个真实机器人任务上既刷新成功率(SIMPLER 72.9%)又把每步 CoT token 数砍掉约 4×。

UAST: Unified Active Search and Tracking for Arbitrary Targets with UAVs

UAST 用一套只吃 RGB-D 的无地图框架,把"主动搜索任意目标"和"持续跟踪"统一进同一条感知-控制管线:双分支感知 + 规则化点搜索策略在「可见追踪 / 短时遮挡补偿 / 丢失探索」三种状态间自适应切换,轻量控制网络直接吐出动力学可行轨迹,在仿真和真机上把长程高速跟踪成功率较 SOTA 提升 50%+、搜索速度快约 3 倍。

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation (VITA)

VITA 提出用一个"视觉-动作共享的离散隐空间"统一感知与控制:VLM 主干自回归生成的同一串 token 被同时解码成"未来视频帧"和"机器人动作",从而把视觉预测当作动作生成的归纳偏置(隐式视觉 CoT),既弥合视觉观测与低维动作之间的模态鸿沟、又避免"先预测图再动作"范式的训练不稳和高延迟,在 CALVIN/LIBERO/SimplerEnv 上分别提升 14.5%/9.6%/12.1%、真实世界 6 任务平均成功率 80.5%。

Video2Robo: 3DGS-based Synthetic Data from One Video Enables Scalable Robot Learning

Video2Robo 只用一段手机拍的单目人类演示视频,靠 3DGS 把任务相关物体重建出来、跟踪它们的 6D 运动轨迹、解析出操作技能,再用一只虚拟 Franka 机械臂"接管"这些轨迹并叠加多维度场景增强,批量合成出既照片级真实又运动学合理的机器人训练数据,训练出的策略能零标定迁移到真实机械臂上。

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

VIRAL 完全在仿真里训练人形机器人「边走边操作」(loco-manipulation)的视觉策略,靠「特权教师 → RGB 学生」蒸馏 + 大规模视觉域随机化 + 真到仿对齐,把只看 RGB 图像的策略零样本部署到 Unitree G1,能连续 54 个循环在两张桌子间走动、抓取、放置物体,接近专家级遥操作水平。

Visual-RRT: Finding Paths toward Visual-Goals via Differentiable Rendering

把基于可微机器人渲染的"视觉梯度利用"塞进 RRT 的"采样探索"框架里,让机械臂在只给一张目标图像、没有目标关节角的情况下也能规划出无碰撞运动路径,在 Franka / UR5e / Fetch 上的成功率从 ~20% 量级提到 ~75%。

VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling

本文把预训练 VLA 拆成「空间建模(视觉编码器)」与「物理建模(VLM + 动作专家)」两块,论证 VLA 在新视角/视觉扰动下崩盘的元凶是空间建模的表征漂移而非物理建模失能,并用两个极轻量的一次性适配(4K 参数的特征 token 仿射调制 FTM、4.7M 参数的 ViT 低秩适配 FLA)把 LIBERO 新视角成功率从 48.5% 拉到 90.8%,以 1% 的参数追平甚至超过 LoRA 全量微调。

When Robots Should Say "I Don't Know": Benchmarking Abstention in Embodied Question Answering

本文提出 AbstainEQA——首个针对"具身问答(EQA)该不该回答"的人工标注 benchmark:把 OpenEQA 的清晰问题改写成 5 类含糊问题,逼智能体在证据不足时学会弃权(abstain)说"我不知道",结果发现最强的前沿模型弃权召回率只有 42.79%,远低于人类的 91.17%,而且 scaling、prompting、reasoning、SFT 都只带来表面提升。