🤖 机器人/具身智能¶
🔬 ICLR2026 · 162 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (146) · 💬 ACL2026 (11) · 🧪 ICML2026 (53) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (75) · 📹 ICCV2025 (26)
🔥 高频主题: 机器人 ×61 · 多模态 ×38 · 强化学习 ×13 · 导航 ×13 · Agent ×13
- A Primer on SO(3) Action Representations in Deep Reinforcement Learning
-
本文系统评估了 SO(3) 旋转动作在深度强化学习里的各种参数化方式(欧拉角 / 四元数 / 旋转矩阵 / 李代数切向量),通过对 PPO、SAC、TD3 在稠密与稀疏奖励下的大规模实验,证明"局部坐标系下的切空间增量动作(delta tangent vector)"几乎在所有算法和任务上最稳健,并给出一套可直接落地的旋转动作选型指南。
- Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies
-
SMP(Skill Mixture-of-Experts Policy)把扩散策略的动作生成拆解到一组状态自适应的正交技能基上,用缓变的「黏性」门控只激活少数与当前阶段相关的专家,从而在中等模型规模下实现可复用、可迁移的多任务双臂操作,并把推理时的激活参数压到约自身的 30%(约为 RDT 的 7%),成功率反而高于大扩散基线。
- Accelerated co-design of robots through morphological pretraining
-
本文提出"形态预训练":先用可微仿真把一个与形态无关的通用控制器在上千万个机器人身体上一次性训练好,再用这个冻结的控制器零样本(或少量微调)评估任意身体改动的好坏,从而把机器人"身体+大脑"协同设计的速度提升一个数量级,同时首次让进化里的"杂交重组"真正产出比父代更优的后代。
- Action-aware Dynamic Pruning for Efficient Vision-Language-Action Manipulation
-
针对 VLA(视觉-语言-动作)模型推理时视觉 token 太多、算力被注意力吃光的问题,本文提出 ADP(Action-aware Dynamic Pruning):用文本相关性挑出任务相关的视觉 token 做前瞻式剪枝,再用机器人末端执行器的近期运动幅度当门控信号——粗动作阶段(位移大)激进剪枝省算力、精细操作阶段(位移小)恢复全视觉保精度,在 LIBERO 上把 OpenVLA-OFT 加速到 1.35× 而成功率几乎不掉,真机延迟降到 1.49×。
- Action Chunking and Exploratory Data Collection Yield Exponential Improvements in Behavior Cloning for Continuous Control
-
本文用控制理论中的"增量稳定性"为模仿学习两大经验技巧——动作分块(action chunking)与专家噪声注入式数据增强——给出了首个理论保证,证明它们能在不同情形下把连续控制行为克隆中随时间指数级累积的复合误差压成"水平无关(horizon-free)"。
- Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting
-
把机器人末端执行器的低层动作直接写成自然语言文本喂给 VLM,让微调数据落回预训练分布,从而只用 LoRA 就能把 Gemma-3-12B 变成机器人策略(VLA),在 800+ 次真机实验中保留 85%+ 的 VQA 能力并实现多语言指令、开放世界语义的零样本泛化。
- Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance
-
ATE 先把预训练机器人动作和目标机器人动作对齐到同一个结构化潜空间,再用潜空间距离产生的梯度指导扩散式或流匹配式 VLA 微调,从而在有限演示数据下更快适配新具身和新任务。
- All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation
-
提出Tucker Adaptation (TuKA),将多场景多环境的多层级导航知识表示为高阶张量,用Tucker分解解耦为共享子空间(核心张量+编解码器)和场景/环境专家向量,配合解耦知识增量学习策略实现全天候多场景终身VLN,在24个导航场景上的SR和遗忘率均优于LoRA变体。
- AnyTouch 2: General Optical Tactile Representation Learning For Dynamic Tactile Perception
-
AnyTouch 2提出触觉动态金字塔框架,构建包含242.6万接触样本的ToucHD层级数据集(涵盖原子动作、真实操控和触力配对数据),并设计统一像素级、语义级和物理级三层次动态感知的触觉表征学习框架,在静态属性识别、动态物理预测和真实世界操控四项任务上全面超越现有方法。
- APPLE: Toward General Active Perception via Reinforcement Learning
-
提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。
- ArtVIP: Articulated Digital Assets of Visual Realism, Modular Interaction, and Physical Fidelity for Robot Learning
-
ArtVIP 构建了一套 992 个高质量数字孪生关节物体和配套室内场景,通过统一建模规范、关节物理调参、资产内嵌交互行为与像素级 affordance 标注,让机器人学习算法能在更接近真实世界的仿真环境中训练、评测和迁移。
- AutoBio: A Simulation and Benchmark for Robotic Automation in Digital Biology Laboratory
-
AutoBio 把"生物实验室里机器人做实验"这件事做成了一套可仿真、可生成示范、可评测的 benchmark:它用 3D 高斯泼溅把真实仪器数字化、给 MuJoCo 补上螺纹/卡位/偏心/液面这些实验室专属物理、再用 Blender PBR 解决透明容器与液体的渲染,最终在 16 个分三档难度的生物实验任务上跑通 π0、π0.5、RDT 等主流 VLA,暴露出它们在精密操作、指令跟随和视觉推理上的明显短板。
- AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild
-
提出 AutoFly,一个面向无人机野外自主导航的端到端 VLA 模型,通过伪深度编码器从 RGB 输入推断空间信息,配合新构建的自主导航数据集(13K+ 轨迹含 1K 真实飞行),在模拟和真实环境中比 OpenVLA 成功率高 3.9%,碰撞率低 2.6%。
- Autonomous Functional Play with Correspondence-Driven Trajectory Warping
-
本文提出 Tether:先用一个只需 ≤10 条示范、靠语义关键点对应把示范轨迹"变形"到新场景的开环策略,再把它放进一个由视觉语言模型(VLM)调度的"自主功能性玩耍"闭环里,让机器人在真实世界连续 26 小时、几乎无需人工干预地自动生成 1000+ 条专家级轨迹,用来训练闭环模仿策略,最终达到与人类遥操作采集数据相当的成功率。
- BFM-Zero: A Promptable Behavioral Foundation Model for Humanoid Control Using Unsupervised Reinforcement Learning
-
BFM-Zero 用在线 off-policy 无监督 RL(前向-后向表征 FB-CPR)把动作、目标、奖励统统编码进一个共享潜空间,训出一个可"提示"的人形全身控制通才策略,并首次在真实 Unitree G1 上实现免重训的零样本动作跟踪 / 目标到达 / 奖励优化,还能少样本快速适配。
- Block-wise Adaptive Caching for Accelerating Diffusion Policy
-
BAC 把图像扩散里的"特征缓存"思路搬到 Diffusion Policy 上,用动态规划为每个 Transformer 子块单独排定缓存更新时刻、再用 Bubbling Union 算法掐断 FFN 块的块间误差传播,免训练即插即用地把扩散策略推理提速 3× 而几乎不掉成功率。
- BOLT: Decision‑Aligned Distillation and Budget-Aware Routing for Constrained Multimodal QA on Robots
-
BOLT 把"机器人上的受限多选题问答"拆成训练期的选项级决策蒸馏(让 2B 小模型直接对齐 13B 教师在选项集上的偏好)和推理期的预算感知路由(只在便宜信号预示有正收益时才触发高分辨复评/同类检索/问题分解),用 2B 学生在 Robo2VLM-1 上做到 50.50% 准确率、反超 36.74% 的 13B 教师,同时把显存从 26.9GB 压到 3.8GB、能耗降 82.5%。
- Capturing Visual Environment Structure Correlates with Control Performance
-
作者提出用「从图像回归仿真器全状态(几何/物体结构/物理属性)」作为一个轻量代理任务,证明这个探测精度与下游机器人策略成功率高度相关,从而能在不跑 policy rollout 的情况下高效挑选视觉骨干网络。
- CE-Nav: Flow-Guided Reinforcement Refinement for Cross-Embodiment Local Navigation
-
CE-Nav 用「先离线模仿学一个不依赖任何机器人本体、只懂几何避障的归一化流专家(VelFlow),再冻结它当先验、用轻量在线 RL 精修器去适配每个新机器人具体动力学」的两阶段框架,在四足/双足/四旋翼上都拿到 SOTA 导航性能,且把适配新机器人的训练时间从 50 小时压到 6 小时。
- CompassNav: Steering From Path Imitation to Decision Understanding In Navigation
-
CompassNav 把目标导航的训练范式从"模仿单条专家轨迹"转向"决策理解"——用 A* 测地距离给每一步的所有候选动作打分构造稠密监督,再配一个 gap-aware 混合奖励做 GRPO 微调,让 7B 的 Qwen2.5-VL 学会评估"每个走法相对优劣",在 HM3D/MP3D 上超过 GPT-4o 甚至 o4-mini。
- Compositional Diffusion with Guided Search for Long-Horizon Planning
-
把"种群式搜索"直接嵌进扩散去噪过程,用迭代重采样做局部到全局的消息传递、用 DDIM 反演的似然做剪枝,从而让短程扩散模型组合出既局部可行又全局连贯的长程计划,在机器人规划、全景图、长视频上一套方法通吃。
- CoNavBench: Collaborative Long-Horizon Vision-Language Navigation Benchmark
-
CoNavBench 是首个面向"多机器人协作"的视觉语言导航(VLN)基准,包含 4048 条单机/协作任务,并配套一个图接地的自动数据生成平台 NavCraft(双阶段智能体 + 场景图 + 效率工具库),用一个微调的 Qwen2.5-VL-3B 作为参考策略,证明协作分解能把步级任务成功率相对提升 18.11%。
- Contractive Diffusion Policies
-
针对扩散策略在离线控制中"采样器误差 + score 估计误差会逐步累积、把动作推离数据支撑"的痛点,本文用收缩理论(contraction theory)把"让相邻去噪轨迹相互靠拢"这件事,转化成对 score 网络 Jacobian 最大特征值的可微惩罚,只加一个超参数和一项轻量损失就能塞进已有扩散策略,在数据稀缺时增益尤其明显。
- Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation
-
受人脑视觉皮层"腹侧通路看静态场景、背侧通路看动态运动"的分工启发,本文提出 Cortical Policy——一个静态流(用 VGGT 监督跨视图几何一致性补 3D 空间推理)与动态流(用预训练注视估计模型从腕部动态视角预测末端执行器位置)并行的双流视图 Transformer,在 RLBench、COLOSSEUM 和真机任务上显著超越 RVT-2 等 SOTA(RLBench 平均成功率 81.0% vs 77.5%,COLOSSEUM +9.4%,动态扰动下真机 80% vs 静态法 0%)。
- Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning
-
本文把预训练视频生成大模型 Cosmos-Predict2-2B 当作底座,不改任何网络结构、只用一阶段微调,让它把机器人动作、未来状态、状态价值都"编码成隐空间视频帧"一起去噪生成,从而同时充当策略、世界模型和价值函数;在 LIBERO(98.5%)、RoboCasa(67.1%)和真实双臂 ALOHA 任务上都拿到 SOTA,并能用 best-of-N 规划再提升 12.5 分。
- Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
-
系统研究跨形态离线 RL 预训练范式,发现次优数据比例和机器人多样性增加时梯度冲突导致负迁移,提出基于形态图距离的 Embodiment Grouping(EG)策略将机器人按形态聚类后分组更新 actor,在 16 种机器人平台的 locomotion benchmark 上显著缓解负迁移(70% 次优数据集上 IQL+EG 比 IQL 提升 34%)。
- Ctrl-World: A Controllable Generative World Model for Robot Manipulation
-
把预训练的被动视频扩散模型改造成一个可控、多视角、长时一致的机器人世界模型,让通用 VLA 策略能在"想象空间"里闭环 rollout,从而无需真机就能评估策略、并通过合成成功轨迹微调把策略成功率提升 44.7%。
- D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping
-
提出D-REX,一个基于高斯表示的可微real-to-sim-to-real引擎,通过视觉观测和机器人控制信号进行端到端物体质量辨识,并利用辨识的质量进行力感知的灵巧抓取策略学习,有效缩小了sim-to-real差距。
- D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI
-
提出 D2E 框架,证明桌面游戏交互数据可作为具身 AI 的有效预训练基底:通过 OWA 工具包收集 335h 人类演示 + Generalist-IDM 伪标注 1000+h YouTube 游戏视频 + VAPT 迁移训练,1B 参数模型在 LIBERO 操作达 96.6%、CANVAS 导航达 83.3%,匹敌或超越 7x 更大的模型。
- DataMIL: Selecting Data for Robot Imitation Learning with Datamodels
-
DataMIL 把 NLP/CV 里的 datamodels(数据归因)框架搬到机器人模仿学习,用策略本身端到端地给每条先验数据打"对任务成功率的影响分",再挑高分数据与目标数据协同训练;它用一个免 rollout 的代理损失替代昂贵的真机评测,在 60+ 仿真与真实操作任务上比相似度检索类基线平均高出约 10%,并能从 OXE 这类超大异构数据集里选出真正有用的跨本体数据。
- DemoGrasp: Universal Dexterous Grasping from a Single Demonstration
-
DemoGrasp 从一条成功抓取演示出发,让 RL 策略只学"如何编辑这条演示"(改手腕位姿决定抓哪、改手指关节决定怎么抓),把高维长程的灵巧抓取压成一个单步决策问题,用二值成功+碰撞惩罚这种极简奖励就能在数千物体上训出通用策略,仿真 95%、真机 110 个未见物体 86.5% 成功率,并能跨七种机械手本体迁移。
- Demystifying Robot Diffusion Policies: Action Memorization and a Simple Lookup Table Alternative
-
这篇论文系统证明小数据机器人模仿学习中的 Diffusion Policy 更像是在根据当前图像检索训练集动作片段,而不是学习可泛化的动作生成器,并提出一个显式的 Action Lookup Table (ALT) 用对比学习嵌入 + 最近邻检索达到接近 Diffusion Policy 的表现,同时推理更快、OOD 判断更直接。
- DexMove: Learning Tactile-Guided Non-Prehensile Manipulation with Dexterous Hands
-
DexMove 用「大规模仿真轨迹 + 少量人类触觉示范」的混合数据范式,训练一个流匹配策略让多指灵巧手通过腕指协同 + 触觉闭环来推、转桌面物体(非抓取式重定位),真机 6 类物体平均成功率 77.8%,比消融基线高 36.6%、效率提升近 300%。
- DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model
-
DexNDM 用逐关节神经动力学模型把高维手-物系统拆成单关节的低维有效动力学,配合"混沌箱"自主采数据,训练残差策略修正仿真基础策略,让单一策略在真实世界中首次实现对复杂形状、高长径比、小尺寸物体在多种手腕朝向下的稳健手内旋转。
- Difference-Aware Retrieval Policies for Imitation Learning
-
DARP 把模仿学习从"状态→动作"的全局映射,重参数化为"在专家数据里检索 k 个近邻、再基于每个近邻与查询状态的差异向量预测动作并做置换不变聚合"的半参数化检索策略,理论上等价于一个免调参的拉普拉斯平滑,在 MuJoCo / Robosuite / RoboCasa 上比标准行为克隆稳定提升 15–46%。
- Differentiable Simulation of Hard Contacts with Soft Gradients for Learning and Control
-
针对惩罚式仿真器(MuJoCo)在硬接触下自动微分梯度失真、以及物体未接触时梯度为零这两个老问题,本文用「自适应步长积分(DiffMJX)」修正离散化导致的梯度误差,再用「距离接触 CFD + 直通技巧」在不破坏前向真实性的前提下给未接触物体注入有信息量的梯度,从而能用一阶梯度直接做真实立方体参数辨识和高维肌肉骨骼系统的控制。
- Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining
-
DeFI 把机器人策略学习拆成"预测未来画面"和"反推潜在动作"两个独立模块,分别在大规模人类+机器人视频上预训练,再耦合做端到端微调,让海量无动作标签的视频也能为 VLA 所用,在 CALVIN ABC-D(平均完成长度 4.51)、SimplerEnv-Fractal(51.2%)和真机(81.3%)上都刷到 SOTA。
- Efficient Differentiable Contact Model with Long-range Influence
-
本文系统刻画了"良态接触模型"必须满足的四条性质(无穿透、二阶光滑、非抓持、梯度不消失),并设计了一个用包围球层级(BSH)高效求值、即便物体相距很远也能提供非零梯度的可微接触势函数,让梯度优化器从平凡初值就能发现复杂的接触丰富运动。
- Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation
-
以"pointing"(二维坐标点/轨迹点序列)作为统一的 embodiment-agnostic 中间表示,通过两阶段强化微调(RFT)训练 3B 参数 VLM,在 11 个空间推理基准和 8 个真机任务上达到 SOTA,零样本成功率 87.5%。
- Embodied Agents Meet Personalization: Investigating Challenges and Solutions Through the Lens of Memory Utilization
-
本文通过 Memento 框架系统评估了 LLM 驱动具身智能体的记忆利用能力,发现现有 agent 能回忆简单物体语义但无法处理用户行为模式的序列信息,并提出了基于层次知识图谱的用户画像记忆模块来有效提升个性化辅助任务的表现。
- Embodied Navigation Foundation Model
-
NavFoM 是首个跨机体×跨任务的具身导航基础模型,在 800 万条导航样本上联合训练四足机器人、无人机、轮式机器人和车辆,用 TVI 标识符 Token 处理任意相机配置,用预算感知历史采样控制推理开销,在 7 个公开 benchmark 上免微调达到 SOTA 或竞争性性能。
- Emergence of Spatial Representation in an Actor-Critic Agent with Hippocampus-Inspired Sequence Generator
-
受海马体 CA3 区内在递归回路启发,提出最小序列生成器(shift register)与 actor-critic 结合,在稀疏视觉输入下实现迷宫导航,同时涌现出位置场、DG 正交化、距离相关空间核和任务依赖重映射等神经生物学现象。
- Emergent Dexterity via Diverse Resets and Large-Scale Reinforcement Learning
-
OmniReset 通过自动生成四类多样化初始状态分布,让 PPO 在大规模并行仿真中无需任何人工演示、课程或任务特定奖励,即可涌现出复杂多阶段灵巧操作策略,并零样本迁移到真实机器人。
- Empowering Multi-Robot Cooperation via Sequential World Models
-
提出 SeqWM(Sequential World Model),将序列化(自回归)范式引入多机器人模型强化学习,使每个机器人独立维护一个世界模型并顺序传递预测轨迹,在降低建模复杂度的同时,通过意图共享让系统自发涌现出预测适应、时序对齐、角色分工等高级协作行为,并成功完成 sim-to-real 迁移。
- ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
-
ENACT 将具身认知评测形式化为基于一人称交互的世界建模 VQA——通过正向/逆向序列重排任务,系统揭示了当前顶级 VLM 在长时域交互推理中相较人类的显著差距及拟人化偏见。
- End-to-end Listen, Look, Speak and Act
-
ELLSA 是首个真正意义上端到端全双工的多模态系统,通过 SA-MoE 架构将语音专家与行动专家用统一注意力连接,让机器人同时"听、看、说、动",并支持打断、边说边动、上下文视觉问答等此前无法实现的交互行为。
- EquAct: An SE(3)-Equivariant Multi-Task Transformer for 3D Robotic Manipulation
-
EquAct 提出首个在单一统一模型里同时做到连续 SE(3) 等变(旋转+平移)的多任务、语言条件关键帧操作策略,通过等变点 Transformer U-Net + 球谐傅里叶特征 + SE(3)-不变的 iFiLM 语言调制层,在 18 个 RLBench 任务(含 SE(3) 扰动)和 4 个真机任务上达到 SOTA。
- EVLP: Learning Unified Embodied Vision-Language Planner with Reinforced Supervised Fine-Tuning
-
EVLP 用一个统一的多模态生成框架同时建模语言推理与视觉想象,配合"双向动态感知预训练 + 强化监督微调(RSFT)",让模型从高层指令一步生成下一步语言动作和子目标图像,在长程操作任务上显著超越语言规划/视觉规划/多模态规划各类基线。
- ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning
-
提出 ExoPredicator 框架,联合学习符号化状态抽象和因果过程(含内生动作与外生机制),通过变分贝叶斯推断 + LLM 提议从少量轨迹中学习带随机延迟的因果世界模型,在 5 个桌面机器人环境中实现快速泛化规划。
- Experience-based Knowledge Correction for Robust Planning in Minecraft
-
证明 LLM 无法通过 prompting 自我纠正其错误的规划先验知识(物品依赖关系),提出 XENON——通过算法化的知识管理(自适应依赖图 ADG + 失败感知动作记忆 FAM)从二值反馈中学习,使 7B LLM 在 Minecraft 长期规划中超越使用 GPT-4V + oracle 知识的 SOTA。
- FASTer: Toward Powerful and Efficient Autoregressive Vision-Language-Action Models with Learnable Action Tokenizer and Block-wise Decoding
-
FASTer 把连续机器人动作先压缩成结构化离散 action code,再用 block-wise 自回归 VLA 一次生成一块 action token,在保持高精度控制的同时显著降低自回归推理延迟,并在多种模拟和真实机器人上超过现有 VLA 基线。
- From Embedding to Control: Representations for Stochastic Multi-Object Systems
-
本文提出 Graph Controllable Embeddings (GCE),把随机多体系统的条件分布嵌入到再生核希尔伯特空间(RKHS)中使非线性动力学变线性,再结合图神经网络与平均场近似自适应建模非均匀交互,从而用简单的线性 LQR 控制器实现对随机、变拓扑多体系统的高效控制与少样本泛化。
- From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance
-
RoboGhost 提出一个免重定向(retargeting-free)的语言驱动人形控制框架:让文本生成的"运动隐变量"直接作为条件去驱动一个扩散策略从噪声中去噪出可执行动作,绕开"解码运动→重定向到机器人→物理跟踪"这条易累积误差、高延迟的多阶段流水线,把从文本到部署的耗时从 17.85s 砍到 5.84s。
- From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation
-
FSD 把机器人操作里"预测抓取点/轨迹"的活儿改造成一个显式空间推理过程:先用空间关系图做视觉链式思考(SrCoT),再生成与具身无关的中间视觉辅助物(affordance 框/点 + 视觉轨迹),从而在不微调的情况下实现零样本操作,并在 8 个空间推理 benchmark 和真机任务上大幅超越 affordance 基线。
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning
-
S2E 提出"从看到到体验"的混合学习框架:先在 100 小时真实导航视频上用锚点引导的高斯混合分布做预训练,再用一个零初始化的残差注意力模块在仿真中做 RL 后训练,只更新交叉注意力分支即可注入避障/避人的反应式能力,让导航基础模型突破纯离线数据的 scaling 天花板,并零样本迁移到真实轮式与四足机器人。
- From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
-
提出 FALCON(From Spatial to Action),通过将空间基础模型的丰富 3D 空间 token 注入到 Action Head 而非 VLM 主干中,实现了 VLA 模型的强 3D 空间感知,同时保持仅 RGB 到 RGB-D 的灵活模态切换,在仿真和真实世界任务中均达到 SOTA。
- Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation
-
GE 把"多视角视频世界模型 (GE-Base)"和"轻量并行动作解码器 (GE-Act)"统一进一个视频生成框架,让动作分支逐块对齐地直接读取视频 DiT 的多尺度全分辨率潜表征,再配合慢-快异步推理,做到在单张 RTX 4090 上 200ms 内生成 54 步动作轨迹,并能用 1 小时遥操作数据迁移到全新机器人本体。
- Geometry-Aware Policy Imitation
-
GPI 把专家示范看作状态空间里的几何曲线而非状态-动作样本集,从曲线诱导出的距离场中导出"推进流 + 吸引流"两个互补的控制原语,组合成一个非参数、可解释的向量场直接驱动机器人,在比扩散策略成功率更高的同时推理快 20–100×、内存省两个数量级。
- Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-Language Navigation
-
DualVLN(InternVLA-N1)把视觉语言导航拆成「慢系统」7B VLM 做像素目标 grounding + 「快系统」轻量扩散策略生成连续轨迹,两系统异步运行,在 VLN-CE / VLN-PE 上全面刷新 SOTA 并实现真机动态避障。
- Grounding Generative Planners in Verifiable Logic: A Hybrid Architecture for Trustworthy Embodied AI
-
提出 VIRF(Verifiable Iterative Refinement Framework),通过神经-符号混合架构将确定性的逻辑导师(Logic Tutor)与 LLM 规划器结合,以可验证的形式化本体作为安全锚点,在 SafeAgentBench 上实现 0% 危险动作率(HAR)和 77.3% 任务完成率(GCR),证明严格安全保障无需牺牲智能体效用。
- H\(^3\)DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning
-
H3DP 在视觉运动扩散策略里同时引入「输入分层(按深度切片 RGB-D)+ 表征分层(多尺度视觉特征)+ 动作分层(粗到细的层级条件去噪)」三重层级结构,把视觉感知与动作生成显式耦合起来,在 44 个仿真任务上相对基线平均提升 +27.5%、真实双臂任务提升 +72.4%。
- HAMLET: Switch Your Vision-Language-Action Model into a History-Aware Policy
-
HAMLET 通过给预训练 VLA 追加少量可学习的 moment token(用时间对比学习初始化)和一个轻量记忆模块,让"只看当前帧"的 VLA 以即插即用、近乎零开销的方式获得历史感知能力,在真实长时序任务上把成功率从 29.2% 拉到 76.4%。
- Hierarchical Value-Decomposed Offline Reinforcement Learning for Whole-Body Control
-
针对高自由度全身机器人专家数据稀缺的问题,HVD 把离线 RL 的价值函数沿机器人运动学结构(base/torso/arm)做分层分解,从大量不完美数据中做价值筛选,配合时序 chunking 实现细粒度信用分配,在真实 21-DoF 人形机器人五项任务上显著超过模仿学习基线。
- House Of Dextra : Cross-Embodied Co-Design for Dexterous Hands
-
House of Dextra 提出一个面向灵巧手的跨 embodiment 协同设计框架,把可制造的模块化手型语法、形态条件控制策略和图启发式搜索连起来,在仿真中筛选并微调手型,最终把 3 指、4 指、5 指等多种设计零样本部署到真实硬件上完成盲手内旋转。
- HWC-Loco: A Hierarchical Whole-Body Control Approach to Robust Humanoid Locomotion
-
HWC-Loco 把人形机器人运动控制重写为「鲁棒优化」问题,用一个高层规划器在「目标跟踪」与「安全恢复」两个底层策略之间动态切换,从而在保证 ZMP 稳定性的同时不牺牲任务性能,在多地形、多扰动、多本体的真机与仿真上都拿到 SOTA。
- Hybrid Training for Vision-Language-Action Models
-
本文提出 Hybrid Training (HyT):让 VLA 在训练时同时从「思维链(CoT)」和「动作」数据中学习,但在推理时通过一个「模态变量」直接输出动作、跳过费时的思维生成,从而既拿到 CoT 带来的性能增益,又保持标准 VLA 的高控制频率。
- HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model
-
HybridVLA 让同一个 LLM backbone 在同一条 token 序列里同时承担扩散去噪和自回归动作预测两种范式,并用基于置信度的协同集成自适应融合两者,仿真和真机分别比 SOTA 提升 17% 和 19%。
- Image Quality Assessment for Embodied AI
-
首次把图像质量评估(IQA)从"预测人眼偏好"扩展到"预测机器人能否用这张图把任务干成",基于 Mertonian 系统搭出 感知-认知-决策-执行(Perception-Cognition-Decision-Execution) 四步流水线,构建了含 36.9k 失真图像对、5.53M 细粒度标注(15 个 VLM + 15 个 VLA + 1.5k 真机实验)的 Embodied-IQA 数据库,并用 15 种主流 IQA 方法证明:现有为人眼设计的质量指标在具身场景下严重失效。
- Interleave-VLA: Enhancing Robot Manipulation with Image-Text Interleaved Instructions
-
本文提出 Interleave-VLA:一个模型无关、几乎不改架构的范式,让现有 VLA 接受"图文交错"指令(把文本里的目标物体替换成它的图像),并配套一条自动化流水线把 Open X-Embodiment 改造成 21 万条交错指令数据集,使机器人对未见物体的域外泛化提升约 2×,并涌现出对手绘草图、网图等指令的零样本理解能力。
- JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
-
受人类左脑语义理解、右脑空间认知的启发,提出 JanusVLN——首个为 VLN 设计的双隐式神经记忆框架,将空间几何记忆和视觉语义记忆分别建模为固定大小的 KV Cache,仅凭 RGB 视频即可实现高效空间推理,在 VLN-CE 基准上取得 SOTA。
- Latent Adaptation of Foundation Policies for Sim-to-Real Transfer
-
这篇论文提出 Found-adapt:先在模拟器离线轨迹上预训练可复用的 latent-conditioned foundation policy,再在部署时只用少量目标域数据修正隐变量 \(z\),从而在不重训策略网络的情况下缓解机器人运动控制中的动力学 sim-to-real gap。
- Learning to Grasp Anything By Playing with Random Toys
-
LEGO 用「球、立方体、圆柱、环」四种形状基元随机拼成的 3D 打印「玩具」来训练抓取策略,靠一个把视觉注意力锁死在目标物体上的检测池化(DetPool)机制学到物体中心表征,从而在真实 YCB 物体上零样本拿到 67% 抓取成功率,反超数据量和参数量都大上几个数量级的 VLA 大模型。
- LeRobot: An Open-Source Library for End-to-End Robot Learning
-
LeRobot 是 Hugging Face 推出的端到端机器人学习开源库,从底层电机中间件、统一多模态数据集格式、解耦异步推理栈到一系列 SOTA 策略实现一体打通,把分散、闭源、各自为政的机器人学习工具栈整合成一个可复现、低门槛的垂直集成平台。
- Lifelong Embodied Navigation Learning
-
本文提出 Lifelong Embodied Navigation Learning 任务和 Uni-Walker 框架,让 LLM 驱动的具身导航代理按顺序学习 VLN、OLN、DUN 等多类导航任务时,既能吸收新场景和新指令风格,又能显著降低旧任务遗忘。
- M³E: Continual Vision-and-Language Navigation via Mixture of Macro and Micro Experts
-
M³E 把 LLM 导航智能体的 FFN 层换成"宏观+微观"双路由的 MoE-LoRA 层——宏观路由用 GNN 在认知地图上做拓扑感知的场景级专家选择,微观路由按 token 隐状态做指令级专家选择——再配一个动态动量更新策略冻结/激进更新不同专家,从而在不存任何历史轨迹(replay-free)的前提下实现跨环境持续学习,在 R2R / REVERIE 上同时改善导航成功率和抗遗忘能力。
- ManipEvalAgent: Promptable and Efficient Evaluation Framework for Robotic Manipulation Policies
-
ManipEvalAgent 用一组协作的 VLM Agent 模仿人类专家"少量上手试几次就形成判断"的方式,对机器人操作策略做可提示、多轮、动态规划的评估——通过代码生成在仿真器里现造任务与评测工具,用远少于全量基准的采样得到与之相当的结论,同时给出可解释的诊断文本而非一个冷冰冰的成功率。
- Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
-
这篇论文提出相机专属的 Camera Depth Models,把真实深度相机的粗糙 RGB-D 输入校正成接近仿真的高质量度量深度,从而让只在仿真干净深度上训练的机器人操作策略可以零微调迁移到真实长程任务。
- Masked Generative Policy for Robotic Control
-
把机器人动作离散化成 token,用图像生成里的"掩码生成 Transformer"一次并行预测整段动作、再只重采样低置信 token,从而同时甩掉扩散策略的多步去噪和自回归策略的逐 token 解码两个瓶颈,并借此在动态、缺观测、非马尔可夫任务上做到全局连贯的可靠控制。
- Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning
-
提出 MIKASA 记忆基准套件——用一套四类记忆任务分类框架统一了碎片化的记忆 RL 评测,并首次构建了 32 个桌面机器人操作记忆任务(MIKASA-Robo),系统暴露了主流 RL/VLA 智能体在部分可观测操作任务上的记忆短板。
- MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
-
受认知科学双重记忆系统启发,提出MemoryVLA框架,在VLA模型中引入感知-认知记忆库(PCMB),通过记忆检索、门控融合和整合机制捕捉长时序依赖,在SimplerEnv/LIBERO/真实世界150+任务上全面超越CogACT和π₀。
- MetaVLA: Unified Meta Co-Training for Efficient Embodied Adaptation
-
MetaVLA 在 VLA 后训练阶段引入一个由 Attentive Neural Process 派生的轻量上下文记忆模块(Action-ANP),把多任务联合训练从"任务越多越崩"变成"加辅助任务还能涨点",用单个模型在 LIBERO 上把 OpenVLA 240K 步训练压到 75K 步、GPU 时间砍 76%,长程任务还反超 8%。
- MolLangBench: A Comprehensive Benchmark for Language-Prompted Molecular Structure Recognition, Editing, and Generation
-
提出 MolLangBench 基准,通过自动化工具和专家标注构建高质量、无歧义的分子-语言接口评估数据集,覆盖识别/编辑/生成三类任务和 SMILES/图像/图三种模态,评估 16+ 个商业 LLM 和 5 个化学模型,揭示即使 GPT-5 在基础分子操作上仍显著不足(生成仅 43%)。
- MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
-
MoMaGen 将双臂移动操作的演示数据生成建模为约束优化问题,通过硬约束(可达性、无碰撞、可见性)和软约束(导航中物体可见性、收回紧凑姿态)的协同,从单个人类遥操作演示自动生成大规模多样化数据集,训练出的视觉运动策略仅用 40 个真实演示微调即可部署到实体机器人。
- MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Models for Embodied Task Planning
-
MomaGraph 把空间关系、功能关系和部件级交互节点统一进一张任务导向的场景图,并用强化学习训练一个 7B VLM 先"画图"再"规划",在自建基准上以 71.6% 准确率超过最强基线 11.4 个点。
- Much Ado About Noising: Dispelling the Myths of Generative Robotic Control
-
本文系统性地"祛魅"生成式机器人控制策略(GCP)——通过 28 个行为克隆 benchmark 的严格消融,证明 GCP 优于回归策略的真正原因既不是多模态建模、也不是表达能力,而是「训练阶段注入噪声 + 受监督的迭代计算」这一组合,并据此设计出仅两步、无需分布拟合的极简策略 MIP,性能基本追平流模型。
- MVR: Multi-view Video Reward Shaping for Reinforcement Learning
-
提出 MVR 框架,利用多视角视频的视频-文本相似度学习状态相关性函数,结合状态依赖的奖励塑形(自动衰减 VLM 引导),在 HumanoidBench 和 MetaWorld 共 19 个任务上超越现有 VLM 奖励方法。
- Nonparametric Teaching of Attention Learners
-
提出AtteNT——从非参教学理论视角重新解释注意力学习器(Transformer/ViT)的训练过程:解析注意力在参数梯度中的重要性自适应角色→证明动态ANTK收敛到功能梯度中的重要性自适应典范核→桥接参数空间与函数空间→用贪心教学算法选择预测偏差最大的样本加速训练→LLM微调省时13.01%/ViT从头训练省时20.58%且精度不降反升。
- OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning
-
提出OmniEVA——通过任务自适应门控路由器动态注入3D位置编码(仅在需要时启用几何推理)和具身感知推理框架(将物理约束融入规划循环),解决了空间MLLM的两大gap:几何适应性差(2D-only或硬编码3D)和具身约束缺失(理论可行但实际不可执行的计划),在8个基准中7个达到SOTA。
- OmniNav: A Unified Framework for Prospective Exploration and Visual-Language Navigation
-
OmniNav 用一个 VLM 骨干 + 流匹配(flow-matching)策略头的快慢双系统架构,把 instruct-goal、object-goal、point-goal 和前沿探索四类导航任务统一进单一模型:快系统从短时视觉上下文连续预测高精度路点支持 5 Hz 实时控制,慢系统用长时记忆与前沿做带 CoT 的子目标规划,再辅以大规模通用视觉-语言数据联合训练,在 R2R-CE / RxR-CE / HM3D-OVON 等多个 benchmark 上刷到 SOTA 并完成真机部署。
- On Entropy Control in LLM-RL Algorithms
-
从理论解释为什么传统熵正则化在LLM-RL中几乎无效(因极大动作空间+稀疏最优导致熵偏差压倒优化增益),提出AEnt方法用截断熵(在缩小的token空间上计算)+自适应系数来有效平衡偏差与收益,在数学推理上持续超越baseline。
- On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
-
本文先系统评测主流 VLA 在动作/观测/环境/指令四类模态共 17 种扰动下的鲁棒性(发现动作是最脆弱模态、已有视觉鲁棒方法不迁移、π0 最稳),再提出 RobustVLA:对输出做最坏情况动作噪声下的鲁棒优化、对输入做语义不变下的动作一致性约束,并用 UCB 老虎机自动挑最有害扰动训练,在 LIBERO 上比 π0 绝对涨 14.0%、真机仅 25 条示范就比 π0 高 65.6% 成功率。
- One Demo Is All It Takes: Planning Domain Derivation with LLMs from A Single Demonstration
-
提出 PDDLLM 框架,仅需一个演示轨迹即可自动推导完整的 PDDL 规划域(谓词+动作),通过 LLM 推理与物理仿真的交叉验证生成可解释的符号表示,并借助逻辑约束适配器 (LoCA) 自动对接运动规划器,在 9 个环境 1200+ 任务中成功率领先 6 个 LLM 基线至少 20%,且成功部署于 3 个物理机器人平台。
- OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning
-
OneTwoVLA 把机器人里的快动作执行和慢语言推理统一到同一个 VLA 中,让模型在关键时刻用
[BOR]触发推理、平时用[BOA]直接输出动作,从而在长程操作、错误恢复、人机交互和开放视觉 grounding 上明显优于无推理 VLA 与双系统方案。 - PA3FF:面向可泛化铰接物体操作的部件感知稠密 3D 特征场
-
本文提出 PA3FF——一个直接从点云前馈预测、特征距离反映"是否属于同一功能部件"的稠密 3D 特征场,并在其之上搭建部件感知扩散策略 PADP,用很少的示范就能让机器人泛化地操作各类铰接物体(门把手、旋钮、盖子等),在 PartInstruct 仿真和 8 个真机任务上显著超过 CLIP / DINOv2 / Grounded-SAM 等 2D/3D 表征。
- Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments
-
提出部分群不变MDP (PI-MDP) 框架,通过可学习的门控函数 \(\lambda(s,a)\) 在状态-动作空间中逐点切换等变与标准Bellman更新,从理论上证明局部对称性破缺会经过折扣回溯放大 \(1/(1-\gamma)\) 倍产生全局值函数误差,而PI-MDP可将误差严格限制在破缺区域内;实例化为PE-DQN和PE-SAC两种算法,在Grid-World、MuJoCo运动、机械臂操作等任务上全面超越严格等变和近似等变基线。
- PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model
-
PixelVLA 是首个同时支持像素级理解与多模态提示(文本 + 点/线/框/掩码)的视觉-语言-动作模型,通过给现有 VLA 插入「多尺度像素感知编码器 + 视觉提示编码器 + 连续动作解码器」三个组件,并用自动标注流水线造出 16 万条带像素标注的 Pixel-160K 数据集做两阶段视觉运动指令微调,只花 OpenVLA 1.5% 的预训练成本就把操作成功率提升了 10.1%∼28.7%。
- Planning with an Embodied Learnable Memory
-
本文提出 EPM(Embodied Perception Memory)——一个用单个 VLM 从第一视角观测里增删改维护「文本化场景表示」的可学习记忆,再配上「人类示范模仿 + 难度感知在线 RL(DDAFT)」两套规划训练法,让 LLM 规划器在动态家庭环境的长程移动操作任务上,相比强基线在 PARTNR 上把成功率最高拉高 55%。
- Policy Contrastive Decoding for Robotic Foundation Models
-
针对通用机器人策略容易把背景/纹理等无关特征和动作虚假绑定、导致换场景就掉点的问题,本文提出训练无关、即插即用的 Policy Contrastive Decoding(PCD):用「原始观测」和「物体被抹掉的观测」两套动作分布做对比解码,把策略的注意力强行拉回到目标物体上,对自回归(OpenVLA)和扩散(Octo、\(\pi_0\))两类策略都有效,仿真提升最高 50.6%、真机最高 108%。
- Primary-Fine Decoupling for Action Generation in Robotic Imitation
-
PF-DAG 把机器人模仿学习的动作生成拆成「先用一个轻量分类器从离散原型里选一个粗模态、再用单步 MeanFlow 生成器补上模态内的连续细节」两阶段,既避免了离散化丢失精度、又消除了单阶段生成式策略在相邻时间步乱跳模态(mode bouncing)的问题,在 Adroit/DexArt/MetaWorld 共 56 个任务和真实带触觉的灵巧手任务上都超过扩散/流式基线。
- RAVEN: End-to-end Equivariant Robot Learning with RGB Cameras
-
RAVEN 把 RGB 图像的每个像素块看成一条带朝向的 3D 射线,从而在只有普通 RGB 相机(不需要点云、深度或俯视固定视角)的前提下构造出首个端到端 SE(3) 等变的机器人操作策略,在 MimicGen / DexMimicGen 仿真和真机上都大幅超过 Diffusion Policy 等强基线,且训练比已有等变方法还快 1.6×。
- Real-Time Robot Execution with Masked Action Chunking
-
提出REMAC,通过掩码动作分块训练策略和前缀保持采样管线,系统性解决异步推理下的段内不一致(intra-chunk inconsistency)和段间不连续(inter-chunk discontinuity)两大问题,在不引入额外推理延迟的前提下实现更可靠的实时机器人控制。
- ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
-
ReCAPA 把具身智能体的长程轨迹拆成「动作—子目标—轨迹」三层,用低层预测高层语义再回传纠偏信号,配合 Sinkhorn 全局对齐与 Score-field 局部对齐,在训练阶段就把偏差扼杀在萌芽,从而抑制单步小错误滚雪球式累积成级联失败,在 AI2-THOR、MineDojo、VisualAgentBench 上成功率均超过强 LLM/LMM 基线。
- REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
-
首次系统研究人类模糊指令中的指称表达(Referring Expressions)对LLM机器人任务规划的影响——构建REI-Bench基准建模9级共指模糊度(3级RE难度×3级上下文),发现隐式RE可使现有规划器成功率下降高达36.9%,提出Task-Oriented Context Cognition (TOCC)方法将任务理解与规划决策解耦,平均提升成功率6.5%。
- Remotely Detectable Robot Policy Watermarking
-
针对"只能从视频/动捕等远程观测来验证机器人用的是谁的策略"这一现实场景,本文提出 CoNoCo——把强化学习策略原本用于探索的白噪声换成藏在秘密频带里的"有色噪声",再用对系统动力学不敏感的谱相干性把它检测出来,在仿真和真实机器人上都能不损性能、不靠访问内部状态地完成策略溯源。
- Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning
-
从理论上分析了集成策略梯度方法中策略间多样性对学习效率的影响,提出通过KL散度约束调控多样性的Coupled Policy Optimization(CPO),在大规模并行环境中实现高效稳定的探索。
- RF-MatID: Dataset and Benchmark for Radio Frequency Material Identification
-
构建了首个开源的大规模、宽频段(4-43.5 GHz)、几何扰动多样的 RF 材料识别数据集 RF-MatID,包含 16 种细粒度材料类别(5 大类)/142K 样本,并建立了覆盖 9 个深度学习模型、5 种频率协议、7 种数据划分的系统基准。
- RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation
-
RFS 把"残差强化学习"和"扩散/流引导"统一进同一个策略调制框架——对一个预训练的流匹配策略,同时学习一个隐空间噪声分布(做全局探索)和一个残差动作修正(做局部精修),不动基策略参数就能高效微调,在仿真与真机灵巧操作上把平均成功率从基策略的 0.25 提到 0.87。
- RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots
-
RoboCasa365 构建了一个包含 365 个日常厨房任务、2500 个多样化厨房场景和超过 2000 小时机器人交互数据的大规模仿真基准,系统评估了多任务学习、基础模型训练和终身学习三大范式下通用机器人策略的性能表现,发现预训练数据的任务多样性是提升下游泛化能力的关键因素。
- RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation
-
提出 RoboInter 操作套件——统一的中间表示数据/基准/模型资源:RoboInter-Tool(半自动标注 GUI)+ RoboInter-Data(23 万 episode × 571 场景 × 10+ 类中间表示的密集逐帧标注)+ RoboInter-VQA(29 类具身 VQA 基准)+ RoboInter-VLA(支持模块化和端到端的 plan-then-execute 框架),为通过中间表示提升 VLA 泛化提供完整基础设施。
- RoboMD: Uncovering Robot Vulnerabilities through Semantic Potential Fields
-
为预训练的机器人操作策略训练一个独立的深度 RL「诊断策略」πMD,让它在一个由少量成功/失败数据学出来的连续视觉-语言嵌入空间里搜索,把这个空间当作「势场」朝失效区漂移、远离成功区,从而不用大量真机试验就能预测出操作策略会在哪些环境变化下失效——比 SOTA 的视觉-语言基线多挖出最多 23% 的独特漏洞。
- RoboOmni: Proactive Robot Manipulation in Omni-modal Context
-
RoboOmni 把语音、环境声音、视觉观察和机器人动作放进统一的 omni-modal LLM 框架中,让机器人能从没有显式命令的家庭上下文里主动推断用户意图、先用语音确认,再执行 7-DoF 操作动作。
- RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks
-
提出 RoboPARA 框架,通过依赖图构建和图重遍历两阶段优化双臂机器人的任务并行性,在多场景基准上实现相比现有方法 30-50% 的执行时间缩减和 34% 的成功率提升。
- RobotArena ∞: Scalable Robot Benchmarking via Real-to-Sim Translation
-
本文提出 RobotArena ∞,一个把真实机器人演示视频自动翻译成仿真数字孪生、再在其中部署 VLA 策略并用「VLM 进度分 + 众包人类成对偏好」双轨打分的可扩展评测框架,用 8500+ 对偏好比较了来自全球实验室的 6 个 VLA,揭示了当前策略跨数据集泛化弱、对扰动敏感的现实。
- Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations
-
RIGVid 让机器人仅靠"AI 生成的视频"完成倒水、扫垃圾等操作任务——给定语言指令和场景图,用视频扩散模型生成示范视频、用 VLM 过滤失败生成、再从视频里追踪物体的 6D 位姿轨迹并重定向到机械臂执行,全程不需要任何真实示范或机器人训练数据,效果与真人示范视频持平。
- Robust Finetuning of Vision-Language-Action Robot Policies via Parameter Merging
-
针对通用机器人策略在小样本微调时既丢失泛化能力又过拟合的问题,本文提出 RETAIN——直接在权重空间对微调前后的策略做线性插值,无需额外训练或推理开销,就能让单个策略既稳健完成新技能的各种变体(OOD),又保留预训练通用能力,真机 OOD 平均成功率比此前最好方法高约 40%。
- Rodrigues Network for Learning Robot Actions
-
本文把经典控制里的 Rodrigues 旋转公式改造成可学习算子(Neural Rodrigues Operator),再以它为核心搭出一套显式编码关节运动学结构的网络 RodriNet,在正向运动学拟合、运动预测、机械臂模仿学习和单图手部重建四类任务上都明显超过 MLP / GCN / Transformer 等通用骨干。
- RRNCO: Towards Real-World Routing with Neural Combinatorial Optimization
-
提出 RRNCO 架构,通过自适应节点嵌入(ANE)和神经自适应偏置(NAB)两大创新,首次在深度路由框架中联合建模非对称距离、时长和方向角,并构建了基于 100 个真实城市的 VRP 基准数据集,显著缩小了 NCO 方法从仿真到真实世界部署的差距。
- SARM: Stage-Aware Reward Modeling for Long Horizon Robot Manipulation
-
针对长程、接触密集的可变形物体操作(以叠 T 恤为例),本文提出 SARM——用自然语言子任务标注把"帧索引进度标签"换成"语义对齐的进度标签",训练一个"阶段估计 + 子任务进度估计"的双估计器奖励模型,再用它驱动奖励对齐的行为克隆(RA-BC)对示范做软筛选与重加权,最终在真实机器人上把叠 T 恤成功率从香草 BC 的 8%/0% 提到 83%/67%。
- Scalable Exploration for High-Dimensional Continuous Control via Value-Guided Flow
-
提出Qflex(Q-guided Flow Exploration)——在高维连续动作空间中实现可扩展探索的RL方法:从可学习源分布沿Q函数诱导的概率流传输动作→探索与任务相关梯度对齐(而非各向同性噪声)→在多种高维基准上超越高斯/扩散RL基线,成功控制700执行器的全身人体肌骨模型执行敏捷复杂动作。
- Scaling up Memory for Robotic Control via Experience Retrieval
-
MemER 把长程机器人任务里的“记住过去”拆给一个高层 VLM 来做:它从最近观测中提名任务相关关键帧、用轻量时间聚类压成稳定视觉记忆,再把当前子任务交给低层 VLA 执行,从而在三类真实长程操控任务上接近人类高层策略表现。
- Self-Improving Vision-Language-Action Models with Data Generation via Residual RL
-
本文提出 PLD(Probe-Learn-Distill) 三阶段后训练框架:冻结 VLA 主干、用轻量残差 RL 在基础策略失败的状态上"接管"练出专家,再用"先让基础策略走几步、再让残差专家接管"的混合 rollout 自动采集与部署分布对齐的恢复数据,最后用标准 SFT 蒸馏回基础模型;无需任何额外人类示教,就在 LIBERO 上逼近 99% 成功率、SimplerEnv 提升 50%+,真机 Franka/YAM 任务 100% 成功并连续自主运行 1 小时。
- Self-Refining Vision Language Model for Robotic Failure Detection and Reasoning
-
ARMOR把机器人失败理解拆成二分类检测和自然语言解释两个协同任务,用多轮自我 refinement、稀疏/稠密标签混合训练和基于熵的轨迹选择,在模拟和真实仓储机器人数据上同时提升失败检测准确率与解释质量。
- Sim2Real VLA: Zero-Shot Generalization of Synthesized Skills to Realistic Manipulation
-
Sim2Real-VLA 用“高层 affordance 链规划 + 低层 token 化动作执行”的双系统 VLA 架构,把纯仿真生成的操控技能零样本迁移到真实机器人上,在双臂、灵巧和长时程任务中显著缩小 Sim2Real gap。
- SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
-
SimpleVLA-RL 把 LLM 领域的 outcome-driven online RL 改造成适合 Vision-Language-Action 模型的闭环机器人训练框架,用交互式轨迹采样、二值成功奖励和探索增强的 GRPO,在 LIBERO、RoboTwin 与真实机器人任务上显著提升数据效率、泛化和长程操作成功率。
- SLAP: Shortcut Learning for Abstract Planning
-
SLAP 在已有 TAMP 技能(pick/place/move)诱导出的抽象规划图上,用无模型 RL 自动学一批"捷径选项"(如把障碍塔一掌拍开的 slap),让规划器在评测时把这些捷径当成新边来搜更短的路径,在四个仿真机器人环境中把执行长度砍掉 50% 以上,同时成功率全面超过纯规划与纯 RL。
- Sparse Imagination for Efficient Visual World Model Planning
-
提出 Sparse Imagination,在基于 ViT patch token 的世界模型规划中通过随机丢弃 token 和随机分组注意力训练实现大幅推理加速(50% 丢弃率可减少约 50% 规划时间),同时保持甚至在某些任务上超越全量 token 的规划性能。关键发现是简单随机丢弃优于复杂的 token 选择方法,原因是静态重要性排序在动态规划场景中存在"盲点问题"。
- Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model
-
Spatial Forcing 用预训练 3D 基础模型 VGGT 的几何 latent 来监督 VLA 的中间视觉 token,使机器人策略在推理时不额外输入深度图或点云,也能学到更强的空间理解,并在 LIBERO、RoboTwin 和真实机器人任务上提升成功率、收敛速度和数据效率。
- Spatially Guided Training for Vision-Language-Action Model
-
ST4VLA 通过先让 VLM 学会点、框、轨迹等空间先验,再在动作后训练阶段用空间提示把这些先验作为隐式规划条件注入 DiT 动作专家,显著缓解 VLA 训练中“会看但不会动”或“会动后忘了怎么看”的问题,并在 SimplerEnv、LIBERO、仿真大规模 pick-and-place 与真实机器人长程任务上取得更强泛化。
- SpikePingpong: Spike Vision-based Fast-Slow Pingpong Robot System
-
SpikePingpong 把脉冲相机(spike camera)的高频视觉接入「快慢双系统」感知框架——System 1 用普通 RGB-D 相机 + 物理模型快速预测落点、System 2 用脉冲相机训练一个神经校准器修正物理误差,再配合模仿学习的 IMPACT 模块控制击球落区,最终在真实 ABB 机械臂上实现 30cm 区域 92%、20cm 区域 70% 的回球命中率,远超人类平均水平。
- Statistical Guarantees for Offline Domain Randomization
-
将离线域随机化(ODR)形式化为参数化仿真器族上的最大似然估计问题,在温和的正则性和可辨识性假设下证明了弱一致性(依概率收敛),进一步添加均匀Lipschitz连续假设后证明了强一致性(几乎必然收敛),为ODR在sim-to-real迁移中的经验成功提供了首个理论基础。
- TaCo: A Benchmark for Lossless and Lossy Codecs of Heterogeneous Tactile Data
-
本文提出 TaCo——首个面向触觉数据编解码器的综合 benchmark,在 5 个异构触觉数据集、30 个编解码器、4 类下游任务上系统评测无损与有损压缩,并训练出首批纯触觉数据驱动的无损编解码器 TaCo-LL 与有损编解码器 TaCo-L,在全部任务上刷新 SOTA。
Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments
- Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration?
-
提出Theory of Space框架,通过文本和视觉双环境中的主动探索、认知地图探查和False Belief范式,系统性评估基础模型构建和修正空间信念的能力,揭示了当前SOTA模型在主动-被动性能差距、探索效率和信念修正方面的关键失败模式。
- Time Optimal Execution of Action Chunk Policies Beyond Demonstration Speed
-
针对模仿学习(含 VLA)策略执行速度被演示速度死死卡住的问题,本文提出 RACE:把"动作"重定义为期望状态、对每个动作块做可达性感知的时间最优重定时、再用测试时搜索挑选最平滑可控的未来块,在不掉成功率的前提下把执行速度提到演示的 2 倍、原策略的 4 倍。
- Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control
-
LIFT提出预训练-微调三阶段框架:(i) 大规模并行SAC预训练实现零样本部署;(ii) 基于拉格朗日动力学的物理先验世界模型离线预训练;(iii) 确定性动作执行+世界模型内随机探索的高效微调,在Booster T1和Unitree G1人形机器人上验证了从仿真到真实世界的全流程。
- TPRU: Advancing Temporal and Procedural Understanding in Large Multimodal Models
-
TPRU构建了大规模多图像时序理解数据集(24,750个QA对、126,000张图像),覆盖机器人操作、GUI导航等4个具身场景的3种互补任务(时序排序、下一帧预测、前帧回溯),并通过强化学习微调使7B模型在时序理解上超越GPT-4o。
- Translating Flow to Policy via Hindsight Online Imitation
-
HinFlow 让机器人在点流(point flow)高层规划器的引导下自己跟环境交互,把每条 rollout 里实际走出来的 flow 反过来当成目标重新标注,喂给目标条件模仿策略做在线训练,从而在仅有 1~5 条专家示范的情况下把成功率拉到 84%,比最强基线高 1.45×。
- TwinVLA: Data-Efficient Bimanual Manipulation with Twin Single-Arm Vision-Language-Action Models
-
提出TwinVLA——将两个预训练单臂VLA通过联合注意力和MoE组合为双臂VLA的模块化框架,仅需~800h公开单臂数据+50 episode双臂微调数据+25 H100 GPU-days,即可匹及使用10,900h私有数据+1,000+ GPU-days的π0性能水平。
- Uncertainty-Aware Gaussian Map for Vision-Language Navigation
-
这篇论文给视觉语言导航(VLN)智能体显式建模"看不清"这件事:在一张可微的语义高斯地图(SGM)上估计几何、语义、外观三类感知不确定性,把它们打包成一张统一的 3D 价值地图喂给决策网络,让 agent 在证据不足时不再硬猜,从而在 R2R / RxR / REVERIE 三个基准上稳定超过 SOTA。
- Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
-
UD-VLA 把"看图读指令 → 生成未来画面 → 推断动作"三件事压进同一条离散去噪轨迹(JD3P),让动作 token 在每一步去噪时都能反复"盯着"逐渐清晰的未来图像 token 来精修自己,在 CALVIN / LIBERO / SimplerEnv 上拿到 SOTA 的同时把推理速度提到自回归方法的 4 倍。
- UniVLA: Unified Vision-Language-Action Model
-
UniVLA 把视觉、语言、动作全部离散化成共享词表里的 token,用单个自回归 Transformer 交错建模观测-动作序列,并在微调前先用"世界模型"目标在 62 万条机器人视频上做无动作标注的后训练,从而在 CALVIN、LIBERO、SimplerEnv-Bridge 上全面刷新 SOTA(LIBERO 平均 95.5%,超过 π0-FAST 的 85.5%)。
- UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos
-
UrbanVerse是一个数据驱动的real-to-sim系统,将众包城市旅拍视频转化为物理感知的交互式仿真场景,包含10万+标注3D资产和自动场景构建流水线,在IsaacSim中生成160个高质量场景,训练的PPO导航策略在真实世界零样本转移中成功率达89.7%,完成337m长距离任务仅需2次人工干预。
- VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
-
VER 把多个视觉基础模型(DINOv2 / ViT / CLIP)蒸馏进一个 MoE 式的"视觉专家库",下游机器人任务只微调一个不到 0.4% 参数的轻量路由器来按 patch 动态挑选任务相关专家,配合课程式 Top-K 退火避免路由早期坍缩,在 17 个机器人任务、多种策略头上达到 SOTA。
- Verifier-Free Test-Time Sampling for Vision-Language-Action Models
-
本文提出 MG-Select:一个无需外部验证器、无需额外训练模块的 VLA 测试时缩放框架——并行采样 \(N\) 个候选动作,用「模型自己在掩码掉部分输入条件后产生的参考分布」与正常预测分布之间的 KL 散度作为置信度来做 Best-of-N 选择,在仿真与真机抓取放置任务上把基座 VLA 的成功率显著拉高(RoboCasa 30 演示样本下相对提升 168%)。
- villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models
-
villa-X 给"潜在动作"建模做了两处升级——用一个本体前向动力学模型(proprio-FDM)把潜在动作接地到机器人物理状态,再用"潜在专家 + 机器人专家"的联合扩散把潜在动作真正喂给低层控制,让模型在 SIMPLER 仿真和两套真机(夹爪 + 灵巧手)上都拿到 SOTA,并能零样本迁移到没见过的具身与开放词汇符号。
- ViPRA: Video Prediction for Robot Actions
-
ViPRA 把一个视频预测模型改造成机器人策略:先从大量"无动作标签"的人类/机器人视频里自监督学出运动中心的离散潜动作,再用视频-语言模型联合预测"未来画面 + 潜动作序列"做预训练,最后用一个分块流匹配解码器把潜动作映射成具体机器人的连续动作,仅靠 100–200 条遥操作示教就能实现最高 22 Hz 的平滑高频控制,SIMPLER 上比最强基线高 16%、真实任务高 13%。
- Virtual Community: An Open World for Humans, Robots, and Society
-
本文构建了 Virtual Community——一个基于 Genesis 物理引擎、用真实地理空间数据自动生成开放世界场景与智能体社群的具身多智能体仿真平台,让人形 avatar 与多种机器人在同一物理世界里共存交互,并配套提出"社区规划挑战"和"社区机器人挑战"两套基准来检验高层多智能体规划与底层物理协作能力。
- Vision-Language-Action Instruction Tuning: From Understanding to Manipulation
-
InstructVLA 提出"视觉-语言-动作指令微调(VLA-IT)"范式,用一个 VLM 同时承担多模态推理与潜动作规划、再交给流匹配动作专家解码动作,并通过混合专家(MoE)适配在动作训练中保住 VLM 的多模态能力,让推理直接反哺操作——在 SimplerEnv 上比 SpatialVLA 高 33%,在新基准 SimplerEnv-Instruct 上比微调版 OpenVLA 高 96%。
- Visual Planning: Let's Think Only with Images
-
提出Visual Planning——首个纯视觉推理范式:规划过程完全由图像序列表达(无文本中介),用Large Vision Model自回归生成逐步状态图像;引入VPRL两阶段RL框架(随机轨迹初始化探索+GRPO进度奖励优化),在FrozenLake/Maze/MiniBehavior三个导航任务上平均EM超越文本推理方法27%,证明"vision-first"任务中图像推理远优于文本推理。
- VITA: Vision-to-Action Flow Matching Policy
-
VITA 把流匹配策略的源分布从高斯噪声换成视觉表征本身,让流"从视觉直接流向动作",从而彻底去掉每一步去噪都要做的视觉 conditioning,在 ALOHA / Robomimic 等 14 个任务上推理快 1.5×–2×、显存省 18.6%–28.7%,成功率还能持平甚至超过 SOTA。
- VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision–Language Models
-
VITA 把冻结的对比式 VLM(CLIP)当作目标条件价值函数的底座,在推理时对一个轻量自适应模块按帧做梯度更新——更新规则本身是元学习出来的自监督损失,从而把轨迹历史隐式编码进参数里,让一个只在单一环境训练过的价值函数零样本泛化到全新任务、环境和机器人本体,并超过基于自回归 VLM 的 SOTA 方法 GVL。
- Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
-
本文构建了具身视觉-语言模型 Vlaser(基于 InternVL3,2B/8B 两档),用自建的 600 万规模 Vlaser-6M 数据集把"高层具身推理"与"底层机器人控制"拼到同一个底座里,并系统地回答了一个被长期忽略的问题——到底哪类预训练数据对下游 VLA 策略学习最有用,结论是"在线推理 benchmark 涨分不等于下游操作涨分,真正管用的是与机器人本体同观测域的 in-domain 数据"。
- VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation
-
提出VLBiMan框架,通过任务感知双臂分解将单次演示拆分为不变/可适应原子技能,利用VLM视觉-语言锚定在新场景中适应物体位置和实例变化,结合运动学感知的轨迹组合实现双臂协调——在10个复杂双臂任务上以1次演示达到85.3%成功率远超需上百次演示的模仿学习基线。
- VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models
-
本文搭了一个只加 <1% 参数的极简适配 pipeline(VLM4VLA),把 17 个通用 VLM 公平地转成 VLA 策略,系统研究"VLM 强不强是否决定 VLA 好不好",结论是:VLM 预训练是必要前提,但通用能力、甚至具身专项能力都难以预测下游控制表现,真正的瓶颈在视觉编码器。
- VLMgineer: Vision-Language Models as Robotic Toolsmiths
-
VLMgineer 把 VLM 的视觉-语言理解、代码生成和常识先验放进演化搜索循环中,自动为机器人任务共同设计 URDF 工具和离散动作轨迹,在 12 个工具使用任务、演化消融和真实 Franka 机器人验证中都显示出比人类提示、普通采样和现成工具更强的任务完成能力。
- When a Robot is More Capable than a Human: Learning from Constrained Demonstrators
-
这篇论文提出 Learning from Constrained Demonstrations (LfCD) 问题,并用 LfCD-GRIP 从受限人类示范中学习 state-only 的目标接近奖励,再通过置信度锚点和轨迹插值把奖励传播到示范外状态,使机器人能利用更大的动作空间走出比示范者更短、更快的轨迹。
- When would Vision-Proprioception Policies Fail in Robotic Manipulation?
-
揭示视觉-本体感觉操作策略在运动转换阶段(motion-transition phases)会失效的原因——本体感觉信号在优化中占主导导致视觉学习被抑制,并提出Gradient Adjustment with Phase-guidance (GAP)算法,通过自适应调低本体感觉梯度来恢复视觉模态的学习,在仿真和真实环境中均显著提升策略的泛化性。
- WholeBodyVLA: Towards Unified Latent VLA for Whole-Body Loco-Manipulation Control
-
WholeBodyVLA 让双足人形机器人第一次在大空间里端到端地完成「边走边操作」的任务:靠两个分开训练的潜在动作模型(LAM)从大量「无动作标签」的第一视角人类视频里学到行走+操作先验,再配一个专为 loco-manipulation 定制的离散指令 RL 底层控制器,在 AgiBot X2 上比之前的 baseline 平均成功率高 21.3%。
- WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
-
WMPO 把 VLA 策略的强化学习整个搬进一个像素空间的动作条件视频世界模型里"做梦",用世界模型想象出完整轨迹、轻量奖励模型判成败、再跑 on-policy GRPO,从而无需真机交互就显著提升样本效率,并涌现出自纠错行为。
- World-In-World: World Models in a Closed-Loop World
-
这篇论文提出 World-In-World——第一个把生成式世界模型放进闭环具身环境里评测的开放平台,用统一的"提议-模拟-修正"在线规划策略和统一动作 API 接入各种异构世界模型,以任务成功率而非画质作为主指标,并发现了三个反直觉结论:画质好不等于任务成功(可控性更重要)、用动作-观测数据后训练比换更强的预训练视频生成器更有效、增加推理时计算量能显著提升闭环表现。
- WorldGym: World Model as an Environment for Policy Evaluation
-
本文训练一个动作条件的自回归视频世界模型 WorldGym,把它当作"虚拟环境"让机器人策略在里面跑 rollout、用 VLM 打分,从而在真机部署前就估出策略成功率——实验证明世界模型里的成功率与真实世界成功率高度相关(Pearson r=0.78),且能保持不同版本/规模/训练步数策略之间的相对排名。
- X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
-
X-VLA 把每个机器人数据源的硬件与采集差异编码成一组可学习 soft prompt,并配合简洁的 Transformer + flow matching 动作生成框架,在大规模异构机器人数据预训练后实现强跨本体适配。