ICML2026 机器人/具身智能论文解读论文笔记多模态机器人扩散模型 Agent 推理对抗鲁棒

🤖 机器人/具身智能¶

🧪 ICML2026 · 53 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (146) · 🔬 ICLR2026 (162) · 💬 ACL2026 (11) · 🤖 AAAI2026 (30) · 🧠 NeurIPS2025 (75) · 📹 ICCV2025 (26)

🔥 高频主题： 多模态 ×21 · 机器人 ×8 · 扩散模型 ×6 · Agent ×4 · 推理 ×3

Contrastive Representation Regularization for Vision-Language-Action Models: 作者发现 VLA 模型里继承自 VLM 的表征被视觉外观主导、对机器人本体状态不敏感，提出 Robot State-aware Contrastive Loss（RS-CL）把本体感受状态之间的欧氏距离当作"软对比标签"重塑表征，并配合"view cutoff"的表征级增广，把 GR00T N1.5 在 RoboCasa-Kitchen 推到 69.7% SOTA，在真实 Franka 拾放任务上把成功率从 45.0% 抬到 58.3%。
Decompose and Recompose: Reasoning New Skills from Existing Abilities for Cross-Task Robotic Manipulation: 针对"训练任务到全新任务"的零样本机器人操作，作者把 demo 拆成"原子技能-动作对"作为中间表示，再用 dual-library（动态库按视觉/计划相似度检索 + 静态库按 IDF 加权补全缺失技能 token）给 LLM 提供 skill-comprehensive in-context demonstrations，从而把"模仿轨迹"升级为"组合技能推理"。
Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies: 本文把 VLA 的动作解码从自回归（AR）或外挂连续扩散头改成"在统一 Transformer 内部对离散动作 token 做掩码扩散"，配合按置信度自适应排序的并行解码和二次重掩码纠错，在 LIBERO 上达到 96.4% 平均成功率、SimplerEnv-Fractal 64.1% 总均分，且在 OOD 语言/视觉扰动下退化仅 0.8% / 20.4%，显著优于连续扩散和并行解码 baseline，同时保留了预训练 VLM 的多模态先验。
BEAR: Dissecting Embodied Abilities in Multimodal Language Models through Skill-level Evaluation and Diagnosis: BEAR 把具身任务拆成 14 个原子技能、构建 4,469 道图-视频-文交错的 VQA，对 20 个 MLLM 做技能级横纵向诊断，发现感知能力（而非推理）是真正瓶颈，并据此用 GroundingDINO、3D 场景图、轨迹可视化等外部视觉/空间工具拼出 BEAR-Agent，让 GPT-5 在该基准上相对提升 17.5%、在真实机器人抓取上提升 20.17%。
Dive into the Scene: Breaking the Perceptual Bottleneck in Vision-Language Decision Making via Focus Plan Generation: SceneDiver 通过"先建场景图做粗粒度子场景分解、再让 VLM 以智能体方式逐子场景验证"的两阶段焦点规划，把任务相关物体过滤出来再喂回 VLM 做决策，并用 Slot Attention 适配器把这套显式推理蒸馏进 VLA，从而同时缓解高层规划与反应式控制中的视觉幻觉。
DLO-Lab: Benchmarking Deformable Linear Object Manipulations with Differentiable Physics: DLO-Lab 在 Genesis 平台上用 Taichi 自研了一套以离散弹性杆（DER）为内核、支持双向耦合 + 弯曲塑性 + 闭环拓扑的可微仿真器，配套 10 个 rope/cable/橡皮筋 benchmark 任务和一个用 VLM 做"抓点提议 + 任务分解"的专门 agent，把 PPO/SAC/SHAC/SAPO/CMA-ES/GD 各路策略学习算法摆到统一擂台上 PK，并通过系统辨识做了真机 sim-to-real 验证。
Drift is a Sampling Error: SNR-Aware Power Distributions for Long-Horizon Robotic Planning: 本文提出 CAPS：把"指令漂移"重新解释为系统性采样误差，用 SNR（=\(\log|\mathcal{A}|-\mathcal{H}\)）作为元认知开关，仅在高熵"Pivotal Window"触发基于幂分布 \(\pi\propto p^\alpha\) 的 Metropolis-Hastings 迭代精修，在 RoboTwin、Simpler-WindowX、Libero-long 上 training-free 超越 OpenVLA 和 TACO。
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model: DUST 用一套"分流式"多模态扩散 Transformer（MMDiT）把动作流与未来视觉嵌入流并排走，靠共享 attention 做跨模态融合，再配独立噪声调度和动作-视觉异步采样，让 VLA 同时学会"做什么动作"和"动作会产生什么后果"，在 RoboCasa / GR-1 / Franka 真机上稳定刷过 GR00T-N1.5+FLARE。
Dual Advantage Fields: 本文观察到双线性目标条件价值模型 \(V_\theta(s,g)=\psi_\theta(s)^\top\phi_\theta(g)\) 中，目标嵌入 \(\phi_\theta(g)\) 恰好就是价值场对状态嵌入的梯度方向，于是用一个 "动作特征位移预测器" \(u_\xi(s,a)\approx\gamma\psi(s')-\psi(s)\) 与目标嵌入做内积，得到一个免学习 Q 网络的局部优势分数，在 OGBench 长程导航 + 操控 + 谜题任务上把 RLiable 聚合指标全面拉高。
Dual Quaternion SE(3) Synchronization with Recovery Guarantees: 本文用单位对偶四元数（UDQ）替代 \(4\times4\) 矩阵来参数化 SE(3) 同步问题，先用 Hermitian 对偶四元数矩阵的幂迭代算出谱初始化，再用每步逐元投影到 \(\mathrm{UDQ}^n\) 的广义幂法（DQGPM）做迭代精化，首次给出 SE(3) 同步的有限步线性收敛与显式误差界，并在多扫描点云配准上把旋转/平移误差和算法时间都打到了矩阵方法之下。
Efficient Skill Grounding via Code Refactoring with Small Language Models: RECENT 让机器人换一具身体（不同臂、不同夹爪）或换一个动态环境时，不再用大模型从零重写技能代码，而是把技能写成"语义意图与执行绑定分离"的可执行代码，再用一个 7B 小模型只对执行绑定那几行做局部重构（FIM 填空）——部署前用本体推理修身体差异、运行中用 in-situ 补丁修环境差异，从而在端侧用小模型就拿到接近 GPT-5.2-Codex 的成功率。
EMBGuard: Constructing Hazard-Aware Guardrails for Safe Planning in Embodied Agents: EmbGuard 把"具身 agent 的物理安全判断"从策略里剥离成独立的小模型 guardrail——输入 (观察图, 候选动作)，输出 (是否危险, 风险类别, 危险解释)；2B/4B 规模就追平 GPT-5.1/Gemini-2.5-Pro，并把 baseline 普遍存在的"动不动就 false positive"问题压下去。
Embodied Interpretability: Linking Causal Understanding to Generalization in Vision-Language-Action Models: 本文把「视觉—动作归因」重新表述为干预估计问题，提出 ISS（介入显著性分数）和 NMR（干扰物质量比）两个指标，用 Bernoulli 掩码 + 高斯模糊扰动 + Action MSE 代理 KL 散度的方式量化 VLA 策略到底依赖哪些视觉区域，并证明 NMR 与 OOD 任务成功率呈 \(r = -0.77\) 的强负相关——是预测 VLA 泛化能力的便宜诊断工具。
Embodied Task Planning via Graph-Informed Action Generation with Large Language Models: GiG 用"图中图"双层记忆（场景图 + 状态转移图）+ GNN 编码 + 1 步 lookahead 武装 LLM 规划器，让具身 agent 在 Robotouille 同步/异步以及 ALFWorld 上的 Pass@1 比 ReCAP 提高 6–37 个百分点。
Fourier Features Let Agents Learn High Precision Policies with Imitation Learning: 把点云的笛卡尔坐标先做一次 NeRF 式傅里叶特征映射再喂给点云编码器，就能消除点云策略网络"先学低频、学不动高频"的频谱偏差，让扩散模仿学习策略在 RoboCasa、ManiSkill3 和真机的高精度操作任务上成功率大幅提升（真机归一化分数 14.8% → 40.2%），且对各种编码器和超参都鲁棒。
From Abstraction to Instantiation: Learning Behavioral Representation for Vision-Language-Action Model: BehaviorVLA 用因果三流 Mamba 编码器 (VBE) 把长视野演示压缩成时间不变的"行为原型 \(z_{\text{proto}}\)"+ 时间变化的"相位状态 \(z_{\text{phase}}\)"，再用相位条件解码器 (PBD) 以 Predictor-Corrector 方式把行为骨架展开成相位对齐的高斯先验去引导流匹配策略，在 LIBERO/RoboTwin 2.0/CALVIN 三套基准刷新 SOTA，并且只用 50% 真机数据就追平 OpenVLA-OFT。
From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation: MoLA 用一组在大规模机器人数据上预训练好的"模态感知逆动力学模型 (IDM)"，把视频生成模型预测出的未来帧翻译成语义/深度/光流三路离散潜动作，再让策略头基于这些动作中心的表征做控制，从而在 CALVIN、LIBERO、LIBERO-Plus 以及真实 UR5e 上把"想象-执行"接口做得既稳又准。
Functional Cache Grafting: Robust and Rapid Code-Policy Synthesis for Embodied Agents: 针对"Code-as-Policies 给每条新指令都从头生成代码、既慢（重复 prefill 长 prompt）又脆（API 不匹配、缺安全检查）"的两大病，FCGraft 维护一个"函数级已验证代码骨架 + 对应 KV 缓存"的库，用 cache-stitching 把缓存函数的 KV 拼成新策略、用 cache-patching 只局部重生成出错片段，在 ALFRED/RLBench 等开放域任务上比 RAGCache 成功率高 18.31%、合成延迟降 2.3×。
SAFAG: 无对称性标注的可泛化可操作部件位姿估计: SAFAG 把 GAPart 6D 位姿估计拆成"候选四元数生成 + 切空间精修"的两阶段框架，并用自适应概率分布在 \(x,y,z\) 三轴上隐式学习对称轴/面，从而在完全没有对称性标注的情况下，把跨类别可操作部件的旋转误差从 5.51° 压到 3.23°。
HDFlow: Hierarchical Diffusion-Flow Planning for Long-horizon Tasks: HDFlow 用扩散模型生成稀疏战略子目标、用整流流生成稠密轨迹，再叠加能量引导和流形投影，构建一套快慢分工的双层规划器，把家具组装等长程稀疏奖励任务的成功率拉高 20~30 个百分点。
Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies: LP-DS 把冻结的扩散/流匹配策略当成黑盒解码器 \(\Phi(s,w)\)，只在它的初始噪声 \(w=\epsilon+\Delta_\theta(s)\) 上学一个状态条件残差，用 Lagrangian 信任域 \(\mathbb{E}_s[\|\Delta_\theta(s)\|_2^2]\le\delta\) 把扰动幅度卡住，从而在保留多模态先验的前提下做样本高效的在线 RL 微调，在 RoboMimic / Gym / Adroit / LIBERO 上比 DSRL 与 DPPO 更稳，回报最多 +25%。
LangForce: Bayesian Decomposition of Vision-Language-Action Models via Latent Action Queries: LangForce 把 VLA 策略写成 \(\pi(a\mid v,\ell)=p(\ell\mid a,v)\,p(a\mid v)/p(\ell\mid v)\) 这一贝叶斯分解，引入可学习的 Latent Action Queries 在同一套 VLM 权重上同时跑"只看视觉"和"视觉+语言"双分支，并通过最大化动作与指令的对数似然比来直接惩罚"视觉捷径"，在 SimplerEnv 上相对 QwenGR00T 基线提升 11.3 个绝对点。
Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models: LaRA-VLA 把 VLA 模型里的文本 CoT 和视觉 CoT 全部内化为连续 latent，通过三阶段 curriculum 训练（显式 CoT → latent 替换 → 动作专家适配）让推理留在 latent 空间里完成，推理延迟相比显式 CoT 降低高达 90%，控制频率重回实时区间。
LIMMT: Less is More for Motion Tracking: 本文从「数据中心」视角研究基于物理仿真的人形机器人运动跟踪，提出三阶段筛选框架 GQS（物理可行性过滤 → 语义运动嵌入 → 复杂度加权子集采样），证明只用不到 3% 的 AMASS 数据训练，跟踪性能反而超过用全量数据，且这套筛选可即插即用地迁移到 Any2Track、TWIST2 等多种跟踪器上。
ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics: 本文针对"视觉-语言操作研究几乎只覆盖刚性臂、忽视软体连续体臂"这一空白，构建了 ManiSoft 基准：用"Cosserat 杆软体动力学 + MuJoCo 刚体接触 + 弹性力约束耦合"的混合仿真器，定义 4 类反映软臂控制难点的任务，并通过"高层规则规划器 + 低层 RL 力矩执行器"自动生成 6300 个场景与专家轨迹，系统揭示 DP/RDT/OpenVLA-OFT 在干净场景下中等可解（30% 左右），在随机化场景下断崖式下跌（最高跌 29.4 个点），失败根因在于无法从视觉估计本体感知态、也不会利用软体可形变性绕障。
Mixture of Horizons in Action Chunking: 本文针对 VLA 模型中"动作块长度（horizon）选择"导致的"长视野规划 vs. 短视野精控"权衡问题，提出 Mixture of Horizons (MoH)：把同一条动作块拆成多个不同长度的子块，用共享的 action transformer 并行预测，再用 2k 参数的线性门控融合，配合负载均衡损失和"跨 horizon 共识"的动态推理，使 \(\pi_{0.5}\) 在 LIBERO 上首次达到 99% 平均成功率，并把吞吐量提高到基线的 2.5 倍。
Moving Out: Physically-grounded Human-AI Collaboration: 针对"现有人机协作 benchmark 都是离散/符号化、不考虑物理约束"的空白，本文造了一个基于 2D 刚体物理引擎、连续状态-动作空间的协作环境 Moving Out（两人合搬重物、绕墙角转向），并提出 BASS（行为增强 + 动态模拟 + 动作筛选）方法，让 AI 在面对没见过的人类行为和没见过的物体属性时仍能稳定配合，和真人合作时任务完成率几乎翻倍。
Neural Implicit Action Fields: From Discrete Waypoints to Continuous Functions for Vision-Language-Action Models: NIAF 把 VLA 模型的"动作块"从一串离散 waypoint 改成一个连续时间函数 \(\mathcal{A}(\tau)=\Phi(\tau;\theta)\)，让 MLLM 当 SIREN 的"分层频谱调制器"输出参数 \(\theta\)，从而获得 \(C^\infty\) 平滑轨迹、任意频率查询和解析可导的速度/加加速度信号，在 CALVIN/LIBERO 上刷 SOTA 并在真机阻抗控制上消除抖动。
Neural Low-Discrepancy Sequences: NeuroLDS 用一个把整数索引经正弦位置编码送入 MLP 的小网络，先回归 Sobol' 再用闭式 \(L_2\) 差异损失在所有前缀上微调，得到第一个支持任意长度、可扩展的神经低差异序列，在 4 维差异指标、Borehole 积分、RRT 运动规划与 Black–Scholes PDE 求解上全面优于 Sobol'/Halton。
Online Self-Training for Co-Adaptation in Hierarchical Diffusion Policies: ORCHID 用"自训练"（self-training）让分层扩散机器人策略在线自我改进：反复采样轨迹、用稀疏的环境成功信号过滤出"规划器和控制器同时成功"的轨迹，再监督蒸馏回高层规划器和低层控制器两端，从而把高层（HL）和低层（LL）双向协同对齐，让一个轻量初始很弱的模型在 CALVIN 上超过比它大一倍的 VLA。
Optimal and Scalable MAPF via Multi-Marginal Optimal Transport and Schrödinger Bridges: 本文把匿名多机器人路径规划（MAPF）证明为一类马尔可夫多边际最优传输（MMOT），从而把原本 \(K^{T+1}\) 维的传输张量压缩成多项式规模 LP（P1），并通过全单模性保证最优解整数性；再把它推广为 Schrödinger bridge 得到 Sinkhorn 风格 entropic 松弛 P2 产出"影子传输"，最后在影子上做剪枝并解 LP（P3）恢复整数解，在 \(K^{1.15}\) 复杂度下实现 3.6×–7.1× 加速、代价差距 <10%。
Plan in Sandbox, Navigate in Open Worlds: Learning Physics-Grounded Abstracted Experience for Embodied Navigation: 本文提出 SAGE：在物理约束的语义沙盒里自动合成大量导航任务+IF-THEN 经验规则，用混合提示采样 + 非对称自适应裁剪的 GRPO 把这些经验蒸馏进 VLM 策略，最终在 A-EQA 上把 LLM-Match 成功率从 43.5% 拉到 53.2%（2B）/ 60.2%（4B），并能迁移到真实室内机器人。
Position: Good Embodied Reward Models Need Bad Behavior Data: 一篇 position paper：作者用 RoboArena 真人评分实证了三类 SOTA 具身奖励模型（ReWind / GVL / Dopamine）会系统性"高估"实际失败的机器人行为，根因是训练数据几乎只有专家成功示范，并通过把真实"坏"行为视频 + 稠密负向奖励标签塞进 GVL 的 in-context 提示，证明哪怕极少量负样本就能显著修正偏好排序，从而呼吁社区主动收集和发布"坏"机器人数据。
PSG-Nav: Probabilistic Scene Graph Navigation via Multiverse Decision Making: 本文提出 PSG-Nav，用"保留完整类别分布的 3D 概率场景图 + 从联合分布采样多个一致世界做决策 + 用成功/失败记忆库做证据校准"三件套替代传统确定性场景图导航，在 HM3D / MP3D / HSSD 三大 ObjectNav 基准上分别达到 66.1% / 44.8% / 67.9% SR，是新的 SOTA。
R2R2: Robust Representation for Intensive Experience Reuse via Redundancy Reduction in Self-Predictive Learning: R2R2 把 VICReg 风格的冗余去除约束加进自预测学习（SPL）以稳定高 UTD 训练，但关键改动是不做零中心化——理论上证明 zero-centering 会消除 SPL 谱分解中的常数本征模（即全局动力学信息），实验在 TD7 上 UTD=20 时把分数从 1.02 提到 1.24（+22%），并以新提出的 SimbaV2-SPL 架构刷新连续控制 SOTA。
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies: RoboMME 首次把人类认知里的"时序/空间/物体/程序"四类记忆系统性映射到 16 个长时机器人操控任务（770k 高质量时间步），并在 π0.5 底座上系统消融 14 种"记忆表征 × 集成方式"，得出"感知记忆 + AdaLN 调制器"是当前最佳综合权衡的结论。
Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with Observation-Embedded Stochastic Differential Equation: BridgePolicy 把扩散策略里"观测只当条件、采样从随机噪声起步"的做法，改成用扩散桥（diffusion bridge）把观测直接嵌进前向 SDE 的终点，让动作采样从一个"观测信息丰富的先验"出发；再用一个语义对齐器把异构观测压成和动作同形的表示，从而在 52 个仿真任务和 5 个真机任务上稳定超过现有生成式策略。
SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models: SCALE 让自回归 VLA 在推理时用一个仅从输出 logits 算出的「自不确定性」分数，同时调制动作采样温度和视觉注意力温度——不确定就广撒网探索、确定就贪心聚焦，全程零额外训练、无 verifier、单次前向，就把多个 SOTA VLA 的成功率往上抬了一截。
Scaling by Diversified Experience for Vision-Language-Action Models: SyVLA 用"VLM + 流匹配动作专家 + Feature Query Token"的双系统架构做"先想后做"的机器人控制，并配上两味药——基于梯度范数掩码的意图解耦算法（把高层推理信息从控制意图里剥离）和相似样本引导的 RL（把专家样本优势固定为 1.0 稳住真机在线 RL）——在用不到 π0 5% 预训练数据的前提下，既拿下更高真机成功率与更强 OOD 泛化，又保住了原 VLM 的视觉-语言能力。
Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation: 针对 VLA（vision-language-action）模型在简单扰动下性能崩塌的问题，本文用"提取语义/几何条件 → 改写 caption → 条件视频扩散重渲染"的视频迁移流水线给仿真数据补上视觉与环境多样性，同时配以三段式 velocity caching 把生成时间砍掉 61% 以及 difficulty + diversity 双驱动的 coreset 采样仅选 10% 关键轨迹，最终在 Robotwin 2.0、LIBERO-Plus 和真机上让 RDT-1B / \(\pi_0\) 涨 5–15%。
Spatial Memory for Out-of-Vision Manipulation in Vision-Language-Action: SOMA 给 VLA 装上由可动头部相机扫描构建、可在线增量更新、可被指令检索的持久化空间-语义记忆，使机器人能稳定操控当前视野之外的物体，在 5 个真实 OOV 抓取任务上把首次注视时间、头部搜索路径、抓取次数都压缩 40-60%。
SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning: 作者发现 VLA 推理是 compute-bound 的，剪枝才是对的路子，且连续动作步之间视觉信息高度重叠 → 提出 SpecPrune-VLA：用上一步的全局注意力 + 本步早期层的局部注意力 + 帧差动态 token 三路融合做静态剪枝，再加层内动态剪枝和速度感知的粗/细粒度切换控制器，免训练地在 LIBERO 上拿到 1.57× / 真机 1.70× 加速且成功率几乎无损。
StableVLA: Towards Robust Vision-Language-Action Models without Extra Data: 针对 VLA 模型在视觉扰动下崩盘的问题，作者发现脆弱的根源在视觉到 LLM 之间的 MLP 投影器，于是用一个不到 10M 参数的"通道维度信息瓶颈适配器（IB-Adapter）"替换它，在不增加任何训练数据或增强策略的前提下让 0.5B 的 StableVLA 在 LIBERO 严重扰动下平均提升约 35%，并在真机抓放任务上比 14× 大的 OpenPi 还稳。
STEP: Warm-Started Visuomotor Policies with Spatiotemporal Consistency Prediction: STEP 给 diffusion policy 接了一个轻量的 "前一段历史动作 + 当前观测 → 下一段动作"的 Transformer 预测器, 用它的输出作为去噪起点 (warm-start), 把 100 步去噪压到 2 步, 又附带一个 "动作变化太小就注一点噪声"的执行死锁防御机制, 在 9 个仿真任务和 2 个真机任务上比 BRIDGER / DDIM 平均提 21.6% / 27.5% 成功率。
TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation: TapSampling 提出一个与策略无关、即插即用的推理时采样框架：先用 Action-VAE 从策略生成的少量动作里学一个低维后验、再高效地采出大量候选动作，再用"预测任务进度变化"的语义可解释 verifier 给候选动作打分并加权融合，在 CALVIN/LIBERO 和真机上无需微调原策略就能稳定提升 Diffusion Policy、OpenVLA、VPP、\(\pi_0\)、\(\pi_{0.5}\) 等多种通用机器人策略的成功率。
Test-Time Training for Visual Foresight Vision-Language-Action Models: 针对"先预测未来图像、再据此生成动作"的视觉前瞻 VLA（VF-VLA）在分布外（OOD）场景下双阶段同时失准的问题，本文提出 T3VF：把模型预测的未来图像与若干步后真实观测到的图像当作一对天然的自监督样本，在测试时只更新最小的视觉查询模块，并用"动作方差 + 自适应分位数缓冲"筛掉噪声步，在 LIBERO-Plus 上以约 1.3× 的推理开销把平均成功率提升约 5%（相对），且不改任何网络结构。
The Lie We Tell: Correcting the Euclidean Fallacy in Vision-Language-Action Policies via Score Matching on Tangent Space: Lie Diffuser Actor (LDA) 把扩散过程从把 SE(3) 位姿展平成 \(\mathbb{R}^{12}\) 的"欧氏谎言"修正回流形原生：通过左不变 SDE 在李代数 \(\mathfrak{se}(3)\) 中注入噪声、用指数映射回拉到流形、tangent-space 预测 score，理论上同时获得流形闭合、坐标系等变与测地线最优性，在 CALVIN ABC→D 上把平均任务长度从 3.27 推到 3.51。
Think Less, Act Early: Reinforced Latent Reasoning with Early Exit in Vision-Language-Action Models: 针对显式思维链（CoT）在 VLA 里又慢又会误差累积的问题，作者提出 AVA-VLA——把推理建模成一串看不见的隐变量、用强化学习给隐轨迹去噪、再用早退出机制按状态置信度自适应地决定想几步，在 LIBERO 上拿到 98.3% 平均成功率的同时比显式 CoT 推理快约 6 倍。
TimeRewarder: Learning Dense Reward from Passive Videos via Frame-wise Temporal Distance: TimeRewarder 把"任务进度"形式化为视频帧对之间的归一化时间距离，仅用动作无关的专家视频自监督训练一个 ViT 距离回归器，并将相邻帧距离作为稠密奖励喂给 DrQ-v2，在 10 个 Meta-World 任务上以 200K 交互逼近 9/10 满分，甚至超过手工设计的环境稠密奖励。
Towards Efficient and Expressive Offline RL via Flow-Anchored Noise-conditioned Q-Learning: 本文提出 FAN：把"昂贵的生成式策略 + 分布式 critic"压缩到"单步 flow 锚定 + 单噪声样本 critic"——用 Flow Anchoring 在一次 flow 评估内完成行为正则化，用 noise-conditioned critic 把 quantile 多样本替换成单 Gaussian 噪声样本，在 D4RL/OGBench 上做到 SOTA 性能同时训练比同类分布式方法快 5-14×。
DiBO: 用扩散语言模型做离线黑盒优化（DNA + 机器人形态）: DiBO 把扩散语言模型 LLaDA-8B 适配到离线黑盒优化场景，用 delimiter token 统一 prompt/design/label 三类异构信号，再走「域适应 → masked-response SFT → label-improvement RL」三段后训练，让模型能在 500 条标注样本下学到 Design-Bench 多个任务的 SOTA（DNA 任务上 +8% 归一化分），单 H100 1.5 小时就能跑完一个离散任务。
Turning Adaptation into Assets: Cross-Domain Bridging for Online Vision-Language Navigation: 针对在线视觉语言导航中环境分布不断漂移的问题，本文提出 IDEA 框架，把每次测试时自适应学到的 soft prompt 连同域坐标和不确定度封装为可复用"资产"，再用 Wasserstein 凸包投影把目标域映射到历史资产的组合上，得到一条免训练的跨域捷径，在 REVERIE / R2R 上平均 +2.5% SR、+1.9% SPL。
WestWorld: 知识编码的可扩展轨迹世界模型: WestWorld 用系统感知 MoE（Sys-MoE）+ 知识编码的结构嵌入，把多种异构机器人的轨迹动力学统一进一个可扩展世界模型：在 89 个仿真+真实环境上预训练后，零样本/少样本轨迹预测的 MAE/MSE 显著优于 MLP Ensemble、TDM、TrajWorld，并提升下游 MPPI 控制、成功部署到真实 Unitree Go1。