Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents¶
会议: NeurIPS 2025
arXiv: 2502.01218
代码: https://actol-pretrain.github.io/
领域: 强化学习
关键词: 视觉语言预训练, 体化智能, 模仿学习, 时序一致性, 布朗桥
一句话总结¶
提出 AcTOL,通过视觉-语言排序损失和布朗桥约束来学习有序且连续的视觉-语言表征,无需刚性目标到达假设,在模拟和真实机器人操作任务上显著提升下游表现。
研究背景与动机¶
领域现状¶
领域现状:利用人类动作视频预训练视觉-语言表征以减少机器人专家演示依赖是一个有前景的方向。R3M、LIV、DecisionNCE 等方法使用时间对比学习
现有痛点:现有方法基于"目标到达"假设——假设视频中语言指令的语义与越靠后的帧对齐越好。但实际视频中动作可能提前终止或包含不相关后续内容,导致错误的视觉-语言关联
核心矛盾:真实人类动作视频标注粗糙、充满噪声,刚性假设不成立
核心 idea:利用视频内在的时间一致性,让表征满足有序性(时间更近的帧语义差异更小)和连续性(相邻帧的表征平滑过渡)
方法详解¶
关键设计¶
-
视觉-语言排序 (VLO) 损失:
- 核心思路:对锚帧 \(o_i\) 和任意帧对 \((o_j, o_k)\),定义语义对齐差分 \(\mathfrak{R}(\mathbf{v}_i, \mathbf{v}_j, \mathbf{l}) = -\|\text{sim}(\mathbf{v}_i, \mathbf{l}) - \text{sim}(\mathbf{v}_j, \mathbf{l})\|_2\)
- 负样本集合 \(\mathcal{N}_{i,j}\) 选择时间距离更远的帧,用 InfoNCE 风格损失对比
- 理论保证:当 \(\mathcal{L}_{VLO}\) 接近下界 \(\mathcal{L}^*\) 时,表征满足 VLO 性质
-
布朗桥约束:
- 将视频帧间隔建模为布朗桥过程:均值线性插值,方差中间最大
- 损失:\(\mathcal{L}_{BB} = \frac{1}{T}\sum_{t} \frac{1}{2\text{Var}[\mathbf{B}(t)]}\|\mathbf{v}_t - \mathbb{E}[\mathbf{B}(t)]\|^2\)
- 保证视觉表征局部平滑
-
语言鲁棒性:理论证明表征对语言扰动 \(\|\mathbf{l} - \mathbf{l}'\| \leq \delta_l\) 的语义对齐变化 \(\leq 2C\delta_l\)
实验关键数据¶
主实验 — 模拟环境成功率 (15 demos)¶
| 方法 | Franka Kitchen | Metaworld |
|---|---|---|
| CLIP | 27.47 | 60.33 |
| R3M | 42.20 | 56.50 |
| LIV | 42.73 | 64.33 |
| DecisionNCE | 43.20 | 59.08 |
| AcTOL w/o BB | 54.20 | 70.83 |
| AcTOL | 61.80 (+43%) | 74.13 (+15%) |
真实机器人 — Unitree D1¶
| 方法 | Pick Cup | Open Drawer | Close Drawer |
|---|---|---|---|
| DecisionNCE | 20% | 40% | 60% |
| AcTOL | 50% | 80% | 90% |
关键发现¶
- 布朗桥约束贡献显著(AcTOL vs w/o BB: +7.6% Franka Kitchen)
- AcTOL 在语言扰动下性能几乎不下降,而 LIV 下降 11.9%
- 少量 5 个演示时 AcTOL 甚至超过其他方法用 15-25 个演示的表现
亮点与洞察¶
- 不假设终帧是目标是关键创新——只用帧间的相对时间距离来约束表征,更鲁棒
- 布朗桥作为连续性正则化器的想法优雅:自然地将不确定性建模引入时间表征
局限与展望¶
- 对循环/重复动作(如搅拌)可能不适用,因为时间排序假设不成立
- 预训练数据集仅 EPIC-KITCHEN-100,未验证在更大数据集上的表现
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ VLO + 布朗桥的组合新颖且有理论保证
- 实验充分度: ⭐⭐⭐⭐⭐ 模拟+真实/鲁棒性/消融/微调全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 理论分析深入,实验设计精心
- 价值: ⭐⭐⭐⭐⭐ 显著推进了体化预训练的前沿