Provable Ordering and Continuity in Vision-Language Pretraining for Generalizable Embodied Agents¶

会议: NeurIPS 2025
arXiv: 2502.01218
代码: https://actol-pretrain.github.io/
领域: 强化学习
关键词: 视觉语言预训练, 体化智能, 模仿学习, 时序一致性, 布朗桥

一句话总结¶

提出 AcTOL，通过视觉-语言排序损失和布朗桥约束来学习有序且连续的视觉-语言表征，无需刚性目标到达假设，在模拟和真实机器人操作任务上显著提升下游表现。

领域现状：利用人类动作视频预训练视觉-语言表征以减少机器人专家演示依赖是一个有前景的方向。R3M、LIV、DecisionNCE 等方法使用时间对比学习

现有痛点：现有方法基于"目标到达"假设——假设视频中语言指令的语义与越靠后的帧对齐越好。但实际视频中动作可能提前终止或包含不相关后续内容，导致错误的视觉-语言关联

核心矛盾：真实人类动作视频标注粗糙、充满噪声，刚性假设不成立

核心 idea：利用视频内在的时间一致性，让表征满足有序性（时间更近的帧语义差异更小）和连续性（相邻帧的表征平滑过渡）

视觉-语言排序 (VLO) 损失：
- 核心思路：对锚帧 \(o_i\) 和任意帧对 \((o_j, o_k)\)，定义语义对齐差分 \(\mathfrak{R}(\mathbf{v}_i, \mathbf{v}_j, \mathbf{l}) = -\|\text{sim}(\mathbf{v}_i, \mathbf{l}) - \text{sim}(\mathbf{v}_j, \mathbf{l})\|_2\)
- 负样本集合 \(\mathcal{N}_{i,j}\) 选择时间距离更远的帧，用 InfoNCE 风格损失对比
- 理论保证：当 \(\mathcal{L}_{VLO}\) 接近下界 \(\mathcal{L}^*\) 时，表征满足 VLO 性质
布朗桥约束：
- 将视频帧间隔建模为布朗桥过程：均值线性插值，方差中间最大
- 损失：\(\mathcal{L}_{BB} = \frac{1}{T}\sum_{t} \frac{1}{2\text{Var}[\mathbf{B}(t)]}\|\mathbf{v}_t - \mathbb{E}[\mathbf{B}(t)]\|^2\)
- 保证视觉表征局部平滑
语言鲁棒性：理论证明表征对语言扰动 \(\|\mathbf{l} - \mathbf{l}'\| \leq \delta_l\) 的语义对齐变化 \(\leq 2C\delta_l\)

方法	Pick Cup	Open Drawer	Close Drawer
DecisionNCE	20%	40%	60%
AcTOL	50%	80%	90%