Learning Predictive Visuomotor Coordination¶

会议: CVPR 2026
arXiv: 2503.23300
代码: https://vjwq.github.io/VCR/ (项目页)
领域: 机器人 / 具身智能 / 第一人称视觉
关键词: 视觉-运动协调、第一人称视频、运动预测、扩散模型、头-眼-手协同

一句话总结¶

本文把"头部姿态 + 视线 + 上半身关节"统一成一个视觉-运动协调表征（VCR），用一个条件扩散模型从第一人称视频和运动历史预测未来 1 秒的协调运动，在 EgoExo4D 上做到平移误差 59 mm、头部旋转误差 13.2°，比 Diffusion Policy 等强基线全面更优。

研究背景与动机¶

领域现状：第一人称视觉里预测"佩戴者下一步要做什么"是 AR 眼镜助手、机器人模仿学习的核心能力，前人已经能从 egocentric 视频分别预测 ego-motion、视线（gaze）或手部轨迹。

现有痛点：这些工作几乎都只盯着单一模态——只预测视线、或只预测手部，把头、眼、手当作互相独立的信号处理。但人类的运动从来不是孤立的：神经科学发现人在做日常任务（如做三明治）时会依赖前几次注视存下的视觉记忆来规划接下来几秒的动作，头会先转、眼会先看、手才跟着伸过去，这是一套有预测性的协调控制系统。割裂建模就丢掉了这套耦合关系。

核心矛盾：要预测自然的人体动作，必须同时建模头-眼-手之间的时空依赖；但现有数据集长期缺少同步的 3D 头姿、视线、全身关节标注，导致这个"协调"问题无法被定量评测。

本文目标：(1) 把视觉-运动协调形式化成一个可量化评测的预测任务；(2) 设计一个能联合建模头、眼、上半身的生成框架。

切入角度：作者借助新出现的 EgoExo4D / Nymeria 数据集（含 3D 视线、头姿、身体关节标注），第一次有条件把"协调"当成一个整体来学。

核心 idea：用一个统一的视觉-运动协调表征把三类信号绑在一起，再用扩散模型在第一人称视觉条件下联合预测它们的未来轨迹——协调当作整体学，而不是拼三个独立预测器。

方法详解¶

整体框架¶

输入是过去一段时间（约 1 秒、10 fps）的视觉-运动状态序列 \(S_{t-\tau:t}\) 和对应的第一人称 RGB 视频片段 \(E_{t-\tau:t}\)（4 fps），输出是未来 \(\Delta\) 步的视觉-运动状态 \(\hat{S}_{t+1:t+\Delta}\)。整条管线分四步：先把头、眼、上半身定义成统一的 VCR 状态；再做"标准化"去掉绝对头部运动只留相对协调；然后把运动特征和视觉特征做双流跨注意力融合得到条件向量 \(\mathbf{c}\)；最后用一个以 \(\mathbf{c}\) 为条件的 DDPM 迭代去噪生成未来轨迹。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：运动序列<br/>+ 第一人称视频"] --> B["视觉-运动协调表征<br/>头姿 + 视线 + 上半身"]
    B --> C["状态标准化<br/>去绝对头动、对齐参考系"]
    C --> D["双流跨注意力融合<br/>头眼流 / 头眼臂流 + 视觉"]
    D -->|条件向量 c| E["扩散式预测<br/>DDPM 迭代去噪"]
    E --> F["输出：未来 1 秒<br/>头-眼-手协调轨迹"]

关键设计¶

1. 视觉-运动协调表征（VCR）：把头、眼、手绑成一个状态

针对"前人只建模单一模态、丢掉头-眼-手耦合"的痛点，作者定义一个联合状态 \(S=\{H,G,U\}\)。其中头姿 \(H=(\mathbf{p}_{head},\mathbf{R}_{head})\) 含位置 \(\mathbf{p}_{head}\in\mathbb{R}^3\) 和朝向 \(\mathbf{R}_{head}\in SO(3)\)，给运动提供空间参考系；视线用端点表示 \(\mathbf{g}=\mathbf{p}_{head}+\lambda\mathbf{d}_{gaze}\)（\(\mathbf{d}_{gaze}\) 是从头姿导出的单位视线方向、\(\lambda\) 控制射线长度），代表视觉注意与意图；上半身 \(U=\{\mathbf{j}_i\in\mathbb{R}^3\mid i=1,\dots,6\}\) 是肩、肘、腕六个关节，承载交互动作。作者刻意只取上半身而不要下半身——因为下半身运动更多被地形/外部约束决定，与内在视觉-运动协调关系弱，纳入反而引入噪声。这样这三类信号被放进同一个状态向量里联合预测，模型才能学到它们之间的协调，而不是各算各的

2. 视觉-运动状态标准化：剥掉绝对头动，只留相对协调

第一人称数据里头一直在动、视角一直在变，绝对坐标下同样的"伸手"动作会因为视角不同而长得完全不一样，模型很难学到稳定模式。作者以最后一个观测帧的头姿为基准做标准化：用变换 \(\Phi\) 把该帧头姿对齐到单位旋转 \(\mathbf{I}\)、平移到原点 \(\mathbf{0}\)，得到 \(H^c_t=\Phi(H_t)\)；同一个 \(\Phi\) 同步作用到视线端点和上半身关节（\(\mathbf{g}^c_t=\Phi(\mathbf{g}_t)\)、\(U^c_t=\Phi(U_t)\)），保证单帧内部空间关系不变。对时间维上的其它帧，先把它相对 \(S_t\) 变换再映射到标准系：\(S^c_i=T_{i\to t}(S_i)\circ S^c_t\)，让所有帧在统一参考系下对齐。这一步把"绝对头部运动"这个混淆因素消掉，只保留头-眼-手之间的相对协调，从而对视角变化更鲁棒、泛化更好

3. 双流跨注意力融合：让视觉有选择地注入运动特征

第一人称画面总能反映头和视线朝向，但因为遮挡和视野受限，它对全身协调的相关性是不确定的——直接把视觉强行融进所有运动特征会引入噪声。作者因此构造两条运动表征：一条只含头+眼 \(\mathbf{k}^{hg}_t=\text{Concat}(\mathbf{k}^{head}_t,\mathbf{k}^{gaze}_t)\)，捕捉视角和注意力动态；另一条再加上臂部 \(\mathbf{k}^{hga}_t=\text{Concat}(\mathbf{k}^{head}_t,\mathbf{k}^{gaze}_t,\mathbf{k}^{arm}_t)\)，含上半身运动线索。视觉嵌入 \(\mathbf{v}\in\mathbb{R}^{128}\) 由 3D ResNet 从视频提取，再分别对两条流做跨注意力 \(\mathbf{k}^{\prime hg}_t=\mathcal{A}(\mathbf{k}^{hg}_t,\mathbf{v},\mathbf{v})\)、\(\mathbf{k}^{\prime hga}_t=\mathcal{A}(f_{proj}(\mathbf{k}^{hga}_t),\mathbf{v},\mathbf{v})\)，最后相加 \(\mathbf{k}^{fused}_t=\mathbf{k}^{\prime hg}_t+\mathbf{k}^{\prime hga}_t\) 送进 Transformer 时序编码器 \(\mathcal{T}\)，展平成条件向量 \(\mathbf{c}\)。这种"头眼流稳、头眼臂流广"的分流设计，让模型在视觉可靠时充分用、在视觉模糊时仍能靠运动学撑住，避免单一融合被遮挡带偏

4. 扩散式视觉-运动预测：把预测当成条件去噪

作者沿用 Diffusion Policy 的思路把预测建成 DDPM 去噪过程。前向过程对未来真值状态逐步加高斯噪声 \(q(S_t|S_0)=\mathcal{N}(S_t;\sqrt{\bar\alpha_t}S_0,(1-\bar\alpha_t)\mathbf{I})\)；反向过程以条件向量 \(\mathbf{c}\) 为指引迭代去噪 \(p_\theta(S_{t-1}|S_t,\mathbf{c})=\mathcal{N}(S_{t-1};\mu_\theta(S_t,t,\mathbf{c}),\sigma_\theta^2\mathbf{I})\)，且 \(\mathbf{c}\) 在整个去噪过程中保持不变。相比直接回归一个确定轨迹，扩散框架天然能建模动作的多模态不确定性（同一情境下未来可能有多种合理走法），生成的轨迹更平滑、时序更连贯

损失函数 / 训练策略¶

训练用标准 DDPM 去噪损失 \(\mathcal{L}=\mathbb{E}_{S_0,t,\epsilon}[\|\epsilon-\epsilon_\theta(S_t,t,\mathbf{c})\|^2]\)，即预测加进去的噪声。视觉编码器用 Kinetics-400 预训练，Transformer 模块和扩散模型从零训练。PyTorch 实现，AdamW、学习率 \(5\times10^{-4}\)、训练 400 epoch、batch size 384，单张 H100 约 8 小时训完。

实验关键数据¶

数据集为 EgoExo4D，选取 Basketball / Cooking / Bike Fixing / Health 四类需要手眼协调的活动，共 23,372 训练样本、5,126 测试样本（约 15.8 小时）。评测指标含 PA-MPJPE（结构一致性，对齐刚体变换后的关节误差，mm）、Head/Gaze/Hand 位置误差（mm）、Head Rotation Error（HRE，度），均为越低越好，预测范围约 1 秒。

主实验¶

方法	PA-MPJPE↓	头部位置↓	视线位置↓	手部位置↓	头部旋转↓
Constant Pose（复制末帧）	68.3	184	193	274	16.7
Constant Velocity（线性外推）	109	161	201	436	18.5
Transformer Encoder + MLP	65.3	119	135	211	13.8
Diffusion Policy-CNN	64.1	112	132	208	13.9
本文 (Ours)	59	106	124	188	13.2

相对 Diffusion Policy-CNN，PA-MPJPE 改善 8.6%、头/视线误差分别降 5.7%/6.5%、头部旋转降 4.5%；相对 Transformer 基线 PA-MPJPE 改善 10.7%。手部位置是最难子任务，本文在这一项提升最大（274/208→188），说明统一表征确实抓住了头-眼-手协调。

消融实验¶

配置	头部位置	视线位置	手部位置	头部旋转	说明
Complete Visuomotor（完整）	106	124	188	13.2	全输入
w/o Head Rotation（输入也去）	111 (+4.7%)	130	195	—	去头部旋转
w/o Head Rot. & Gaze（输入也去）	112 (+5.7%)	—	196	—	再去视线
w/o Head（输入也去）	—	132 (+6.5%)	194	—	去全部头部信息
w/o Gaze（输入也去）	111	—	194	13.9 (+4.5%)	去视线
w Last Step Arm	113 (+6.6%)	141 (+5.2%)	199 (+5.9%)	13.7	只用末帧臂姿
w/o Egocentric Frame	111 (+4.7%)	130	193	14.1 (+6.0%)	去第一人称视觉

关键发现¶

头和视线信号是协调的关键：去掉头部旋转、再去视线，头/视线/手误差逐级上升（手部 188→196），说明头姿确实影响整体协调；去掉视线还会让头部旋转误差从 13.4 升到 13.9，证明视线在稳定头部朝向上有作用。
时序历史对手部预测最重要：只保留末帧臂姿（丢掉运动历史）时手部误差涨 5.9%，单帧缺少时序上下文撑不起上半身预测。
第一人称视觉主要稳头眼：去掉视觉后头部位置误差 +4.7%、头部旋转 +6.0%；但视线误差反而略降，说明缺视觉时模型转而更依赖运动学来估视线。结论是"运动历史帮手、视觉帮头眼"两类模态互补。
失败案例：篮球突然弹起这种只在最后一帧才看得到的快速意外运动，模型会按"常规接球"预测、错过突变轨迹——快速运动 + 遮挡是主要短板。

亮点与洞察¶

把神经科学的"协调"做成可量化任务：以往头/眼/手各做各的，本文用一个 VCR 状态把它们绑起来联合预测，并配上 PA-MPJPE/HRE 等指标，让"协调好不好"第一次能定量比较——这是设定本身的贡献。
标准化是低成本高回报的 trick：以末帧头姿为基准对齐整段序列，剥掉绝对头动这个混淆因素，几乎零参数却显著提升对视角变化的鲁棒性，可直接迁移到任何第一人称运动建模。
双流融合体现"视觉不总可靠"的工程直觉：把头眼流和头眼臂流分开做跨注意力再相加，等于给视觉一个"按需注入"的开关，对遮挡/视野受限的第一人称场景特别实用。
手部提升最大很有说服力：手部是最难、也最依赖头眼引导的部位，本文恰恰在这里赢最多，反向印证了"协调建模"而非"堆模态"才是收益来源。

局限与展望¶

作者承认在快速、意外、强遮挡场景下会失败（如突然弹起的篮球），细微线索不足以支撑精确协调；未来可引入显式接触建模或环境感知推理。
只建模上半身、刻意排除下半身，虽避开地形先验但也限制了在行走/全身任务上的适用性。
预测范围仅约 1 秒、且只在 EgoExo4D 选定的四类活动上评测，更长时程、更开放场景的泛化未验证。
与同期工作 EgoCast、EgoAgent 因任务定义/输入模态不同且无公开实现而未能直接对比，强基线主要是 Diffusion Policy 和 Transformer，横向比较的覆盖面有限。

评分¶

新颖性: ⭐⭐⭐⭐ 首个把头-眼-手协调统一成可量化预测任务并用扩散模型联合建模，任务设定本身有原创性。
实验充分度: ⭐⭐⭐⭐ 主实验 + 两类消融充分验证各模态贡献，但范围仅 1 秒、四类活动，缺与同期方法直接对比。
写作质量: ⭐⭐⭐⭐ 动机有神经科学支撑、方法分层清晰；部分公式表述偏密、个别表格数字（如正文称 Constant Velocity PA-MPJPE 264 与表中 109 不一致 ⚠️ 以原文为准）。
价值: ⭐⭐⭐⭐ 对 AR 助手、机器人从人类视频学习有直接价值，标准化与双流融合两个 trick 可复用。