VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents¶

会议: CVPR 2026
论文: CVF Open Access
领域: 视频生成 / 具身智能 / 视频到视频迁移
关键词: 多视角 V2V、流模型、4D 点云、异质时间步、域随机化

一句话总结¶

VideoWeaver 把单视角的视频到视频（V2V）风格迁移扩展到多个同步相机，靠把 Pi3 预测的 4D 点云坐标注入流模型隐空间来统一各视角的外观，再用「各视角不同噪声时间步」的训练让模型同时学会联合分布和条件分布，从而能在保持机器人动作轨迹不变的前提下，对一整套多机位的具身演示视频做风格一致的批量重渲染。

研究背景与动机¶

领域现状：训练具身智能体（机器人策略）需要海量真实演示数据，采集昂贵。一个比直接用视频生成模型更「接地气」的做法是 V2V 迁移——给定深度图、草图（sketch）这类结构控制信号，把仿真或历史真实演示「重渲染」成新风格，同时保住底层的机器人动作轨迹不变，这正是策略训练里所谓的「域随机化（domain randomization）」。

现有痛点：所有已有的 V2V 方法（VACE、Cosmos-Transfer-1、ControlVideo 等）都只能一次处理单个视角。但现代机器人平台（机械臂、人形机器人）普遍用多个同步相机采集——左手腕、右手腕、头部、第一人称在手相机等。把单视角模型独立套到每路相机上，会出现各视角外观（颜色、纹理）不一致、3D 结构断裂的问题，对多视角数据增广毫无价值。

核心矛盾：要跨视角一致，最直接的想法是加 cross-view attention，但标准 transformer 的跨视角注意力是视角数的平方复杂度，超过 3-4 个相机就跑不动；而且机器人相机是异质且宽基线的——动态第一人称、静态头戴、静态第三人称往往重叠极少甚至不重叠，传统的极线/对应假设直接失效。作者实测发现，仅靠加 view-attention 层和相机射线嵌入（camera ray embedding）这类「拿来主义」的改造，根本撑不住跨视角风格一致（见 Tab. 2）。

切入角度与核心 idea：作者的关键观察是——与其在 2D 图像空间里硬维持一致性，不如保住背后那个共享的 3D 世界，时空一致性自然从中涌现。具体做法是用前馈式空间基座模型 Pi3 把所有视角的所有帧重建到一个统一的 4D（空间+视角+时间）坐标系，再把这套全局 4D 坐标注入流模型隐空间，让各视角共享同一份几何表征。配合「异质时间步训练」，模型还能自回归地在已生成视角之上扩出新视角，突破固定相机数的限制。

方法详解¶

整体框架¶

VideoWeaver 是一个基于流模型（rectified flow）的 DiT，分三阶段递进训练。先把一个文生视频基座模型微调成单视角 V2V 模型：在 3D VAE 隐空间里，用一个 patch 级 MoE 模块自适应融合深度和草图两路控制，加到带噪隐变量上去引导生成。然后扩到多视角：在每个 DiT block 里做「视角内 joint attention + 跨视角 attention」的因子化 4D 注意力，并把 Pi3 重建出的 4D 点云坐标注入隐空间，强行把各视角的隐特征拽到同一套几何上。最后用异质时间步训练——让不同视角处在不同扩散时间步——使模型既学会所有视角的联合分布，也学会「给定若干已生成视角、再补其余视角」的条件分布，从而在推理时自回归地把视角数从 3 扩到更多。输入是每路相机的 (sketch, depth) 序列 + 文本 prompt，输出是一套跨视角几何一致、且各自对齐自身控制信号的 RGB 视频。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：K 路<br/>深度 + 草图 + prompt"] --> B["patch 级 MoE<br/>融合深度与草图"]
    B --> C["流模型 DiT<br/>单视角 V2V 基座"]
    C --> D["Pi3 4D 点云注入<br/>统一各视角隐空间"]
    D --> E["异质时间步训练<br/>联合 + 条件分布"]
    E -->|视角数 > 3| F["自回归扩视角<br/>已生成视角作条件"]
    E -->|视角数 = 3| G["多视角一致<br/>风格化视频"]
    F --> G

整套生成建立在 rectified flow 之上：样本状态 \(x_\tau = (1-\tau)x_0 + \tau x_1\) 在时间步 \(\tau \in [0,1]\) 上从高斯噪声 \(x_0\) 线性插值到目标视频 \(x_1\)，模型学一个速度场 \(v_\theta\) 去对齐位移方向，损失为 \(L(\theta)=\mathbb{E}_{x,y,\tau}\lVert v_\theta(x_\tau,y,\tau)-(x-x_0)\rVert^2\)。下面的关键设计都挂在这个框架的不同节点上。

关键设计¶

1. patch 级 MoE 融合深度与草图：让每个时空块自己挑该信任哪路控制

单视角阶段要同时吃深度和草图两路控制，但这两路信号在 patch 粒度上是互补且不对称的：深度给出可靠的几何结构，却在细小/薄物体上失灵；草图给出稳定的形状轮廓，却在边缘重叠、前后景外观相近时含糊。以往做法（VideoComposer、Cosmos-Transfer-1）直接把两路相加或拼接，逼模型对两路信号一视同仁。VideoWeaver 改用一个 patch-wise MoE：两个轻量卷积专家 \(E_s(\cdot)\)、\(E_d(\cdot)\) 分别处理草图、深度隐特征，再用帧级多头交叉注意力交换互补信息；一个 gating 网络以当前隐状态 \(x_\tau\)、两路特征 \(f_d,f_s\) 和时间步 \(\tau\) 为条件，预测 patch 级混合权重 \(\alpha_\tau\)，融合控制信号为

\[c_\tau = \alpha_\tau \cdot E_s(f_s) + (1-\alpha_\tau)\cdot E_d(f_d).\]

\(c_\tau\) 加到带噪隐变量 \(x_\tau\) 上送入 DiT。这样模型能在每个时空位置、每个时间步动态决定信任哪路信号——实验里这正是它在杂乱实验室场景（深度歧义大）下仍能对齐的关键，而且因为训练时偶尔随机丢一路模态，推理时砍掉任一路模态都几乎不掉点。

2. Pi3 4D 点云注入：用共享几何取代 2D 跨视角注意力

多视角扩展时，作者先按 CameraCtrl 给每帧加相机射线嵌入、并在每个 joint attention 后插一层跨视角 attention，构成因子化 4D 注意力（视角内对 \(T\times H\times W\) 个 token 做注意力，再在每帧对 \(V\times H\times W\) 个跨视角空间 token 做注意力）。但作者发现这套「射线嵌入 + 跨视角注意力」的标配远不够：宽基线下小物体或部分可见物体很容易让跨视角注意力对错，射线嵌入只给出粗几何线索，各视角隐特征仍只是弱耦合，同一物体常被染成不同颜色。

解法是注入一个强 4D 先验。作者用前馈空间基座 Pi3（相比 VGGT 把所有预测锚到第一视角、不支持动态序列，Pi3 对视角是置换不变的、在单一仿射不变全局坐标系里重建所有观测）一次性回归出相机内参、位姿和逐像素稠密点云 \(\hat P_{k,t}\)：\(F_{\text{Pi3}}(x_{k,t}) \rightarrow (\hat K_k, \hat T_{k,t}, \hat p_{k,t})\)。由于点云已经和视频帧逐像素对齐，作者把每帧切成与 VAE 下采样因子匹配的 \(8\times 8\) patch，每个 patch 只保留离相机最近的那个点（深度感知池化，保住前景与接触区），时间上每 8 帧取 1 帧对齐隐变量步长，得到一个低分辨率 4D 网格，经轻量 MLP 后加性注入对应带噪隐变量。这等于给所有视角发了一张共享的「坐标地图」，几何一致性从 3D 世界本身涌现，而不是靠 2D 注意力硬猜——Met3R 在 Droid 上因此提升约 10%。

3. 异质时间步训练：一套权重同时学联合分布与条件分布，支撑自回归扩视角

模型默认只生成 3 个视角，且只估计了联合分布 \(p_\theta(x_1,x_2,x_3\mid y,c_1,c_2,c_3)\)，并没学到 \(p_\theta(x_3\mid y,c_3,x_1,x_2)\) 这种条件分布——而后者正是「在已生成视角之上再补一个视角」所必需的。作者的巧思是把多视角训练重新解释成噪声-时间步空间里的多任务：常规训练只走 \(\tau:(0,0,0)\to(1,1,1)\) 这一条「所有视角同步去噪」的路径，他们则偶尔把一个或多个视角冻结在时间步 1（即保持干净、当作已生成的条件），只对其余视角去噪，引入 \(\tau:(1,0,0)\to(1,1,1)\) 这类路径。第二阶段训练具体地：(1) 随机选一部分视角索引设为「已给定」、时间步置 1；(2) 给其余视角采一个公共时间步并加噪；(3) 对时间步为 1 的视角屏蔽 loss，使梯度不从带噪特征流向干净特征。推理时当 \(K>3\)，先生成标准 3 个视角，再用其子集 + 目标视角的 prompt 和控制，自回归地补出更多视角。这套设计让模型在固定 3 视角架构下突破了相机数上限。

4. 小波一致性损失 + 均匀时间步采样：补强早期时间步的全局结构

流模型通常过采样中段时间步，使得对建立场景布局至关重要的早期时间步曝光不足，多视角生成因此不稳。作者两处对症下药：其一改用均匀时间步采样——在有空间控制的 V2V 设定下早期去噪本就更容易，均匀采样能稳定多视角生成；其二加一个小波一致性损失，对预测隐变量 \(\hat x_1 = x_0 + v_\theta(x_\tau,y,c_\tau,\tau)\) 和真值视频各做 3D 小波变换，最小化二者系数距离，专门在早期时间步强化高频/几何对齐。此外训练数据刻意增大相机位姿多样性，缓解第一人称视角下常见的物体闪烁/消失。

损失函数 / 训练策略¶

基座是一个内部 11B 参数的文生视频模型（MMDiT 架构）。训练分三阶段递进：(i) 单视角微调适配 V2V；(ii) 多视角联合微调（所有视角同步生成）；(iii) 异质时间步多视角训练（学联合+条件分布）。每阶段全参数微调，AdamW，学习率 1e-4，8 张昇腾 910B（64GB）训练约一周。推理用线性 flow scheduler + 离散 Euler 解算器，30 步积分；生成 3 路同步、各 81 帧（480×640）的视频约需 10 分钟。

实验关键数据¶

数据集覆盖 Droid（140K，左/右/在手三视角，在手相机运动）、Agibot（75K，左手/右手/头部，两路运动）、Bridgev2（22K，仅单视角阶段）与 5K 内部数据。测试集含 310 个单视角样本与 90 个多视角样本。评估维度：对齐（Edge-F1↑、Depth-siRMSE↓）、质量（VBench↑、Dover↑）、真实感（JEDi↓），多视角额外用 Met3R↑ 量化跨视角一致性。

主实验（Tab. 1，对比单视角 SOTA V2V）¶

数据集	指标	Cosmos-Transfer1	VACE	Ours 单视角	Ours 多视角
Droid	Edge-F1↑ / Depth↓	0.277 / 0.460	0.121 / 0.511	0.359 / 0.362	0.376 / 0.347
Droid	JEDi↓	0.640	1.29	0.384	0.509
Agibot	Edge-F1↑ / Depth↓	0.323 / 0.364	0.122 / 0.389	0.373 / 0.468	0.378 / 0.394
Bridge	Edge-F1↑ / Depth↓	0.345 / 0.223	0.135 / 0.258	0.393 / 0.158	N/A
Bridge	JEDi↓	2.51	4.39	1.67	N/A

VideoWeaver 在对齐与真实感上全面领先（Edge-F1、Depth、JEDi 均最优），即便对手 VACE（14B）、Cosmos-Transfer-1（在更大 Physical-AI 数据上训）参数/数据更多。值得注意的是在 Droid/Agibot 上多视角变体反而比单视角更好——额外的跨视角一致性学习带来了正收益。短板是 Dover 和 VBench 美学分略低，作者归因于 VAE 在时间维 8 倍下采样带来的轻微模糊（代价是能训更长片段）。

多视角消融（Tab. 2，Met3R↑）¶

配置	Agibot Met3R↑	Droid Met3R↑
多视角基线（相机射线嵌入 + view attention）	0.597	0.481
+ 4D 点云注入	0.612	0.533
条件多视角 + 4D 点云（1 视角作条件）	0.624	0.578

单视角消融（Tab. 3，Bridge 测试集）¶

配置	Edge-F1↑	Depth↓	说明
仅草图 (Sketch-to-Video)	0.394	0.245	草图在机器人数据上更好
仅深度 (Depth-to-Video)	0.250	0.199	深度在杂乱场景易歧义
Ours with MoE	0.393	0.158	兼得两者优势
MoE - 推理丢深度	0.393	0.159	几乎不掉点
MoE - 推理丢草图	0.171	0.226	草图更关键，丢了掉得多

关键发现¶

几何先验 > 2D 注意力：把跨视角一致从「2D 注意力硬对」换成「4D 点云统一隐空间」，Met3R 在 Droid 上提升约 10%，定性上同一物体不再被染成不同颜色——这是全文最核心的增益来源。
异质时间步训练带来条件一致性：用 1 个视角作条件去生成另两个时，Met3R 进一步提升（Droid 0.533→0.578），说明模型真的学到了「在已生成视角上扩视角」的条件分布。
MoE 让模态可丢弃：推理时丢深度几乎不掉点（Depth-F1 0.393→0.393），丢草图则明显变差（Edge-F1 0.393→0.171）——既验证了草图在机器人数据上的主导地位，也说明 MoE + 随机丢模态训练带来了推理时的灵活性。

亮点与洞察¶

「保住 3D 世界而非 2D 一致」的视角很有迁移性：核心洞察是跨视角一致性应当从共享几何里涌现，而不是在像素空间里硬维持。把一个前馈 4D 重建模型（Pi3）当成通用条件骨干注入生成模型，这个套路可以迁移到多机位感知、4D 场景生成等任意「受益于多视角推理」的任务。
用时间步当「条件开关」很优雅：把「某视角已生成」编码成「该视角时间步=1（干净）」，于是联合分布和条件分布共享同一套权重、同一套架构，无需额外的条件分支或第二个模型，就解锁了自回归扩视角。这种「在噪声-时间步空间里设计多任务路径」的思路值得借鉴。
patch 级 MoE + 训练时随机丢模态带来推理时模态可插拔，对实际部署（某些场景只有深度或只有草图）非常实用。
深度感知池化点云：把逐像素稠密点云压到隐分辨率时，每个 patch 只留最近点而非平均，刻意保住前景与接触区——一个小但讲究的工程选择。

局限与展望¶

小物体仍有不一致：点云要下采样到隐分辨率，细小物体的跨视角一致性会受损，这是 4D 点云注入的精度上限。
帧数固定、无法长 rollout：虽然能自回归扩视角，但帧数固定，缺乏时间维的自回归机制，没法原生生成任意长序列。作者建议引入时间自条件（复用已生成帧作上下文）来扩展。
依赖 Pi3 的重建质量：整个一致性建立在 Pi3 对宽基线、动态相机、运动模糊场景的重建之上；这类稀疏视角 4D 重建本身是病态问题，Pi3 失准时一致性也会跟着退化（论文未量化这一敏感性）。
评测偏机器人操作场景，跨更广泛具身/环境的泛化虽在附录有展示，但主表未充分覆盖。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多模态多视角 V2V，「4D 点云统一隐空间 + 异质时间步学条件分布」两个 idea 都很有原创性。
实验充分度: ⭐⭐⭐⭐ 三大具身基准 + 多视角/单视角双消融 + 泛化测试，较扎实；但 Met3R 仅两数据集、Pi3 失准敏感性未量化。
写作质量: ⭐⭐⭐⭐ 动机与方法链条清晰，时间步路径的解释直观；公式与图配合到位。
价值: ⭐⭐⭐⭐⭐ 直击具身策略训练的多机位数据增广刚需，且 4D 条件骨干思路可迁移到更广的多视角生成任务。