Generative View Stitching¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fpQpQbFPCU
代码: https://andrewsonga.github.io/gvs/（项目主页，含视频结果）
领域: 视频生成 / 相机引导长视频 / 扩散采样
关键词: 视频扩散, 相机引导, 扩散拼接 (Diffusion Stitching), Diffusion Forcing, 闭环一致性, 免训练采样

一句话总结¶

GVS 把"机器人规划里的扩散拼接"搬到视频生成上：用一个免训练的并行采样算法，让任意 Diffusion Forcing 视频模型沿预定义相机轨迹生成长视频，同时让当前帧能"看到未来"，从而避免撞墙、保持一致并闭合回环。

研究背景与动机¶

领域现状：视频扩散模型一般只能生成 5–10 秒短片，要生成更长视频通常靠把短窗口模型"自回归滚动"（autoregressive, AR）地往后续写，配合 history guidance、检索增强等技巧可以做到几百帧稳定、与过去一致，甚至实时交互。

现有痛点：AR 采样有个根本缺陷——它只能看过去、看不到未来。当任务是"沿一条预定义相机轨迹拍一段长视频"（离线、需要高层规划的场景，如一镜到底的运镜、自动驾驶合成数据）时，AR 模型会先生成一堵墙、随后又被轨迹逼着"穿墙而过"，画面立刻 out-of-distribution、自回归迅速崩溃（exposure bias）。

核心矛盾：要避免撞墙，当前帧的生成必须以未来的相机条件为约束；但现成视频模型和 AR 采样都不提供"以未来为条件"的机制。已有的扩散拼接（diffusion stitching）方法虽然能并行生成整段序列、原则上能看未来，却要么（StochSync）缺乏视频所需的时序一致性、要么（CompDiffuser）需要专门训练一个带特殊条件通路的定制模型——给视频重训代价无法接受。

本文目标：做出第一个面向相机引导视频生成的扩散拼接方法，要求免训练、即插即用于任意现成模型，并且稳定、无碰撞、帧间一致、能闭环。

核心 idea：关键观察标签 —— 广泛使用的 Diffusion Forcing (DF) 训练框架（每个 token 独立加噪、采样时可选择性地用噪声 mask 部分上下文）天生就具备拼接所需的全部能力，无需任何定制架构。在此之上叠加 Omni Guidance（同时强化对过去和未来的条件）与循环条件 (cyclic conditioning) 闭环机制，就能把免训练拼接做成稳定的长视频生成。

方法详解¶

整体框架¶

GVS 把目标长视频切成若干不重叠、长度短于上下文窗口的 chunk，然后对每个目标 chunk 连同它的相邻 chunk 一起送进 DF 模型联合去噪——这样目标 chunk 就同时被"过去邻居"和"未来邻居"约束；每步只保留去噪后的目标 chunk 用来更新被拼接序列，邻居 chunk 用完即弃。在这个并行采样骨架上，再用 Omni Guidance 修正条件强度、用部分随机性抑制过平滑、用循环条件实现回环闭合。

flowchart LR
    A[预定义相机轨迹 p] --> B[切成 T 个不重叠 chunk<br/>每个短于上下文窗口]
    B --> C{每个目标 chunk x_t}
    C --> D[与邻居 x_t-1, x_t+1 拼成一个窗口<br/>送 DF 模型联合去噪]
    D --> E[Omni Guidance<br/>强化过去+未来条件]
    E --> F[部分随机性 η√1-α<br/>抑制过平滑]
    F --> G[只保留去噪后的 x_t<br/>邻居 chunk 丢弃]
    G --> H[更新被拼接的噪声序列]
    H --> I[循环条件: 交替<br/>时间窗口 / 空间窗口]
    I --> J[稳定 / 无碰撞 / 一致 / 闭环长视频]

关键设计¶

1. 用 Diffusion Forcing 实现免训练拼接：把"未来条件"做成同一输入序列里的联合去噪。 CompDiffuser 把视频的轨迹分布写成只依赖时序邻居的组合分布 \(p_\theta(x|x_{\text{start}},x_{\text{goal}}) \propto \prod_t p_t(x_t|x_{t-1},x_{t+1})\)，但它必须训练一个定制网络 \(\epsilon_\theta(x_t^k,k|x_{t-1}^k,x_{t+1}^k)\)，通过特殊编码器 + AdaLN 把"共同演化的噪声邻居 chunk"作为单独条件注入——这条特殊路径正是不能套用到现成模型的原因。GVS 的关键转念是：DF 模型本来就支持"每个 token 独立噪声等级、可对一部分上下文加噪 mask"，所以根本不用单独的条件通路，直接把目标 chunk 与邻居拼成一个序列 \([x_{t-1}^k, x_t^k, x_{t+1}^k]\) 喂进去联合去噪即可，输出里只拿目标 chunk \(x_t^{k-1}\) 去更新被拼接序列、把邻居 \(x_{t-1}^{k-1}, x_{t+1}^{k-1}\) 丢掉。这版"vanilla GVS"实现极简、兼容任意 DF 视频模型，对应的组合分布为 \(p_\theta(x|p) \propto \prod_{t=0}^{T-1} p_t(x_t|x_{t-1},x_{t+1},p_{t-1},p_t,p_{t+1})\)。

2. Omni Guidance：修正"目标与邻居一样噪"导致的弱条件。 vanilla GVS 一致性差，根因是它用的是联合分布 \(p(x_{t-1},x_t,x_{t+1})\) 的 score，而非本意的条件分布 \(p(x_t|x_{t-1},x_{t+1})\)；AR 采样里"过去上下文比目标干净得多"，而拼接里目标 chunk 和它的邻居一样噪，条件信号因此很弱。Omni Guidance 借鉴 Inner Guidance，直接把采样分布往"与邻居及相机轨迹一致"的方向掰，引入两个引导尺度 \(\gamma_1\)（对相机轨迹的依从）和 \(\gamma_2\)（与时序邻居的一致），并在实践中合并为单一 \(\gamma\)，把 score 改成 \(\tilde\epsilon_\theta = (1+\gamma)\,\epsilon_\theta(x_{t-1:t+1}^k|p_{t-1:t+1}) - \gamma\,\epsilon_\theta(\varnothing, x_t^k, \varnothing|\varnothing,\varnothing,\varnothing)\)。其中无条件项靠"把邻居 chunk 换成纯高斯噪声、噪声等级设为最大"来算——这一步完全是 DF backbone 白送的能力，可看作 Fractional History Guidance 的推广（区别在于邻居 chunk 的噪声等级在拼接过程中是动态变化的，而历史引导里是固定的）。

3. 部分随机性：在"一致"与"过平滑"之间找平衡。 先前工作 StochSync 提出用最大随机性 \(\sigma_k = \sqrt{1-\alpha_{k-1}}\) 当作纠错机制（消掉预测噪声项、把随机噪声项拉满）来增强一致性。GVS 发现它确实能提升时序一致性，但会把画面"洗平"（oversmoothing），细节丢失。配合 Omni Guidance 后，GVS 可以改用部分随机性 \(\sigma_k = \eta\sqrt{1-\alpha_{k-1}},\ \eta \in (0,1)\)（实践取 \(\eta=0.9\)），两者协同既保住一致性又显著减轻过平滑。

4. 循环条件实现闭环：给"空间近、时间远"的 chunk 补一组上下文窗口。 理论上拼接每步会让感受野不断扩张、最终覆盖全局（类似 CNN 深度方向感受野增长），按理能零样本闭环；但实际很长的生成并不会"视觉上回到原地"，信息没传得够远。GVS 于是在组合分布里额外加因子：对每个目标 chunk 再denoise一组"时间上很远但空间上很近"的邻居窗口（spatial window），与原来的"时间邻居窗口"（temporal window）逐去噪步交替使用——这一过程称为循环条件。如此一来目标 chunk 在整个去噪过程中同时被时序邻居和空间邻居约束，最终成功闭合回环（包括能画出 Reutersvärd 的"不可能阶梯"）；没有空间邻居的 chunk 则只用时间窗口。

实验关键数据¶

设置：所有方法都用 Song et al. (2025) 开源的同一个相机条件视频模型（在 RealEstate10K 上训练的 Diffusion-Forcing Transformer，8 帧上下文窗口）。基准包含 Panorama / Circle / Straight line / Stairs / Staircase circuit 等专门设计来考验长度外推、闭环、避碰的轨迹。指标：F2FC（帧间一致性，↓）、LRC（长程/闭环一致性，↓）、IQ/AQ（VBench 画质，↑）、CA（碰撞率，↓），均为 40 次生成的平均。

主实验表格（与基线对比，节选）¶

轨迹	方法	F2FC↓	LRC↓	IQ↑	CA↓
Panorama 1-loop	Autoregressive	0.168	0.339	0.458	N/A
	StochSync	0.183	0.164	0.515	N/A
	GVS (Ours)	0.138	0.141	0.537	N/A
Circle 1-loop	Autoregressive	0.220	0.411	0.432	0.625
	StochSync	0.204	0.258	0.546	0
	GVS (Ours)	0.160	0.244	0.546	0
Straight line	Autoregressive	0.138	N/A	0.456	0.325
	StochSync	0.124	N/A	0.544	0
	GVS (Ours)	0.080	N/A	0.615	0
Staircase circuit	Autoregressive	0.132	0.449	0.397	0.625
	StochSync	0.179	0.221	0.563	0
	GVS (Ours)	0.129	0.176	0.607	0

GVS 在帧间一致性、长程一致性、避碰三项上全面领先，画质相当。StochSync 虽然碰撞率也是 0，但它是靠"让场景变形 (shape-shifting)"换来的，反映在它差得多的 F2FC 上。

消融实验表格（Omni Guidance × 随机性 η，Straight line）¶

η	无 Omni Guidance F2FC↓ / IQ↑	有 Omni Guidance F2FC↓ / IQ↑
0	0.153 / 0.537	0.138 / 0.553
0.5	0.124 / 0.499	0.110 / 0.556
0.9	0.084 / 0.458	0.080 / 0.615
1.0	0.061 / 0.422	0.071 / 0.610

关键发现¶

随机性单独用是把双刃剑：不加 Omni Guidance 时，提升 η 一致地改善 F2FC，但 IQ/AQ/IS 全面下滑（过平滑）。
Omni Guidance 解耦了"一致"和"画质"：加上后，在大范围 η 上都能提升一致性，让 η=0.9 这种"高一致 + 不过平滑"的甜点变得可用（IQ 从 0.458 升到 0.615）。
闭环必须显式做：另一组消融显示，仅靠 Omni Guidance、不开循环条件时 LRC 高达 0.95 左右（回环失败），说明"理论全局感受野"在实践里并不自动闭环，循环条件不可或缺。

亮点与洞察¶

"未来条件"这一缺口被点得很准：把 AR 视频生成的失败归因为"看不到未来 → 撞墙 → exposure bias 崩溃"，并用并行拼接从根上解决，问题定义清晰。
免训练 + 即插即用：只改采样、不改架构/训练，能直接 piggy-back 在任意 DF backbone 上，未来更长上下文的模型一出现就能被 GVS 进一步外推。
把规划领域的工具迁移到视频：本质是把机器人规划里的 diffusion stitching（CompDiffuser/StochSync）成功移植，并指出 DF 自带拼接 affordance 这一非平凡观察。
"不可能阶梯"是很有说服力的 demo：能闭合 Penrose 不可能阶梯回路，直观证明了全局一致 + 闭环能力。

局限与展望¶

依赖 DF 类 backbone：方法的核心 affordance（独立 token 噪声、可对部分上下文加噪 mask）来自 Diffusion Forcing，对非 DF 训练的视频模型不直接适用。
采样成本：每个目标 chunk 要联合去噪邻居、循环条件还要额外去噪空间窗口，并行拼接的算力/显存开销高于朴素 AR，论文未深入讨论实时性。
空间窗口需要先验：循环条件依赖"哪些 chunk 空间近"的信息（基于相机视场重叠），对相机位姿未知/无预定义轨迹的开放生成不直接适用。
画质受限于 backbone：评测都基于 8 帧窗口的 RealEstate10K 模型，分辨率/场景多样性受限；在更强 backbone 上的表现待验证。
展望：与更长上下文模型、3D 先验在线规划结合，或扩展到非相机引导的其他"未来条件"（如目标帧、文本剧本）任务。

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向相机引导视频生成的免训练扩散拼接方法，"DF 自带拼接能力"是非平凡观察，Omni Guidance + 循环条件设计巧妙。
实验充分度: ⭐⭐⭐⭐ 多类挑战轨迹 + 两个强基线 + 系统消融（Omni Guidance × 随机性 × 闭环），指标覆盖一致性/避碰/画质；但仅在单一 8 帧 backbone 上验证，缺成本与更大模型分析。
写作质量: ⭐⭐⭐⭐ 问题动机（撞墙/exposure bias）讲得清楚，方法循序渐进（vanilla→随机性→Omni Guidance→闭环），图示充分。
价值: ⭐⭐⭐⭐ 即插即用、能 piggy-back 未来更强模型，对一镜到底运镜、自动驾驶合成数据等离线高层规划任务有实际意义。