DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes¶

一句话总结¶

DynamicScaler 提出了一个无需微调的统一框架，通过偏移移位去噪器（OSD）和全局运动引导（GMG）实现任意分辨率/宽高比的全景动态场景合成，支持常规全景和 360° 视野视频生成，同时保持恒定 VRAM 消耗。

研究背景与动机¶

沉浸式 AR/VR 应用对场景级和 360° 全景视频的需求日益增长，但现有视频扩散模型受限于固定分辨率和宽高比：

分辨率限制：大多数视频扩散模型只能生成固定分辨率（如 512×512）的短视频，无法直接生成超宽或超高分辨率全景
运动一致性难题：拼接式方法（如 MultiDiffusion、SyncDiffusion）使用重叠窗口，计算开销大且运动不一致
360° 全景特殊挑战：等距投影（ERP）的变形、曲线运动模式、以及左右边界需要无缝衔接
内存限制：高分辨率视频生成的 VRAM 消耗随分辨率增长，限制了实际应用
现有 360° 方法限制：360DVD 需要微调且分辨率低；4K4DGen 依赖优化过程且运动范围受限

核心问题：如何用固定分辨率的预训练视频扩散模型，无需微调地生成任意分辨率/宽高比的全景视频，同时保证运动一致性和空间连贯性？

方法详解¶

整体框架¶

DynamicScaler 采用两阶段生成策略：(1) 低分辨率阶段建立粗略运动结构（对 360° 场景使用全景投影去噪初始化）；(2) 上采样阶段通过 GMG 从低分辨率引导生成高分辨率全景。核心是 OSD 机制在每个去噪步中移位窗口位置，创建"跨步重叠"实现全局同步。

关键设计¶

1. 偏移移位去噪器（Offset Shifting Denoiser, OSD）¶

功能：将全景视频 latent 分割为多个窗口，每步移位窗口位置实现无缝去噪
核心思路：在每个去噪步中，将 \(W_p \times H_p\) 的全景 latent 分为 \(n_W \times n_H\) 个窗口送入固定分辨率的扩散模型去噪。关键创新是每步在水平和垂直方向偏移窗口位置，使得某一步的窗口边界在下一步被移位覆盖。水平方向上将全景视为环形——左右边界相连，窗口可跨越边界
设计动机：传统分块去噪在窗口边界产生接缝和不一致。显式重叠（如 MultiDiffusion）需要更多窗口导致计算翻倍。OSD 通过"跨步重叠"（不同步骤间的窗口偏移）实现隐式同步，不增加每步计算量，边界伪影在下一步被消除

2. 全局运动引导（Global Motion Guidance, GMG）¶

功能：确保高分辨率生成中的全局运动一致性
核心思路：将生成分解为全局布局和局部内容两个阶段——先在低分辨率生成视频捕获高层运动结构，再上采样+重新加噪作为高分辨率生成的初始化，引导内容布局和运动模式
设计动机：OSD 的同步效果需要足够的去噪步积累，在早期去噪步（决定整体布局的关键阶段）影响不足，导致不同区域可能产生分离的运动模式。GMG 通过层级化方法先确定全局运动，再用高分辨率细化局部细节

3. 全景投影去噪器 + 时序扩展¶

功能：将 OSD 扩展到 360° 球面全景和时间维度
核心思路：对 360° 全景，将等距投影映射回多个透视视口窗口去噪，再反投影回 ERP。视口的视角每步偏移，实现球面空间的 OSD。对长视频，在时间维度类似地分割帧窗口并偏移，帧序列视为环形可实现无缝循环视频。通过 mask \(M_d\) 追踪已去噪区域，对重叠区域进行噪声重平衡
设计动机：ERP 的变形使常规扩散模型直接在 ERP 空间去噪效果差。投影到透视视口后使用常规模型避免变形问题。时序扩展突破短视频限制（16帧→任意长度），环形机制支持循环播放

损失函数¶

DynamicScaler 是无训练（training-free）方法，不涉及训练损失。核心公式是 OSD 去噪过程：

\[Z_t = Con|_{1:n_W, 1:n_H}\left(\Phi_\theta(t, c, Split(Z_{t-1}, i, j, t, n_W, n_H))\right)\]

GMG 层级生成：

\[Z_{HR^0} = \Phi_\theta^{OSD}(noise(inter(\Phi_\theta^{OSD}(Z_{LR^T}))))\]

实验关键数据¶

主实验表¶

与 360DVD 定量比较（Tab. 1）：

指标	360DVD	DynamicScaler
CLIP-Score↑	0.293	0.302
Image Quality↑	0.436	0.583
Dynamic Degree↑	0.412	0.783
Motion Smoothness↑	0.917	0.963
Temporal Flickering↑	0.964	0.982
Scene↑	0.417	0.499
Q-Align(I)↑	0.485	0.632
Q-Align(V)↑	0.532	0.613

功能对比¶

特性	360DVD	4K4DGen	ScaleCrafter	VividDream	DynamicScaler
无需微调	✗	✗	✓	✗	✓
任意尺寸	✓	✗	✓	✓	✓
360° FoV	✓	✓	✗	✗	✓
文本条件	✓	✗	✓	✗	✓
图像条件	✗	✓	✗	✓	✓
无限视频	✗	✗	✗	✗	✓
循环生成	✗	✗	✗	✗	✓

关键发现¶

全面超越 360DVD：在所有 8 个指标上优于 360DVD，尤其动态程度（0.783 vs 0.412）和图像质量（0.583 vs 0.436）差距显著
恒定 VRAM：不论输出分辨率如何，VRAM 消耗保持恒定（每次只处理一个固定窗口）
功能最全面：是唯一同时支持无训练、任意尺寸、360°、文本/图像条件、长视频和循环生成的方法
视频长度从 16 帧扩展到 80+ 帧，质量保持一致

亮点与洞察¶

偏移移位的核心洞察：与其用重叠窗口增加计算量来消除接缝，不如在不同去噪步之间移位窗口位置，让"接缝"在下一步被覆盖。这是一个简洁却极其有效的设计
环形连接实现无缝：将全景 latent 水平视为环形使窗口可跨越左右边界，自然支持 360° 全景的连续性要求，也优雅地支持时序循环
无训练方案的优势：完全基于预训练视频扩散模型，可直接受益于模型升级（如从 SVD 升级到更好的基座模型），无需重新训练
层级化 GMG 设计合理：先低分辨率确定运动结构，再高分辨率细化，符合扩散模型"从粗到细"的生成机制

局限性与可改进方向¶

运动复杂度受限：依赖基座模型的运动生成能力，对复杂场景级运动（多物体交互）可能力不从心
高极角区域变形：360° 投影在极点附近窗口大量重叠，需要噪声重平衡可能引入额外伪影
缺乏更多定量评估：仅与 360DVD 做了定量比较，与更多 SOTA 方法的对比不足
文本语义控制精度：大宽幅全景的不同区域可能需要不同的文本控制，单一文本描述可能不够
没有评估用户交互需求，如对全景特定区域的局部编辑

评分：⭐⭐⭐⭐¶

核心 OSD 机制设计简洁高效，功能覆盖全面（同时支持 7 种能力），无训练方案实用性强。扣一星因为定量评估对比不够充分，且运动复杂度受基座模型限制。