🎬 视频生成¶

🧪 ICML2026 · 32 篇论文解读

📌 同领域跨会议浏览： 📷 CVPR2026 (182) · 🔬 ICLR2026 (97) · 💬 ACL2026 (4) · 🤖 AAAI2026 (11) · 🧠 NeurIPS2025 (23) · 📹 ICCV2025 (49)

🔥 高频主题： 视频生成 ×15 · 扩散模型 ×6 · 模型压缩 ×2

AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation: AAD-1 用“因果生成器 + 双向视频级判别器”的非对称对抗蒸馏和 DMD warmup，把自回归 image-to-video 生成压缩到每个 chunk 只需一步采样，同时缓解 motion collapse 和长程漂移。
Attention Sparsity is Input-Stable: Training-Free Sparse Attention for Video Generation via Offline Sparsity Profiling and Online QK Co-Clustering: SVOO 发现视频 DiT 每一层的注意力稀疏度是「层内输入无关、层间显著异质」的内在属性，据此先做离线分层稀疏度标定、再做在线 QK 双向协同聚类划块，免训练地在 Wan/HunyuanVideo 等 7 个模型上把 PSNR 维持 29 dB 的同时实现最高 1.93× 加速。
Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops: CHIEF 把创作者放在视频生成迭代循环的中心，用"人格化的多模态 LLM 观众智能体"自动给生成视频写主观影评、再由翻译器把杂乱反馈结构化成可执行的提示词改动，让没有任何拍片经验的中学生也能从 1 分钟短片做到一部 10 分钟有完整剧情的短片。
CamGeo: Sparse Camera-Conditioned Image-to-Video Generation with 3D Geometry Prior: CamGeo 通过训练专用蒸馏（training-only distillation）从预训练 3D 视频模型（VGGT）蒸馏 3D 几何知识——仅在训练阶段提供监督信号使扩散模型能在稀疏相机输入条件下生成几何一致且运动平滑的高质量视频，推理时完全移除 VGGT 以保持效率。
DFSAttn: Dynamic Fine-Grained Sparse Attention for Efficient Video Generation: DFSAttn 通过 3D Hilbert 曲线重排序 + 分层块评分 + 自适应掩码缓存，实现了与全注意力相媲美的质量下 2.1× 端到端加速——解决了块稀疏注意力在高稀疏率（>80%）下质量下降的核心问题。
Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos: MIGA 通过两阶段训练推理对齐（TTA）和双重一致性增强（DCE：自反射 + 长距离帧指导）两个核心机制——在无需训练的前提下使基础视频模型能够生成无限长且高度时间一致的视频，VBench 综合评分相比 FIFO-Diffusion 提升 2.8%（97.82 vs 95.02）。
EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance: EPiC 用"基于第一帧可见性掩码"的方式从任意 in-the-wild 视频直接构造像素级对齐的 anchor 视频，再配一个仅 26M 参数（<1% backbone）、且只在可见区域生效的 Anchor-ControlNet，在冻结 CogVideoX-5B-I2V 主干、5K 视频、500 步训练的条件下，把 I2V 相机控制误差刷到 SoTA，并零样本泛化到 V2V。
Explainable Forensics of Manipulated Segments in Untrimmed Long Videos: 本文提出了长视频中 AI 生成片段的时序定位与可解释分析任务，引入 TASLE 大规模数据集和两阶段 MSLoc 基线方法——通过边界感知提议生成和 MLLM 精化实现对混合真伪视频中篡改片段的精确定位和可解释推理。
Exploring Data-Free LoRA Transferability for Video Diffusion Models: 本文首次对视频扩散模型（VDM）的 full fine-tune (FFT) 和 LoRA 做权重空间分析，发现两者都"保留奇异谱、只旋转奇异子空间"，但在 head clusters 上路由方向冲突；据此提出 CASA——一个 data-free 的"按聚类做谱仲裁"的 LoRA 迁移方法，把基座 Wan2.1 上训的 LoRA 直接迁到 FastWan 等蒸馏后变体，无需任何用户数据/重训。
iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance: iTryOn 首次定义"交互式视频虚拟试衣"任务——让人在视频里主动操作衣物（拉拉链、提衣角、拉伸衣物）而非仅被动展示。通过3D 手部先验解决空间歧义、动作感知 RoPE（A-RoPE） 把时间戳动作标题与对应帧严格对齐、动作感知约束损失（AC Loss） 放大稀疏交互帧的学习信号，在自建 VVT-Interact 上 ISR（交互成功率）从基线 0.397 → 0.610（+54%）。
Light Forcing: Accelerating Autoregressive Video Diffusion via Sparse Attention: Light Forcing 是首个为自回归（AR）视频扩散模型定制的稀疏注意力方案——块感知增长（CAG）量化每个生成块的累积误差贡献来动态分配稀疏度，分层稀疏注意力（HSA）通过帧级 → 块级二级掩码选择灵活捕捉历史依赖，在 Self Forcing 上实现 1.30× 端到端 / 3.79× 注意力加速且 VBench 总分 84.5 > 密集基线 84.1。
Lightning Unified Video Editing via In-Context Sparse Attention: 针对 In-Context Learning 范式下视频编辑的二次注意力瓶颈，作者基于"context token 显著性低于 source token"以及"Query 锐度正比于 Taylor 近似误差"两条洞察设计了 In-context Sparse Attention（ISA），并训练出 LIVEditor，在多个 benchmark 上既加速 ~60% 又超越 SOTA 全注意力模型。
LocoT2V-Bench: Benchmarking Long-form and Complex Text-to-Video Generation: LocoT2V-Bench 是面向长视频 + 复杂场景生成的专业基准——234 段真实视频 × 18 主题 × 平均 249 字提示词，配套 LoCoT2V-Eval 5 维度 17 子维度评估框架（含分层 VQA + 条件门控 + Auditor-Evaluator 双代理 HERD），系统评估 17 个长视频生成模型，揭示了"感知质量强、细粒度对齐弱、角色一致性差"的普遍瓶颈。
LuVe: Latent-Cascaded Ultra-High-Resolution Video Generation with Dual Frequency Experts: LuVe 把 UHR 视频生成从"被动细节增强"重新定义为"主动内容补全"——通过三阶段级联（低分辨率运动 → 潜空间上采 → 高分辨率细化）+ 频域分析驱动的双频率专家（低频专家增强全局语义一致性、高频专家细化纹理），在 VBench 4K 上达 84.03 总分超过 UltraWan-4K 的 83.75。
MiVE: Multiscale Vision-language features for reference-guided video Editing: MiVE 把 Qwen3-VL 的首层 + 末层隐状态同时抽出来作为多尺度条件 token, 与 VAE 视觉 latent 拼成一个长序列, 在统一的自注意力 DiT 里做参考图引导的视频编辑, 在 60 段 720P benchmark 上人类偏好和 6 个 VLM 自动评分都拿到第一, 超过开源 Wan-Animate 和商用 Kling O1.
MotiMotion: Motion-Controlled Video Generation with Visual Reasoning: MotiMotion 通过 VLM 推理把用户稀疏不精确的轨迹和文本提示转化为物理可信且因果一致的动作轨迹和文本描述，再用置信度加权的控制策略引导扩散模型生成符合世界知识和物理原理的自然视频——在 MotiBench 上物理真实性 0.302 远超 Wan-Move 的 0.218（+38%）。
OLAF-World: Orienting Latent Actions for Video World Modeling: OLAF-World 通过序列级控制-效应对齐（Seq∆-REPA）学习可迁移的隐式动作——把无标注视频转化为动作可控的视频世界模型，实现跨上下文的零样本动作迁移；用 1 分钟的标注数据即可达到 AdaWorld 2 小时数据下的性能（旋转控制精度 0.4680 vs 0.6420）。
Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them: 这篇论文发现图生视频扩散模型「2 步推理比 50 步推理物理更靠谱」，把根因定位到去噪过程中相位谱被侵蚀，于是提出免训练的 PhaseLock——从 2 步推理里抽出运动先验，再用 Latent Delta Guidance 注入到高保真去噪轨迹中，平均把物理一致性提升 6.2 分，几乎不增加开销（1.06× 时间、1.02× 显存）。
Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization: QVG 是面向自回归视频扩散的训练免微调 KV-Cache 量化框架——通过语义感知聚类做 token 平滑、并以渐进残差多阶段压缩残差，在 LongCat-Video/HY-WorldPlay/Self-Forcing 上把 KV 显存压低到原来的 1/7，端到端延迟开销 <4%，2 bit 下质量大幅领先 KIVI/QuaRot 等 LLM 量化基线。
Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Generation: 本文发现分块自回归视频扩散模型中 KV 缓存量化导致注意力权重发生系统性偏移（"量化键窃取注意力"），通过推导出基于 Jensen 不等式的逐分数纠正项，在 INT2 激进量化下恢复接近 BF16 的视频质量（VBench 78.02 vs 78.27），节省 50% 内存。
Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories: 把每个相机的 per-pixel 光线"原点+方向"打包成一张与 RGB 同形状的 3 通道 raxel 图，让预训练视频 VAE 直接当相机编码器，再用 Decoupled Self-Cross Attention 把 raxel 和视频帧塞进同一个 Flow Matching DiT 联合去噪，从而第一次用一组权重同时支持位姿估计、相机可控视频生成与"视频+轨迹"联合生成三件事。
Self-Refining Video Sampling: 把预训练 flow matching 视频生成器自身当作"去噪自编码器"，在推理时同一噪声层级内用 Predict-and-Perturb 内循环反复纠偏 latent，再用模型自洽性算出的不确定度 mask 只精修动态区域，从而在不引入任何外部 verifier、不做任何额外训练的前提下显著改善视频的运动连贯性与物理合理性，人评偏好率超 70%。
SGMD: Score Gradient Matching Distillation for Few-Step Video Diffusion: SGMD 通过引入稳定的 teacher stop-gradient Fisher 目标和双重势（NR/RC）机制——解决 few-step 视频扩散蒸馏中 fake score 追踪代价高（DMD2 每轮 5 次更新）和运动抑制问题，4 步蒸馏下实现 ~3× 训练加速同时运动质量从 0.65 提升到 0.78（VideoAlign）。
T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation: T2AV-Compass 是首个针对文本到音视频（T2AV）生成的综合评估基准——500 条复杂提示 + 双层评估框架（低层信号指标 + 高层 MLLM 诊断），系统评估 15 个前沿 T2AV 系统，定量揭示了即便顶级模型也存在的"音频真实感瓶颈"现象（视频维度 85%+ 真实感 vs 音频仅 50%）。
V2V-Bench: A Comprehensive Benchmark for Video-to-Video Generation Evaluation: 针对视频到视频（V2V）编辑「既要听指令改、又要逐帧对齐源视频」这一现有 T2V/I2V 指标测不出的核心难题，本文提出 V2V-Bench——一个分 5 大类、11 个解耦维度（其中 6 个为 V2V 专属）的评测基准，配合「先查合规、再细评」的四阶段流水线，在 6 个 V2V 核心维度上与人类判断的 Spearman 相关性达到 0.905。
VAnim: Rendering-Aware Sparse State Modeling for Structure-Preserving Vector Animation: VAnim 把开放域 text-to-SVG 动画建模为「持久 DOM 树上的稀疏状态更新」+「Identification-First 运动规划」+「GRPO 渲染感知强化学习」，序列长度压缩 \(9.86\times\) 的同时保持拓扑一致，并显著超越 GPT-5.2、Gemini 3 Pro 与 LiveSketch。
VEDA: Scalable Video Diffusion via Distilled Sparse Attention: VEDA 把视频 DiT 的稀疏注意力问题重新表述为"对全注意力结构的显式蒸馏"——通过统计感知的瓦片评分 + 头感知分组搜索 + 硬件高效内核，在 90-95% 极端稀疏度下保持生成质量，给 Waver-12B 720P 10 秒视频带来 5.1× 端到端加速、10.5× 注意力加速。
VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation: VideoGPA 用一个几何基础模型（GFM）把生成视频重建成 3D 点云、再投影回原帧，用「重投影误差」作为自监督的几何一致性奖励，自动构造偏好对，并通过 DPO（LoRA 微调 ~1% 参数、仅 ~2500 对偏好样本）把预训练视频扩散模型对齐到 3D 一致的流形上，在不损失画质的前提下显著缓解物体形变与空间漂移。
Where Concept Erasure Should Occur: Concept-Layer Alignment in Text-to-Video Diffusion Models: 这篇论文发现文本到视频扩散模型中的目标概念只在特定深度最可分，提出 CLEAR 用 Gumbel-Softmax 学习“在哪一层擦除”、用 SAE 学习“擦除哪个概念方向”，从而在不改动扩散模型权重的情况下更精确地抑制目标概念并保留视频质量。
WIND: Weather Inverse Diffusion for Zero-Shot Atmospheric Modeling: WIND 把全球大气序列建模成一个无条件视频扩散先验，并在推理时把预测、下采样、稀疏重建、质量守恒和暖化情景都写成可微逆问题，用同一个冻结模型零样本求解多类天气与气候任务。
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation: World-R1 把文本到视频模型的 3D 一致性问题转化为强化学习后训练：用隐式相机条件和 3D-aware reward 对 Wan 2.1 等视频基础模型做 Flow-GRPO 对齐，在不改模型架构和推理流程的情况下显著减少几何幻觉，同时保持一般视频生成质量。
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching: WorldCache 针对扩散式 world model 中 RGB/深度等多模态 token 演化不均匀的问题，用曲率把 token 分成稳定、线性和混沌三类并自适应触发完整前向，在 HunyuanVoyager、Aether 等模型上最高实现 3.65 倍到 3.7 倍端到端加速，同时基本保持世界生成和 3D 重建质量。