🎬 视频生成¶
📷 CVPR2026 · 182 篇论文解读
📌 同领域跨会议浏览: 🔬 ICLR2026 (97) · 💬 ACL2026 (4) · 🧪 ICML2026 (32) · 🤖 AAAI2026 (11) · 🧠 NeurIPS2025 (23) · 📹 ICCV2025 (49)
🔥 高频主题: 视频生成 ×80 · 扩散模型 ×28 · 多模态 ×8 · 推理 ×7 · 压缩/编码 ×6
- 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
-
3DiMo 把人体运动控制从「依赖外部 SMPL 重建」改成「与视频生成器联合端到端学一套视角无关的隐式运动 token」,靠跨注意力语义注入 + 多视角富数据监督让模型从 2D 驱动帧里恢复真正的 3D 运动,从而在忠实复现动作的同时支持文本自由控制相机视角,运动保真度和画质都显著超过 2D 姿态与 SMPL 基线。
- A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens
-
提出 DeltaTok 将连续帧的 VFM 特征差压缩为单个 delta token,配合 Best-of-Many 训练的 DeltaWorld 在单次前向传播中高效生成多样化未来预测,参数量仅为 Cosmos 的 1/35、FLOPs 仅为 1/2000,但在密集预测任务上表现更优。
- Accelerating Autoregressive Video Diffusion via History-Guided Cache and Residual Correction
-
针对自回归视频扩散模型(ARDM)逐段生成时"缓存近似误差会随时间累积放大"这一致命问题,提出训练free的 ARCache:用 History-Guided Cache 根据历史 token 的变化来调度缓存时机(段内抑误差),用 Enhanced Residual Correction 借第一段干净的残差轨迹去校准后续段(段间防漂移),在三个 ARDM 上实现最高 3.13× 加速且画质几乎无损。
- Accelerating Diffusion-based Video Editing via Heterogeneous Caching: Beyond Full Computing at Sampled Denoising Timestep
-
针对带掩码的视频编辑(MV2V)任务,提出训练无关的 HetCache:既在去噪时间步维度按累积变化量把步骤分成"全算/部分算/复用"三档,又在单步内部按掩码空间先验把 token 切成上下文/边缘/生成三类,只对最具语义代表性的上下文 token 做注意力,从而在 Wan2.1-VACE 上拿到 2.67× 加速且画质几乎不掉。
- ActivityForensics: A Comprehensive Benchmark for Localizing Manipulated Activity in Videos
-
首次提出活动级视频伪造定位任务和ActivityForensics大规模基准数据集(6K+伪造片段),通过grounding辅助的自动化数据构造管线制造高度逼真的活动篡改,并提出Temporal Artifact Diffuser (TADiff)基线方法,通过扩散式特征正则化放大伪造线索。
- AdaCluster: Adaptive Query-Key Clustering for Sparse Attention in Video Generation
-
AdaCluster 是一个训练无关的稀疏注意力框架,针对视频 DiT 中 query 和 key 在注意力里扮演的不同角色,分别用「角度聚类」压缩 query、用「逐层自适应多阶段 K-means」聚类 key,再配合可跑在 Tensor Core 上的 TensorQuest 快速选关键簇,在 CogVideoX-2B / HunyuanVideo / Wan-2.1 上实现 1.67×–4.31× 端到端加速且画质几乎无损(PSNR 最高 30.99)。
- AdapTok: Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space
-
AdapTok 把视频编码成一段时序因果的 1D 离散 token 序列,训练时按块随机丢弃尾部 token 学到"可变长度"表征,再用一个打分器预测"某块用 N 个 token 时的重建质量",推理时用整数线性规划在固定总预算下把 token 按内容复杂度动态分配给不同帧/不同样本,从而在 UCF-101 上用更少 token 拿到 rFVD=28 的重建并显著提升自回归视频生成质量。
- AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation
-
AlcheMinT 给主体驱动的视频生成补上了「时间维度」的控制:用同一个 VAE 把参考图直接编码成 token 拼进视频 token 流(不加任何 cross-attention),再用一种加权混合 RoPE 频率的位置编码(WeRoPE)让每个参考主体只在用户指定的时间区间里被视频 token 强烈关注,从而精确控制多个主体在视频中何时出现、何时消失,且视频质量与现有 SOTA 个性化方法持平。
- Anti-I2V: Safeguarding your photos from malicious image-to-video generation
-
Anti-I2V 提出了一种针对恶意图像到视频生成的防御方法,通过在 L*a*b* 和频域双空间优化扰动,并设计内部表示崩塌(IRC)和锚定(IRA)损失破坏去噪网络的语义特征传播,在 CogVideoX、DynamiCrafter 和 Open-Sora 三种不同架构上实现 SOTA 防护效果。
- AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References
-
AnyID 把"身份保持视频生成"从"只能用一张脸"扩展成"可以喂任意多张人脸/半身像/视频片段",用一个预训练 VAE 把这些异构参考统一编码进 DiT,再指定一张主参考当锚点、配上只描述"变化"的差分提示词来做精确属性控制,最后用人类偏好 DPO 微调,在身份保真和提示可控性两个维度大幅领先现有单参考方法。
- Archon: A Unified Multimodal Model for Holistic Digital Human Generation
-
Archon 把数字人涉及的 7 种模态(描述、文本脚本、语音、3DMM 动画、语义视频、图像、视频)各自离散化成 token,用一个自回归大模型在 72 个任务上预训练,实现任意模态到任意模态的生成/理解/编辑;并通过「语义视频 4× 压缩 token + 语义驱动扩散解码」解决高帧率说话视频的 token 爆炸,通过「Thinking in Modality」把语音→视频这类高歧义任务拆成逐模态中间步以稳住质量。
- Are Image-to-Video Models Good Zero-Shot Image Editors?
-
本文提出 IF-Edit,一个免训练框架,把预训练的图生视频(I2V)扩散模型直接当成零样本图像编辑器:用思维链提示把静态编辑指令改写成"随时间演化"的描述,用时序潜变量丢弃(TLD)砍掉冗余帧加速去噪,再用自一致后精修(SCPR)挑最清晰帧并用模型自身重生成一段"静止视频"提清晰度,在非刚性形变与推理类编辑上表现强劲。
- Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer
-
把预训练视频扩散 Transformer(Wan2.1)里昂贵的 softmax 自注意力,用「少量 softmax 锚点 token + 多数 linear token」的混合注意力替换掉,再配一套逐层蒸馏 + 背包式 block-rate 选择 + 轻量微调的「手术」流程,只花不到 0.4k GPU 小时就把模型线性化到接近原画质,同时长视频上单块注意力推理快约 6×。
- BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models
-
针对自回归视频扩散在长视频上误差累积导致画质漂移的问题,BAgger 把模型自己跑出来的、会逐渐变差的 rollout 时间反转,得到一条"从坏帧恢复到好帧"的纠错轨迹,再用标准扩散目标做 DAgger 式数据聚合微调——不需要双向 teacher、不需要分布匹配损失,就能让模型学会从自己的错误状态里自我修复,长程生成更稳定。
- BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
-
针对视频扩散模型把"场景动态"和"相机运动"混在同一条 video-time 轴上、无法独立控制的问题,BulletTime 把它拆成正交的「世界时间 \(\tau_{world}\)」和「相机位姿 \(c\)」两路条件,用 Time-RoPE + AdaLN 注入连续时间、用 4D-RoPE + Camera-AdaLN 注入视角,并配一套时间/相机独立变化的合成数据集来监督解耦,从而支持子弹时间(相机动、时间冻)这类自由的 4D 控制,在合成与真实视频上控制精度全面超过把相机方法硬接时间重映射的两段式 baseline。
- CamDirector: Towards Long-Term Coherent Video Trajectory Editing
-
CamDirector 用「混合 warping + 世界缓存」把整段源视频的信息显式聚合成与源对齐的粗视频,再用「历史引导的自回归扩散模型 + 渐进式世界缓存更新」逐段生成长视频,在仅 2.0B 参数下于 iPhone / iPhone-PTZ 两个基准上做到 SOTA 的相机轨迹编辑。
- Captain Safari: A World Engine with Pose-Aligned 3D Memory
-
Captain Safari 是一个"世界引擎":维护一份隐式的世界几何记忆,给定任意相机轨迹时按姿态检索出与目标视角对齐的世界 token,再用它去 condition DiT 视频生成,从而在剧烈 6-DoF 运动下既精确跟随轨迹又保持长时程 3D 一致性,并配套发布了野外 FPV 无人机数据集 OpenSafari。
- Causality in Video Diffusers is Separable from Denoising
-
作者通过探针实验发现自回归视频扩散模型里的"时序因果推理"和"逐步去噪"其实是可分离的——浅层在去噪步间高度冗余、深层几乎只做帧内渲染,据此提出 SCD 架构:用一个每帧只跑一次的因果 Transformer 编码器做时序推理、用一个轻量逐帧扩散解码器做多步渲染,在保持生成质量的同时把每帧延迟降低 2–4×。
- Chain of Event-Centric Causal Thought for Physically Plausible Video Generation
-
将物理合理性视频生成(PPVG)建模为因果连接的事件序列,通过物理公式驱动的事件链推理将复杂物理现象分解为有序事件,再通过过渡感知的跨模态提示生成语义-视觉双重条件,引导视频扩散模型生成遵循因果演进的物理现象视频。
- CI-VID: A Coherent Interleaved Text-Video Dataset
-
CI-VID 构建了一个 34 万样本的「交错文本-视频」数据集——每个样本是一段语义连贯的多镜头视频序列,配上既描述单镜头又描述相邻镜头之间「延续/变化」的交错字幕,让模型从「孤立的文本→视频」走向「文本+前序视频→后续视频」,从而能生成有故事性、转场平滑、角色与风格一致的多镜头视频。
- CineBrain: A Large-Scale Multi-Modal Audiovisual Brain Dataset for Brain-Conditioned Video Generation
-
本文构建了首个把 fMRI 与 EEG 同步采集、且在自然视听(看《生活大爆炸》)条件下记录的大规模脑信号数据集 CineBrain,并提出 CineSync 框架——用双 Transformer 融合编码器对齐脑信号与视觉/文本语义、再用 LoRA 微调的视频扩散模型把脑信号解码成动态视频,在动态视频重建上达到 SOTA,并发现听觉皮层激活能提升视觉解码精度。
- CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation
-
给定一组静态场景图、一段文字 prompt 和一条用户指定的相机轨迹,CineScene 用 VGGT 提取的「隐式 3D 特征」作为上下文条件注入预训练 T2V 扩散模型,从而在大幅度视角变化下生成场景一致、带新动态主体的电影级视频,场景一致性与相机精度都达到 SOTA。
- Composing Concepts from Images and Videos via Concept-prompt Binding
-
提出 Bind & Compose (BiCo),一种one-shot方法,通过层次化binder结构将视觉概念绑定到prompt token,并通过token组合实现图像-视频概念的灵活组合,在概念一致性、prompt保真度和运动质量上全面超越前作。
- Compressed-Domain-Aware Online Video Super-Resolution
-
CDA-VSR 提出利用视频压缩域信息(运动矢量、残差图、帧类型)指导在线视频超分辨率的三个关键环节:运动矢量引导的可变形对齐实现高效精准配准、残差图门控融合抑制错配区域、帧类型感知重建自适应分配计算资源,在 REDS4 上以 93 FPS(>2倍于SOTA速度)达到最优 PSNR。
- ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation
-
针对图像到视频(I2V)生成中刚性物体在视角变化下出现的外观漂移与几何畸变,ConsID-Gen 从数据与模型两端入手:构建大规模物体中心数据集 ConsIDVid 与多视图一致性评测 ConsIDVid-Bench,并提出一个"视图辅助"框架——给首帧补两张未标定辅助视图、用 2D 语义 + VGGT 几何双流编码、在扩散前把视觉与文本预对齐,从而在身份保真度和几何稳定性上超过 Wan2.1/Wan2.2/HunyuanVideo。
- Content-Aware Dynamic Patchification for Efficient Video Diffusion
-
DynaPatch 在 3D VAE 潜空间里用一个轻量路由器为每个时空区域自适应选 patch 大小(细节区给小 patch、静态区给大 patch),并与扩散模型联合端到端训练,从 token 创建阶段就削减冗余计算,在 VBench 上以 30% token 削减拿到 83.42 总分、实现 1.3–1.8× 加速且画质几乎无损。
- CoT-Edit: Let CoT Guide Instruction Video Editing
-
针对纯文本指令视频编辑在复杂场景里"找不准目标、加物体不合物理"的问题,本文提出 Plan–Guide–Edit 三段式框架——先用带 CoT 的多模态大模型把指令"翻译"成一串关键帧边界框 + 增强指令,再用框约束的掩码分支把空间先验落成时序一致的掩码,最后由扩散编辑器融合掩码、增强指令和视频特征完成编辑,在物理合理性、空间关系等维度全面超过现有开源 baseline。
- Cross-Subject EEG-to-Video Reconstruction and Beyond
-
针对"不同被试的 EEG 语义分布天然不一致"导致跨被试视频重建崩溃的问题,本文提出 SAM-Net:用脑区+多尺度时序的 HRT 编码器提语义、用"以中心被试为起点、由近及远逐个加入的渐进式对抗(C-SA)"把所有被试拉到统一表征、再用 New2Source Mapper 把新被试 EEG 映射到已知被试分布,最后以关键帧引导的 SparseCtrl 生成连贯视频,在 SEED-DV 上的跨被试与新被试场景都优于 EEG2Video / DynaMind。
- CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
-
提出 CubeComposer,将360°视频分解为 cubemap 六面表示并按时空自回归方式逐面生成,首次实现从透视视频原生生成4K(3840×1920)分辨率的360°全景视频,无需后处理超分辨率。
- D2Cache: Second-Order Delta Caching for Higher Video Diffusion Acceleration
-
D2Cache 是一个免训练、即插即用的视频扩散缓存加速方法:它发现相邻时间步输出的"二阶差分"(一阶残差的残差)比一阶残差光滑得多,于是在复用一阶残差的基础上再加一个二阶修正项,把缓存预测误差从 \(O((\Delta t)^2)\) 降到 \(O((\Delta t)^3)\),并用时间步嵌入估出的缩放因子适配非均匀跳步,在相同加速比下 VBench 比 SOTA 的 TeaCache 高 0.4%–2.5%。
- Diff4Splat: Repurposing Video Diffusion Models for Dynamic Scene Generation
-
提出 Diff4Splat,一个前馈式框架,将视频扩散模型与可变形3D高斯场统一到端到端可训练的模型中,从单张图像在约30秒内直接生成动态4D场景表示,比优化方法快60倍。
- DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching
-
DisCa 首次将可学习特征缓存与步蒸馏统一为兼容框架,用轻量神经预测器(<4% 模型参数)替代手工缓存策略,配合 Restricted MeanFlow 稳定大规模视频 DiT 蒸馏,在 HunyuanVideo 上实现 11.8× 近无损加速。
- Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
-
针对文生视频模型"同一 prompt 采多次结果高度雷同"的多样性塌缩问题,本文把"生成一组多样视频"建模成 set-level 策略优化,用 DPP 的边际增益给每个新样本一个"递减回报"的多样性奖励、再叠加一个相关性奖励,用 GRPO 训练一个改写 prompt 的策略模型(而非改视频生成器本身),即插即用地让 Wan2.1 / CogVideoX / Veo3 在不损失保真度的前提下显著提升镜头、场景、运动的多样性。
- DreamShot: Personalized Storyboard Synthesis with Video Diffusion Prior
-
提出 DreamShot,利用视频扩散模型的时空先验来生成人物一致、场景连贯的多镜头故事板,通过 Role-Attention Consistency Loss 解决多角色混淆问题,统一支持文本到镜头、参考到镜头和镜头到镜头三种模式。
- DreamStyle: A Unified Framework for Video Stylization
-
DreamStyle 把文本、风格图、风格化首帧这三种风格条件统一进一个基于 Wan14B-I2V 的视频风格化模型,靠一套「先风格化首帧、再 I2V 生成成对视频」的数据构造管线解决无配对数据问题,并用 token-specific LoRA 消除不同条件 token 之间的串扰,在三类风格化任务上都打过各自的专用模型。
- DriveLaW: Unifying Planning and Video Generation in a Latent Driving World
-
提出 DriveLaW,一个通过共享潜在空间将视频生成与运动规划统一的驾驶世界模型,将视频生成器的中间潜在特征直接注入扩散规划器,在 nuScenes 视频预测和 NAVSIM 规划基准上同时达到 SOTA。
- Dual-Granularity Memory for Efficient Video Generation
-
针对线性循环视频生成器因分块并行导致的"分块隔离"问题,本文在 GSTPN 主干上叠加两套互补记忆——块内的 Context Memory(sink columns + 边界缓冲,仅 +150K 参数)和跨段的 LCaM(潜空间记忆库 + 内容检索 + 交叉注意力),在保持与全注意力相当画质的同时把推理提速 1.54×。
- DynamicsBoost: Dynamic Plausible Video Generation via Annotation-Free Continuation Preference Optimization
-
把"视频续帧"当成天然的偏好信号——条件帧给得越多、生成的内容越少、质量越高——从而不需要任何人工/VLM 打标就能自动构造结构匹配的偏好对,再用只在生成区域计算的 Asymmetrical DPO 去对齐文生视频模型,显著提升动态真实性与语义一致性。
- EasyOmnimatte: Taming Pretrained Inpainting Diffusion Models for End-to-End Video Layered Decomposition
-
把一个预训练的视频 inpainting 扩散模型「反过来用」——不再去抹掉前景及其阴影/反光,而是微调它去提取前景层及其关联效果,并通过「效果专家 + 质量专家」双 LoRA 在扩散高/低噪声阶段分工采样,第一次实现了端到端、前馈、十秒级的视频 omnimatte(旧的 Gen-Omnimatte 需要数百秒逐层优化)。
- EasyV2V: A High-quality Instruction-based Video Editing Framework
-
EasyV2V 把"指令视频编辑"拆成数据、架构、控制三件事各取最省力的方案——用现成专家模型 + 图像编辑提升 + 稠密字幕视频拼出一套约 800 万规模的 V2V 配对数据,在预训练 T2V 骨干上只加几个零初始化 patch-embedding + LoRA、用序列拼接注入源视频,再用一段 mask 视频统一表达"在哪改、何时改",最终在 EditVerse 基准上以 VLM 评分 7.73/9 超过已发表方法、并行工作乃至商业系统。
- EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing
-
EditCtrl 在冻结的文生视频扩散模型上挂两个轻量 adapter——只处理掩码内 token 的「局部上下文编码器」+ 只看降采样背景的「时序全局上下文嵌入器」,让计算量随编辑区域大小(而非视频分辨率)线性缩放,从而在 4K 视频上实现实时、多区域、可向未来帧传播的生成式编辑,比同类方法省约 10× 算力还略微提升质量。
- EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation
-
EffectMaker 把"视觉特效(VFX)生成"重新定义成一个参考驱动的任务:给一段带特效的参考视频和一张用户目标图,先用 MLLM 理解并推理这个特效该怎么适配到新主体,再用视频 DiT 通过上下文学习抠出参考视频的细粒度视觉线索,二者组成"语义-视觉双路引导",无需为每个特效单独微调 LoRA 就能把特效迁移到目标图上,生成效果一致的视频。
- Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning
-
针对人体视频扩散模型训练显存高、耗时长的问题,本文提出 Ent-Prog:用「条件熵膨胀(CEI)」给每个网络 block 打一个任务相关的重要度分数,优先解冻对条件遵循贡献最大的 block,再用一个「嵌套扩散超网」在每个阶段在线估计该解冻多少个 block 才收敛最快,从而在三个人体视频数据集上做到最高 2.2× 训练加速、2.4× 显存下降而不掉质量。
- Ego-InBetween: Generating Object State Transitions in Ego-Centric Videos
-
针对"给定初始帧、目标帧和一句动作指令,生成中间帧把物体从初态平滑变到末态"的新任务(EIVST),EgoIn 先用微调后的 TransitionVLM 推理出分几步、每步发生在哪个时间段,再把这些条件逐帧注入扩散插帧模型,并用物体定位辅助监督保住物体外观一致性,在四个第一人称/机器人操作数据集上 FVD 等指标全面领先。
- EgoControl: Controllable Egocentric Video Generation via 3D Full-Body Poses
-
EgoControl 在预训练视频扩散模型 Cosmos 上,用「相对头部位姿 + 以骨盆为根的关节位姿」这一紧凑表示,通过 AdaLN 调制与位姿 token 交叉注意力双通路注入控制信号,实现了由第一视角佩戴者 3D 全身姿态精确驱动的未来帧预测,相机视角与可见肢体动作都能对齐控制姿态。
- EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing
-
针对增强现实里"第一人称、手物频繁交互、大幅自我运动"的视频编辑场景,作者一次性补齐了数据(EgoEditData,9.36 万编辑对)、模型(EgoEdit,通道拼接编辑器 + 两阶段蒸馏出的实时流式版 EgoEdit-RT,单卡 H100 达 38.1fps、首帧延迟 855ms)和评测(EgoEditBench,15 类任务 1700 条),在第一人称编辑上明显超过现有方法,同时在通用编辑上不掉队。
- EgoX: Egocentric Video Generation from a Single Exocentric Video
-
EgoX 给定单段第三人称(exocentric)视频和目标第一人称相机轨迹,把它先 3D 抬升渲染成一段"自我中心先验视频",再用宽度/通道双向拼接 + 几何引导自注意力,借助预训练视频扩散模型(Wan 2.1 14B + LoRA)生成几何一致、高保真的第一人称(egocentric)视频,在 Ego-Exo4D 上大幅超越 Exo2Ego-V 等基线。
- Endless World: Real-Time 3D-Aware Long Video Generation
-
Endless World 把"条件自回归(截断条件帧梯度)+ 把 VGGT 提取的 3D 特征融进文本嵌入 + 注意力汇聚(attention sink)"三件事组合到一个 1.3B 蒸馏视频扩散模型上,在单张 GPU 上实时(17 FPS)生成可无限延长、几何一致、画质不随时长崩坏的视频,30 秒 VBench 总分 84.54 超过 LongLive 等同规模 SOTA。
- EvoID: Reinforced Evolution for Identity-Preserving Video Generation
-
EvoID 把"身份保持视频生成"从模仿学习重写成一个用强化学习驱动的自演化过程:用一套"客观指标 + MLLM 整体偏好"的双路奖励当内在评委、用冻结的 T2V 教师锚住探索,让生成模型主动权衡身份保真、动作自然和时序连贯,在 OpenS2V-Eval 人物域上把 Total Score 刷到 0.704、超过开源 VACE-14B(0.658)和商用 Hailuo(0.653)。
- ExPose: Reinforcing Video Generation Models for Extreme Pose Estimation
-
当两张图视角差异极大、几乎没有重叠时,直接做相对位姿估计会崩;ExPose 用 GRPO 强化学习把视频生成模型微调成「位姿奖励驱动」的生成器,让它在两帧之间补出几何一致的中间帧,再喂给 VGGT/MapAnything 这类 3D 基础模型,从而把极端视角下的位姿估计精度显著拉高(DL3DV AUC 48.1→53.6)。
- FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning
-
提出FaceCam系统,通过面部地标(facial landmarks)作为尺度感知的相机表示来解决单目人像视频的相机控制问题,避免了传统相机外参表示的尺度歧义,并设计了合成相机运动和多镜头拼接两种数据增强策略支持连续相机轨迹推理。
- FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters
-
FastLightGen 提出三阶段蒸馏算法,首次实现采样步数与模型大小的联合蒸馏,通过识别冗余层、动态概率剪枝和 well-guided teacher guidance 分布匹配,将 HunyuanVideo/WanX 压缩为 4 步 30% 参数剪枝的轻量生成器,实现约 35 倍加速且性能超越教师模型。
- FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
-
针对"首帧传播(FFP)视频编辑离不开运行时引导"这一痛点,本文先用两轨流水线造出 29 万对 720p、81 帧的高保真视频编辑数据集 FFP-300K,再提出无需运行时引导的 FreeProp 框架——用 AST-RoPE 动态解耦"首帧外观"与"源视频运动"、用自蒸馏把模型自己对源视频的理想表征当作正则,在 EditVerseBench 上全面超过包括商用 Aleph 在内的所有方法。
- FlashLips: 100-FPS Mask-Free Latent Lip-Sync using Reconstruction Instead of Diffusion or GANs
-
FlashLips 把唇同步(lip-sync)重新表述成"确定性图像编辑"而非生成问题:用一个纯重建训练的单步隐空间编辑器代替扩散/GAN,再配一个流匹配的"音频→唇姿"Transformer 驱动它,U-Net 版本在单卡 H100 上跑到 109 FPS,同时 FID/FVD/唇同步精度反超更大更慢的扩散基线。
- FlashPortrait: 6× Faster Infinite Portrait Animation with Adaptive Latent Prediction
-
FlashPortrait 用一套「加权滑窗 + 自适应隐变量外推」的训练免费推理机制,把长肖像动画的去噪步数大幅压缩,在生成超过 1800 帧、ID 保持不漂移的前提下实现最高 6× 推理加速。
- FlexTraj: Image-to-Video Generation with Flexible Point Trajectory Control
-
FlexTraj 用一套带轨迹ID/分割ID/可选颜色的统一点轨迹表示,配合"高效序列拼接"的条件注入和"密度-对齐退火"训练课程,让单个图像到视频模型同时支持稠密、空间稀疏、时间稀疏乃至非对齐的多粒度轨迹控制,在 DAVIS / FlexBench 上轨迹误差与视频质量都显著优于现有专用方法。
- Flowception: Temporally Expansive Flow Matching for Video Generation
-
Flowception 把"连续流匹配去噪"和"离散帧插入"两件事编织进同一条概率路径,让一个非自回归模型在采样过程中既能任意顺序地往序列里插帧、又能同时把已有帧逐步去噪,从而做到变长视频生成,并在 FVD / VBench 上同时超过全序列与自回归两条基线,训练 FLOPs 还省了约 3 倍。
- FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing
-
FlowDirector 把文本驱动视频编辑建模为数据空间里由 ODE 驱动的"直接演化",彻底绕开传统的反演(inversion)步骤,再用三个免训练的流校正策略(方向感知 / 运动-外观解耦 / 差分平均引导)分别管好"改得彻底""动作不变""轨迹不抖",在指令遵循、时序一致性和背景保持上同时刷到 SOTA。
- FlowMotion: Training-Free Flow Guidance for Video Motion Transfer
-
提出 FlowMotion,一种无需训练的视频运动迁移框架,通过直接利用 flow-based T2V 模型的预测输出(latent prediction)构建运动引导信号,避免对模型内部层做梯度回传,在保持运动保真度的同时大幅降低推理时间和显存开销。
- FlowPortal: Residual-Corrected Flow for Training-Free Video Relighting and Background Replacement
-
FlowPortal 不训练任何模型,靠一套"残差校正流(Residual-Corrected Flow)"把现成的视频扩散 flow 模型改造成编辑模型:当源/目标条件相同时强制完美重建、不同时只沿光照方向变,再叠加解耦条件、高频迁移和前景掩码三招,在 3–5 分钟内完成时序连贯、结构保真、光照自然的视频重打光与背景替换。
- Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction
-
FreeLOC 提出一种免训练的层自适应框架,通过识别视频DiT中各层对"帧级相对位置OOD"和"上下文长度OOD"两种分布外问题的敏感度差异,选择性地在敏感层应用多粒度位置重编码(VRPR)和分层稀疏注意力(TSA),在不增加训练成本的情况下实现SOTA的长视频生成质量。
- From Static to Dynamic: Exploring Self-supervised Image-to-Video Representation Transfer Learning
-
本文提出 Co-Settle 框架,通过在冻结的图像预训练编码器上训练一个轻量线性投影层,利用时间循环一致性损失和语义可分性约束,仅需5个epoch的自监督训练即可在8个图像基础模型上一致性提升多粒度视频下游任务性能。
- Generating Humanless Environment Walkthroughs from Egocentric Walking Tour Videos
-
作者把网上海量的第一视角"city walking tour"视频当成城市环境建模的素材源,但画面里挤满了行人和他们的阴影;他们构建了一个由真实素材拼接而成的半合成数据集 EgoCrowds(1000 对"有人/无人"视频片段),在此之上微调 Casper 视频扩散模型得到 CrowdEraser,能在人群密集、背景复杂的场景下把人连同阴影一起干净抹除,去人后的视频甚至能直接拿去做 3D/4D 城市重建。
- Generative Neural Video Compression via Video Diffusion Prior
-
本文提出 GNVC-VD,首个基于 DiT 的生成式神经视频压缩框架,通过将视频扩散变换器作为视频原生生成先验,在统一编解码器中实现时空潜在压缩和序列级生成精炼,在极低码率(<0.03 bpp)下大幅超越传统和学习型编解码器的感知质量,并显著减少先前生成方法中的闪烁伪影。
- Generative Video Motion Editing with 3D Point Tracks
-
本文提出 Edit-by-Track:把"源视频 + 一对源/目标 3D 点轨迹"作为条件喂给一个 V2V 视频扩散模型,用 3D 轨迹建立源到目标的稀疏对应关系,从而同时编辑相机视角和物体运动(含遮挡、深度排序、非刚性形变),在 DyCheck 和野外视频上全面超过现有 I2V/inpaint 类方法。
- GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection
-
GenHOI 给预训练视频生成大模型(Wan-14B-I2V)外挂一个仅 157M 参数(约 0.95%)的轻量模块,用 Head-Sliding RoPE(时间上把参考物体 token 的影响均摊到每一帧)+ 空间注意力门控(空间上把物体条件注意力聚焦到手物交互区),在不破坏底模泛化能力的前提下,让野外场景下的手-物交互视频既动作自然又跨帧保持物体外观一致,在自重演/跨重演各指标上显著超过 VACE、HOI-Swap 等 SOTA。
- Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context
-
提出 Geometry-as-Context (GaC) 框架,将基于重建的场景视频生成中的不可微算子(3D重建+渲染)替换为统一的自回归视频生成模型,通过将几何信息(深度图)作为交错上下文嵌入生成序列,实现端到端训练并缓解累积误差。
- GT-SVJ: Generative-Transformer-Based Self-Supervised Video Judge For Efficient Video Reward Modeling
-
这篇论文把一个现成的视频生成模型(CogVideoX)改造成视频奖励模型——通过能量模型 + 对比学习先训出一个能区分"真实/退化"视频的判别器,再两步对齐人类偏好,仅用 30K 人工标注就在 GenAI-Bench、MonteBench 上超过用几十万到两百万标注的 VLM 奖励模型。
- HandWorld: Hand-Centric Unified Video Action Generation
-
HandWorld 用一个共享的跨域条件网络把"手部动作"和"第一视角视频"两个域绑在一起,再各自接一个解耦的扩散 Transformer,配合 MANO 渲染手作为中间桥梁和灵活的多任务训练,从而能在同一个框架里同时做动作条件视频生成和未来手部动作预测,两项都超过现有专用基线。
- HarmoVid: Relightful Video Portrait Harmonization
-
HarmoVid 用「逐帧协调 → 去闪烁 → 双路训练」的两阶段数据 + 模型方案,在没有真实配对数据的前提下,把前景人像视频的光照、阴影、色调协调到目标背景,做到时序稳定、边界干净、重光照表现力强。
- HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
-
HoloCine 在 Wan2.2 这类 DiT 视频扩散模型上,用「窗口交叉注意力」把每个镜头对齐到自己的分镜文本、用「稀疏镜头间自注意力」把全序列自注意力的二次复杂度降到近线性,从而一次性整体生成一整场分钟级、角色一致、可精确控制转场的多镜头电影化叙事。
- HVG-3D: Bridging Real and Simulation Domains for 3D-Conditional Hand-Object Interaction Video Synthesis
-
HVG-3D 给图生视频扩散模型(CogVideoX-5B-I2V)接上一个吃 3D 点云序列与 3D 跟踪信号的 ControlNet,再配一条能同时从真实视频和仿真器构造条件的混合数据管线,让模型只用一张真实图 + 一段 3D 条件就能生成几何正确、时序连贯、可被仿真数据驱动的手物交互视频,在 TASTE-Rob 上取得 SOTA。
- ID-Crafter: VLM-Grounded Online RL for Compositional Multi-Subject Video Generation
-
ID-Crafter 把"分层身份保持注意力 + VLM 语义引导 + 在线 RL 后训练"拼成一个统一框架,专门解决多主体视频生成里"既要每个主体不串脸、又要画面动起来还自然"这对天生矛盾,在开源多主体 S2V benchmark 上把 FaceSim 等指标刷到新 SOTA。
- Improving Motion in Image-to-Video Models via Adaptive Low-Pass Guidance
-
作者发现 I2V 模型生成的视频比同源 T2V 更"僵",根因是参考图的高频细节在去噪极早期就把生成轨迹"锁死"成静态捷径;于是提出无需训练的自适应低通引导(ALG)——只在采样早期对条件图做低通滤波、后期换回原图,在 VBench 上把动态度平均提升 33% 而几乎不损画质。
- Inference-time Physics Alignment of Video Generative Models with Latent World Models
-
用一个预训练的隐式世界模型(VJEPA-2)的"惊讶度"当奖励,在推理时对视频扩散模型的去噪轨迹做搜索与引导,让生成视频更符合真实物理,在 PhysicsIQ 挑战赛上拿到 62.64% 的第一名、比此前 SOTA 高 7.42%。
- Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
-
提出 ∞-RoPE,一个训练免调的推理时框架,通过 Block-Relativistic RoPE、KV Flush 和 RoPE Cut 三个组件,将仅在5秒视频上训练的自回归视频扩散模型扩展为支持无限时长生成、精细动作控制和电影级场景切换的系统。
- I'm a Map! Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
-
提出IMAP(可解释运动注意力图),通过GramCol空间定位和运动头选择时序定位两个无训练模块,从Video DiT中提取运动概念的时空显著性图,在运动定位和零样本视频语义分割上超越现有方法。
- IP-Adapter Is All You Need: Towards Fine-Tuning-Free Diffusion-Based Talking Face Generation
-
本文提出 FreeTalkDiff——一个完全免微调、零可训练参数的说话人脸生成框架:直接拿预训练的 Stable Diffusion + IP-Adapter 当骨干挖掘唇部语义,再外挂 Structurist(3DMM 解耦唇形与外观)、Structure Controller(按准单调性自适应修正嵌入)、Noise Sensor(高斯先验建模并滤除抖动闪烁)三个无参模块,在 CREMA / HDTF 上以 0 训练步数超过需要数万步微调的 SOTA(PCLD 至少 +0.16、FID 至少 +0.7)。
- LAMP: Language-Assisted Motion Planning for Controllable Video Generation
-
提出LAMP框架,将运动控制建模为语言到程序合成问题:设计电影摄影启发的运动DSL,训练LLM将自然语言描述转化为结构化运动程序,再确定性映射为3D对象和相机轨迹来条件化视频生成,首次实现从自然语言同时生成对象和相机运动。
- LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models
-
给定一段单目视频,LaVR 把预训练 4D 重建模型(CUT3R)的隐状态当作"软"几何条件喂给视频扩散模型,从而在沿任意新相机轨迹重渲染场景时,既保住扩散先验的视觉质量、又保住几何一致性——在一致性和位姿还原精度上同时超过显式点云条件和无条件两类基线。
- Less is More: Data-Efficient Adaptation for Controllable Text-to-Video Generation
-
给预训练文生视频模型(WAN 2.1)加上对快门速度、光圈、色温这类物理相机参数的连续控制时,本文发现用稀疏、低保真的合成数据微调,反而比用照片级真实数据效果更好——因为照片级数据会破坏 backbone 的预训练先验导致"内容崩塌",而简单合成数据只让模型"挖出"已有先验,配合"解耦交叉注意力 + 联合 LoRA 训练 + 推理时剪枝"的设计实现高保真可控生成。
- Let Your Image Move with Your Motion! – Implicit Multi-Object Multi-Motion Transfer
-
本文提出 FlexiMMT,首个支持隐式多目标多运动迁移的 I2V 框架,通过运动解耦掩码注意力机制(MDMA)约束 motion/text token 仅影响对应目标区域、差异化掩码提取机制(DMEM)从扩散注意力中推导目标掩码并渐进传播,实现了精确的组合式多目标运动迁移。
- LightMover: Generative Light Movement with Color and Intensity Controls
-
LightMover 利用视频扩散先验,将光源编辑建模为序列到序列预测问题,通过统一的控制token表示实现光源位置、颜色和亮度的精确操控,并提出自适应token剪枝机制将控制序列长度减少41%,在光源移动和物体移动任务上均超越现有方法。
- LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation
-
提出 LinVideo,一种无需训练数据的后训练框架,通过选择性地将视频扩散模型中的二次注意力替换为线性注意力,实现 1.43–1.71× 加速,结合蒸馏可达 15.9–20.9× 加速,同时保持生成质量。
- LoL: Longer than Longer, Scaling Video Generation to Hour
-
针对自回归超长视频生成中"画面突然倒退回开头几帧"的 sink-collapse 现象,本文先把它的根因定位到 RoPE 周期性导致的"多维相位同步 + 多头注意力同质化",再用一个免训练的 Multi-Head RoPE Jitter(逐头微扰 RoPE 基频)打散这种同步,配合因果 VAE 滑窗解码,首次实现实时、流式、近乎无质量衰减的无限长视频生成(演示出 12 小时连续视频)。
- LottieGPT: Tokenizing Vector Animation for Autoregressive Generation
-
提出首个矢量动画自回归生成框架 LottieGPT,设计了 Lottie 分词器将层级几何体、变换和关键帧运动编码为紧凑 token 序列,构建 660K 动画数据集,基于 Qwen-VL 微调实现从文本/图像直接生成可编辑矢量动画。
- Lynx: Towards High-Fidelity Personalized Video Generation
-
Lynx 在开源视频基座 Wan2.1-14B(DiT)上挂两个轻量适配器——把 ArcFace 人脸向量压成 16 个身份 token 注入的 ID-adapter,和走冻结参考分支抽稠密 VAE 特征逐层注入的 Ref-adapter——只需单张人脸图就能生成身份高度相似、动作自然的个性化视频,在 40 主体 × 20 prompt 的 800 例基准上人脸相似度全面领先。
- M4V: Multimodal Mamba for Efficient Text-to-Video Generation
-
M4V 把文生视频扩散模型里二次复杂度的注意力块换成线性复杂度的 Mamba 块(MM-DiM),靠一套「多模态 token 重排」让单向扫描的 SSM 也能做文本条件融合和时空建模,在 768×1280 长视频上把混合层 FLOPs 砍掉约 45%,质量与基线 PyramidFlow 持平、迁移到 Wan2.1 后还反超原模型。
- LocalDPO: Direct Localized Detail Preference Optimization for Video Diffusion Models
-
提出LocalDPO,通过对真实高质量视频进行随机时空Bézier掩码的局部腐蚀生成负样本(单次推理、无需外部排序),配合区域感知DPO损失在局部细节级别进行偏好对齐,在Wan2.1和CogVideoX上一致超越传统DPO和SFT的视频质量。
- MoCha: End-to-End Video Character Replacement without Structural Guidance
-
MoCha 把视频角色替换从"逐帧 mask + 骨架/深度结构引导的重建范式"换成端到端的非重建范式:只给一张任意单帧 mask、不给任何结构引导,靠视频扩散模型自带的跟踪能力把源角色的运动与表情迁移到参考身份上,再用 condition-aware RoPE 融合多模态条件、RL 后训练强化面部一致性,在合成与真实 benchmark 上全面超过 VACE / HunyuanCustom / Wan-Animate。
- MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis
-
MoReGen 不走扩散去噪,而是让多个 LLM 智能体把自然语言变成可执行的物理仿真代码——文本解析 agent 抽取物理参数、写码 agent 生成仿真脚本、渲染 agent 把轨迹画成视频、评估器再回环修正,从而生成严格遵守牛顿力学的视频;配套提出 1275 段标注轨迹的 MoReSet 基准和基于轨迹对齐的 MoRe 指标,证明现有 SOTA 文生视频模型在物理精度上集体失守。
- MotionV2V: Editing Motion in a Video
-
MotionV2V 把"视频运动编辑"重新定义为"直接编辑从输入视频抽出的稀疏轨迹"——源轨迹与目标轨迹之间的偏差称为"运动编辑"(motion edit),再用一套自造的"运动反事实"视频对去微调一个带控制分支的视频扩散模型,使得在严格保留原视频未编辑内容的前提下,可以改物体运动、改相机、改时序,且能从任意帧开始编辑;4-way 用户研究中偏好率超 65%。
- MultiAnimate: Pose-Guided Image Animation Made Extensible
-
MultiAnimate 在 Wan2.1 DiT 视频生成框架上引入「Identifier Assigner + Identifier Adapter」一对模块,把每个人物的 tracking mask 编成结构化标签注入 DiT,再配合「从可学习标签库随机采样身份」的训练策略,让仅在双人数据上训练的模型也能稳定生成 3~7 人、身份不串、遮挡合理的舞蹈动画。
- MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
-
MultiShotMaster 在一个约 1B 参数的预训练单镜头 T2V 模型上,只靠改造两种 RoPE(叙事相移 + 时空定位)加一个注意力掩码,就实现了"镜头数/时长可变、每镜头独立文本、主体可指定位置与运动、背景可定制"的多镜头视频生成,且不引入额外 adapter,在文本对齐、跨镜头一致性、转场精度、叙事连贯性上全面超过 CineTrans / EchoShot / VACE / Phantom。
- MusicInfuser: Making Video Diffusion Listen and Dance
-
MusicInfuser 不从头训练音频-视频模型,而是给预训练文生视频扩散模型(Mochi)注入零初始化的音乐-视频模块,并用一个"层可适配性"准则只挑少数 DiT 层做交叉注意力适配,从而在单卡一天内让视频扩散模型"听音乐跳舞",且保留原模型的文本控制与画质先验。
- NS-Diff: Fluid Navier-Stokes Guided Video Diffusion via Reinforcement Learning
-
NS-Diff 把视频扩散的去噪轨迹重新表述成一个"物理约束的马尔可夫决策过程",在 DiT 的潜空间里检测刚体/流体区域、注入速度场与形变梯度,再用 PPO 把"刚体最小 jerk + 流体简化 Navier-Stokes"当作奖励来微调去噪策略,从而在不依赖物理仿真和人工标注的前提下让生成视频的运动更符合物理规律(jerk 误差降 43%、流体散度降 33%、FVD 提升 22.7%)。
- OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens
-
OmniLottie 提出一种将 Lottie JSON 文件转化为结构化命令-参数序列的 Lottie Tokenizer,使预训练 VLM 可以基于多模态交叉指令生成高质量矢量动画,并构建了 MMLottie-2M 大规模数据集支撑训练。
- One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer
-
针对参考图与驱动视频"空间错位"这一长期未解的难题,本文把角色动画训练重构成一个自监督 outpainting 任务,配合专门的参考特征提取器、身份-骨架解耦的姿态控制和 token replace 长视频策略,使任意布局的单张参考图都能驱动跨尺度的视频动画与图像姿态迁移,质量超过同规模 SOTA。
- OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory
-
OneStory 把多镜头视频生成(MSV)重新表述成"逐镜头自回归的下一镜头生成"任务,用一个帧选择模块从全部历史镜头里挑出语义相关帧、再用一个自适应条件器按重要性把这些非连续帧压成紧凑 context token 直接喂给 DiT,从而在分钟级、十镜头的叙事中同时保住角色/环境一致性和复杂剧情跟随,T2MSV 与 I2MSV 两种设定下都拿到 SOTA。
- Open-world Hand-Object Interaction Video Generation Based on Structure and Contact-aware Representation
-
SCAR 提出一种「结构+接触感知」的 2D HOI 表征(接触增强的手物轮廓 + 深度图),并用一个「联合生成」范式让扩散 Transformer 同时去噪 RGB 视频和该表征,从而在不依赖 3D 标注的情况下学到符合物理约束的手物交互,并能泛化到开放世界场景。
- Pantheon360: Taming Digital Twin Generation via 3D-Aware 360° Video Diffusion
-
Pantheon360 用从稀疏 360° 输入重建出的显式 3D 点云("3D Cache")沿任意用户指定相机轨迹渲染出"只有几何、没有纹理"的全景视频,再让微调后的 SVD 扩散模型在这个几何骨架上"贴皮"补真实纹理,从而在 in-the-wild 全景场景上实现精确轨迹控制 + 全局几何一致的数字孪生视频生成,PSNR / MET3R 等指标全面超过 GEN3C 等透视基线。
- PerformRecast: Expression and Head Pose Disentanglement for Portrait Video Editing
-
PerformRecast 提出了一种基于改进 3DMM 关键点变换公式的 GAN 人像视频编辑方法,通过将表情形变加在头部旋转之前(与 FLAME 模型一致)实现表情与头部姿态的精确解耦,并引入边界对齐模块解决面部/非面部区域的拼接错位问题,在表情替换和表情增强两种模式下均显著优于现有方法。
- PersonaLive! Expressive Portrait Image Animation for Live Streaming
-
PersonaLive 用「混合运动控制 + 少步外观蒸馏 + 微块自回归流式生成」三阶段方案,把扩散式肖像动画从需要 20+ 步去噪、每块秒级延迟的离线模型,压到 4 步去噪、15.82 FPS、0.253 秒延迟的实时直播可用状态,相比此前扩散方法加速 7–22×,且长序列时序稳定性还更好。
- Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical Dynamics
-
提出Phantom框架,在预训练视频扩散模型(Wan2.2-TI2V)之上增加一个物理动力学分支,利用V-JEPA2提取的物理感知嵌入作为潜在物理状态,通过双向交叉注意力联合建模视觉内容和物理动力学演化,在物理一致性基准上大幅超越基线(VideoPhy PC提升50.4%),同时保持视觉质量。
- Physical Object Understanding with a Physically Controllable World Model
-
本文把"世界模型"重新表述成一个能查询任意视觉变量条件分布的概率图模型(PGM),并用 GPT 式 next-token 预测高效训练出一个 70 亿参数、以 RGB / 光流 / 相机 token 描述场景的可物理操控世界模型 PSI;训练完成后无需任何专门头部,仅靠"虚拟戳一下看哪些像素一起动"就能零样本做出可移动物体分割(SpelkeBench SOTA)、铰接部件发现、3D 物体操控与 Visual Jenga 等一系列物理理解任务。
- Physical Simulator In-the-Loop Video Generation
-
提出PSIVG——首个将物理模拟器嵌入视频扩散生成循环的训练-free推理时框架:从模板视频中重建4D场景和物体网格,在MPM模拟器中生成物理一致轨迹,用光流引导视频生成,并通过TTCO测试时优化保证运动物体纹理一致性,用户偏好率达82.3%。
- PhysVid: Physics Aware Local Conditioning for Generative Video
-
提出 PhysVid,一种物理感知的局部条件化方案——将视频分为时间片段(chunk),由 VLM 为每个 chunk 标注物理现象描述,通过 chunk 级交叉注意力注入生成模型;推理时引入"负物理提示"(反事实引导)引导生成远离物理违规,在 VideoPhy 上将物理常识分数提升约 33%。
- PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories
-
PLACID 把多物体"摆台"合成(multi-object compositing)重新表述成一个图生视频(I2V)任务:让随机散落的多个物体沿合成轨迹"走"到最终布局,用视频扩散模型最后一帧作为合成图,从而借视频时序先验同时守住每个物体的身份、背景与颜色,并显著减少漏物 / 重复。
- Plenoptic Video Generation
-
PlenopticDreamer 把"沿任意相机轨迹重渲染输入视频"做成一个自回归、多进单出的扩散模型:每生成一个新视角时,从已生成视频构成的记忆库里按 3D 视锥可见度检索出最相关的若干段历史视频作为条件,再配合渐进式上下文扩张与自条件训练,从而让不同相机轨迹下被"脑补"出来的遮挡区域保持时空一致,在 Basic / Agibot 两个基准上的视角同步指标大幅超过 ReCamMaster 等单视图方法。
- PoseAnything: General Pose-guided Video Generation with Part-aware Temporal Coherence
-
PoseAnything 让姿态引导的视频生成第一次摆脱"只能驱动人体"的限制,给定首帧 + 任意主体的骨架序列就能生成对应运动的视频;它靠"部件感知时序一致性模块"把外观一致性细化到身体局部,靠"主体-相机运动解耦 CFG"首次实现相机运动的独立可控,并放出 5 万对非人姿态-视频数据集 XPose,在 TikTok(人体)和自建非人 benchmark 上全面超过 SOTA。
- PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models
-
PropFly 用冻结的预训练视频扩散模型(VDM)自己当"监督来源":对同一个加噪 latent 用低/高两个 CFG 尺度做一步去噪估计,得到结构对齐、语义有差异的"源/目标"视频对,再用一个新的 GMFM 损失训练 adapter 学会把"编辑后的首帧"传播到整段视频——全程不需要任何成对的(原视频,编辑后视频)数据集,却在多个视频编辑 benchmark 上显著超过 SOTA。
- ProPhy: Progressive Physical Alignment for Dynamic World Simulation
-
ProPhy 给视频扩散模型挂一条"物理分支",用两阶段混合物理专家(视频级语义专家 + token 级精炼专家)把文本里的物理先验逐级注入到具体空间区域,并借 VLM 的注意力图蒸馏出细粒度对齐目标,让生成视频在燃烧、碰撞、流体等复杂动态场景下更符合物理规律。
- RAPID: Reusing Attention Sparsity with Inter-step Adaptation for Efficient Video Diffusion
-
RAPID 观察到视频扩散里注意力稀疏模式有"时间稳定性"和"密度逐步衰减"两个规律,于是把每步都重算稀疏掩码的开销砍掉——只在去噪早期做一次高保真重要性打分、缓存掩码与分数后全程复用,并用缓存分数在后期重新阈值化做更激进剪枝,在 Wan2.1-14B 上同等密度下 PSNR 反超最强 baseline 达 +3.2,Turbo 模式把加速推到 1.79×(HunyuanVideo 2.01×)。
- Real-Time Generation of Streamable Talking Portrait Video with Reference-Guided Deep Compression VAEs
-
微软团队提出一个实时、可流式的音频驱动说话人像视频生成框架:用「参考图引导 + 因果残差」的深度压缩 VAE 把视频压到 768× 的紧凑 latent,再用分块自回归的整流流 Transformer 逐块生成 latent,做到 42 FPS(比现有扩散方法快 25× 以上),同时画质与大模型持平甚至更好。
- Reasoning Diffusion for Unpaired Test Time Out-of-distribution Text-Image to Video Generation
-
针对"文本和图像语义不对齐、图像也不一定是首帧"这种现实里很常见的非配对输入,本文用一个 MLLM(VisionNarrator)把两个看似无关的条件推理成一段逐帧剧本,再用 AlignFormer 把推理结果转成逐帧 latent 注入 Wan2.1 扩散模型,从而生成视觉与语义都自洽的视频。
- RecEdit-Drive: 3D Reconstruction-Guided Spatiotemporal Video Editing for Autonomous Driving Scenes
-
RecEdit-Drive 把一个 3D 重建模型(SV3D 多视角合成)塞进视频扩散编辑流程,用「空间特征 warping」从多个相关新视角构造前景目标视图、用「时空协同建模」的高斯跨帧注意力把编辑前景缝进背景,再配一个推理期的背景噪声替换策略,在 nuScenes 上对驾驶视频做删除/替换/插入/重定位四类编辑,FVD/FID 全面 SOTA 并能给下游 3D 检测做数据增强。
- ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
-
ReDirector 把"相机参数"作为相位偏移注入视频扩散模型的 RoPE,对输入视频和目标重拍共享同一套 3D RoPE 来对齐时空位置,从而能对任意长度、带剧烈相机运动的视频做相机可控重拍(retake),在几何一致性、相机可控性和长序列泛化上显著超过此前的 warping 和隐式条件方法。
- Ref4D-VideoBench: Four-Dimensional Reference-Based Evaluation of Text-to-Video Generative Models
-
针对现有文生视频(T2V)评测大多"无参考、只看 prompt"导致样本级失败无法归因的问题,本文提出 Ref4D-VideoBench:用 600 段真实参考视频作为结构化时空证据,沿语义对齐 / 运动一致 / 事件时序 / 世界知识四个维度设计 12 个可解释原子指标,在 8 个 T2V 模型上比无参考基线与人类评分的相关性高出一大截(如世界知识维 SRCC 0.847 vs 基线 ≤0.42)。
- ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
-
ReHyAt 把视频扩散 Transformer 里 \(O(N^2)\) 的全 softmax 注意力,改造成「块内 softmax + 块外线性」的时间分块混合注意力,再因果化重构成 chunk-wise RNN(常数显存、线性算力),并用「注意力蒸馏 + 轻量微调」两阶段流程在约 160 GPU 小时内把 Wan2.1 1.3B 转成等质量、可上手机、能生成长视频的循环模型。
- Rethinking Position Embedding as a Context Controller for Multi-Reference and Multi-Shot Video Generation
-
提出 PoCo(Position Embedding as Context Controller),通过在 RoPE 中引入额外的 SideInfo 轴编码参考实体信息,解决多参考多镜头视频生成中的"参考混淆"问题——当参考图像外观高度相似时模型无法正确关联镜头与参考。在 VACE-Wan2.1-14B 框架上实现 SOTA 的跨镜头一致性(CrossShot-FaceSim 89.35,CrossShot-DINO 92.66)。
- Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
-
Reward Forcing 把双向视频扩散模型蒸馏成几步自回归学生模型,用 EMA-Sink 压缩历史上下文防止"复制初始帧"、用 Re-DMD 把分布匹配梯度按运动质量奖励加权偏向高动态样本,在单张 H100 上以 23.1 FPS 实时生成高质量流式视频,VBench 总分超过所有同规模 baseline。
- RFDM: Residual Flow Diffusion Models for Video Editing
-
RFDM 把一个 2D 图像编辑(I2I)扩散模型改造成逐帧自回归的视频编辑模型——通过把当前帧的扩散噪声均值"平移"到上一帧的预测上,让模型只去学相邻帧之间的残差而非整帧,从而在不增加任何额外算力、可处理任意长度视频的前提下,做到媲美 3D 时空模型的时序一致性与编辑保真度。
- Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
-
本文提出数据合成框架 Ditto,用「图像编辑先验 + 深度视频」驱动一个 in-context 视频生成器、配合蒸馏加速与 VLM 智能体自动控质,耗费 1.2 万 GPU-天造出百万级指令视频编辑数据集 Ditto-1M,并用「模态课程学习」训出能纯靠文本指令编辑视频的模型 Editto,在自动指标和人评上都刷新了指令视频编辑的 SOTA。
- Scaling Zero-Shot Reference-to-Video Generation
-
本文提出 Saber——首个不依赖 R2V 三元组数据的参考图到视频框架,仅用海量视频-文本对训练,靠"把随机掩码后的视频帧当作参考图"的掩码训练策略 + 定制注意力掩码 + 掩码增强,在 OpenS2V-Eval 上零样本超过了所有用显式 R2V 数据训练的方法(含商业闭源 Kling1.6)。
- SeeU: Seeing the Unseen World via 4D Dynamics-aware Generation
-
提出 SeeU,一个 2D→4D→2D 的学习框架:从稀疏单目 2D 帧重建 4D 世界表示,在低秩表示上学习连续且物理一致的 4D 动力学(B 样条参数化 + 物理约束),最后将 4D 世界重投影回 2D 并用时空上下文感知的视频生成器补全未知区域,实现跨时间和空间的未见视觉内容生成。
- SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance
-
SemVideo 先用多模态大模型把视频刺激拆成"锚点描述/运动叙事/整体摘要"三级语义,再从 fMRI 信号分层解码出这些语义、用三路注意力重建运动潜变量,最后让文本到视频扩散模型在这套分层语义引导下生成视频,从而显著改善脑活动到视频重建中的"外观不一致"和"运动不连贯"两大顽疾。
- ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
-
ShotDirector 把"镜头转场该怎么剪"当成可控信号,给视频扩散模型同时注入参数级相机位姿(双分支 Plücker + 外参)和分层的剪辑模式感知提示(shot-aware mask),训练出能按导演意图生成 cut-in / cut-out / shot-reverse-shot / multi-angle 等专业转场的多镜头视频。
- SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation
-
提出SLVMEval元评估基准,通过从密集视频描述数据集合成受控退化的"高质量vs低质量"视频对(最长约3小时),测试现有T2V评估系统识别长视频质量差异的能力,发现人类在10个维度上达84.7%-96.8%准确率,而现有自动评估系统在9/10维度上落后于人类。
- SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation
-
SMRABooth 用自监督视觉编码器(DINOv2)和光流编码器(SEA-RAFT)分别为「主体外观」和「物体运动」提供 object-level 的对齐目标,再用一套「跨层 + 跨时间步」的稀疏 LoRA 注入策略把两者解耦,从而在 DiT 视频扩散模型上同时做到主体保真和运动一致。
- SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models
-
SoliReward 从「数据标注 + 训练损失 + 模型架构」三处系统性改造视频生成奖励模型:用单项二元标注(Pass/Fail)+ 跨提示词配对降低标注噪声,用带平局的 Bradley-Terry(BT-WT)损失把正样本压到紧凑区间以抑制奖励黑客,用分层渐进式查询注意力(HPQA)聚合 VLM 多层特征,在 RM 准确率和下游 GRPO 后训练上都超过现有基线。
- Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation
-
Soul 用单张人像 + 文本 + 音频驱动,在 Wan2.2-5B 扩散视频骨干上注入音频注意力、配合「枢轴帧 + 片段重叠 + 阈值感知码本替换」三件套压住长时漂移,再用步数/CFG 蒸馏与轻量 eVAE 拿到 11.4× 加速,配套自建百万级 Soul-1M 数据集与 Soul-Bench,做到 1080P、最长四分钟、身份一致的高保真数字人动画。
- SpaceTimePilot: Generative Rendering of Dynamic Scenes Across Space and Time
-
SpaceTimePilot 是首个把"相机视角(空间)"和"运动进度(时间)"解耦开来分别控制的视频扩散模型——给一段单目视频,它能在生成过程中独立改写相机轨迹和播放节奏(子弹时间、慢动作、倒放、任意混合),从而沿任意时空轨迹重渲染这个动态场景。
- Spatia: Video Generation with Updatable Spatial Memory
-
Spatia 给视频生成模型挂上一块"可更新的空间记忆"——把场景显式维护成一团 3D 点云,每生成一段视频就用视觉 SLAM 更新点云,再用点云投影回去约束下一段生成,从而让模型在长序列里"记得"去过的地方,同时还能干净地分离静态场景与动态物体、做显式相机控制和 3D 交互编辑。
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
-
STAGE 把"关键帧式多镜头视频生成"重新表述成"为每个镜头预测一对起始帧/结束帧"的故事板锚定问题,用 STEP2 模型(多镜头记忆包 + 双编码 + 两阶段训练)迭代生成这些起止帧对,再交给现成 I2V 模型补全,从而在跨镜头一致性和电影化转场上显著超过现有端到端与关键帧方法。
- Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
-
Stand-In 给预训练视频 DiT 加一条"条件图像分支",靠受限自注意力 + 条件位置映射把参考人脸的身份注入生成视频,只训练约 1% 额外参数、2000 对训练数据就在人脸相似度上反超一众全参数微调方法,并且不改主干、能即插即用到风格化 / 换脸 / 姿态引导等任务。
- STARFlow-V: End-to-End Video Generative Modeling with Autoregressive Normalizing Flows
-
STARFlow-V 把归一化流(NF)搬进视频生成领域,用「全局-局部」可逆结构做端到端最大似然训练 + 因果自回归推理,再配上轻量因果去噪器(flow-score matching)和视频感知 Jacobi 并行求解,首次证明归一化流能在 480p 视频上做出接近因果扩散基线的质量,并天然统一 T2V/I2V/V2V 三类任务。
- Stereo World Model: Camera-Guided Stereo Video Generation
-
StereoWorld 把预训练的单目视频扩散模型改造成「相机条件的双目世界模型」,靠一个不动原 RoPE、只在 token 上扩维注入相机位姿的「统一相机帧 RoPE」,加一个利用极线先验把 4D 注意力拆成「视内 3D 注意力 + 横向行注意力」的高效立体注意力,端到端直接生成左右视图一致的立体视频,比「单目生成再后处理转立体」的强 baseline 快 3 倍、视点一致性再涨约 5%。
- StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation
-
把一个预训练的单目视频扩散模型直接「改装」成立体视频生成器:用沿帧维拼接左右视图的极简条件化注入单目引导,再用视差 + 深度双重几何感知正则逼出真实 3D 结构,配上时空分块做高分辨率长视频,并自建首个对齐人眼瞳距(IPD)的 1100 万帧立体视频数据集,端到端从任意单目视频生成几何一致的右眼视图(PSNR 25.98 vs StereoCrafter 23.04)。
- StoryTailor: A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives
-
提出StoryTailor零样本视觉叙事生成管线,通过高斯中心注意力(GCA)缓解主体重叠和背景泄漏、动作增强奇异值重加权(AB-SVR)放大动作语义、选择性遗忘缓存(SFC)维护跨帧背景连续性,在单张RTX 4090上实现多主体、动作丰富的图像叙事生成,CLIP-T较基线提升10-15%。
- SURF: Signature-Retained Fast Video Generation
-
SURF 把高分辨率视频生成拆成「预训练大模型出低分辨率预览 + 轻量 Refiner 上采样」两阶段,用免训练的 noise reshifting 让大模型在低分辨率下仍保住原模型的布局/语义/运动「签名」,对 Wan 2.1 生成 720p 视频实现 12.5× 加速且质量几乎不掉。
- SVBench: Evaluation of Video Generation Models on Social Reasoning
-
SVBench 是首个针对「视频生成模型社会推理能力」的评测基准:作者把发展与社会心理学里 30 个经典实验范式抽成 7 个社会认知维度,用一条全程免训练的四智能体流水线把抽象范式自动转成难度可控、不泄露答案的视频 prompt,再用高能力 VLM 沿 5 个二值维度打分,对 8 个主流文生视频模型做了首次系统评测,发现它们「画面看着对、社会逻辑普遍不对」。
- SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution
-
SWIFT 首次定义了"少样本免训练生成视频溯源"任务,利用 3D VAE 中"多帧像素↔单帧潜变量"的时间映射特性,通过固定长度滑动窗口执行正常和损坏两次重建,用重叠帧的损失比值作为溯源信号,仅需 20 个样本即可达到 90%+ 平均溯源准确率,5 模型平均 94%。
- SwitchCraft: Training-Free Multi-Event Video Generation with Attention Controls
-
提出 SwitchCraft,一个无需训练的多事件视频生成框架,通过 Event-Aligned Query Steering (EAQS) 将帧级注意力对齐到对应事件提示、Auto-Balance Strength Solver (ABSS) 自适应平衡引导强度,在不修改模型权重的情况下实现多事件视频的清晰时序切换和场景一致性。
- SymphoMotion: Joint Control of Camera Motion and Object Dynamics for Coherent Video Generation
-
提出 SymphoMotion 统一运动控制框架,通过相机轨迹控制(CTC)和物体动态控制(ODC)两个机制同时精确控制视频中的相机运动和物体3D轨迹,并构建了25K规模的真实世界联合标注数据集 RealCOD-25K。
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation
-
SynMotion 让"运动定制视频生成"同时在语义层(把文本嵌入拆成主体/运动两路、各加可学残差)和视觉层(在 MM-DiT 里插入轻量运动 LoRA 适配器)上做适配,再配一套交替优化主体/运动嵌入的训练策略,使得从几段示例视频学到的动作能迁移到"鳄鱼倒立""玛丽莲·梦露出拳"等任意主体上,在 T2V 与 I2V 双设定下都超过 SOTA。
- Tea-Adapter: Teacher Adapter for Efficient Conditional Generation
-
Tea-Adapter 是一个即插即用的适配器,用「反向蒸馏」把一个小型、已高效微调出多条件控制能力的教师视频扩散模型的控制知识迁移进一个冻结的大型学生视频扩散模型,再用「条件专家混合(MCE)」层在统一架构里动态路由多种条件、并用「特征传播模块」保证跨帧时序一致,从而在低显存下实现高保真、可组合的多条件可控视频生成。
- TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models
-
提出 TEAR,首个针对 T2V 模型时序维度漏洞的自动化红队测试框架,通过两阶段优化的时序感知测试生成器和迭代精炼模型,生成文本上无害但能利用时序动态触发有害视频的提示,在开源和商业 T2V 模型上达到 80%+ 的攻击成功率。
- TempoControl: Temporal Attention Guidance for Text-to-Video Models
-
TempoControl 在文生视频扩散模型的去噪过程中,直接对交叉注意力图做几步梯度优化,用「相关性 + 幅度 + 熵」三项损失把某个词的注意力时序对齐到用户给定的掩码上,从而无需重训练、无需标注数据就实现「让某个物体/动作在第几秒出现」的细粒度时序控制。
- TempoMaster: Efficient Long Video Generation via Next-Frame-Rate Prediction
-
TempoMaster 把长视频生成重新表述为「下一帧率预测」——先用双向注意力一次性生成低帧率的全局蓝图,再逐级提高帧率补细节,每一级内部的片段可并行生成,从而在长程时序一致性和推理效率之间同时取胜,在 Vbench-Long 和人类评测上都刷到 SOTA。
- TGT: Text-Grounded Trajectories for Locally Controlled Video Generation
-
TGT 给文生视频里的每条点轨迹绑定一段局部文本,用一个即插即用的「位置感知交叉注意力(LACA)」把"哪个物体、长什么样、怎么动"对齐到轨迹邻域,再配双 CFG 分别调控全局/局部引导,在保持基础模型画质的前提下把轨迹误差(EPE)相比最强基线几乎砍半。
- The Devil is in the Details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection
-
提出 KeyTailor 框架,通过关键帧驱动的细节注入策略(服装动态增强 + 协同背景优化)在不修改 DiT 架构的前提下,大幅提升视频虚拟试穿的服装保真度与背景一致性,同时发布 15K 高清数据集 ViT-HD。
- Thermal Diffusion Matters: Infrared Spatial-Temporal Video Super-Resolution through Heat Conduction Priors
-
THERIS 把红外视频的逐像素灰度序列当成满足热传导方程的温度场,用频域热扩散核做帧插值(TDIM)、用带"热提示"调制的 Mamba 模块做时空细节恢复(TSSM),再加一个强制满足离散热方程的损失(TFM Loss),在红外时空视频超分上拿到 SOTA。
- Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm
-
本文提出"Thinking with Video"(用视频思考)这一新的多模态推理范式,主张让 Sora-2 这类视频生成模型把推理过程画进视频帧里,并构建了覆盖"几何直觉→视觉归纳→抽象规则→空间规划→语言推理"五级能力的 VideoThinkBench 来系统评测——发现 Sora-2 在 eyeballing 几何题上反超 GPT-5 约 10%,在 MATH 上拿到 92% 音频准确率,证明视频生成模型有望成为统一理解与生成的推理载体。
- TiViBench: Benchmarking Think-in-Video Reasoning for Video Generation
-
TiViBench 把"图生视频(I2V)模型到底会不会推理"做成一个分四维度、24 个任务、3 个难度、595 个样本的分层基准,发现商用模型(Sora 2、Veo 3.1)明显比开源模型强、但所有模型在需要规则/符号推理的任务上都崩;并配套提出一个不训练的测试时方法 VideoTPO,用 VLM 自我比较两条候选视频来迭代改写 prompt,把 Wan2.1 的整体准确率从 8.40% 拉到 18.15%。
- Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers
-
LDF-VFI 把视频帧插值(VFI)从"逐三元组各算各的"改成"整段视频统一建模"——用自回归扩散 Transformer 一次合成一个时间块内的全部帧,配合 skip-concatenate 采样压住自回归误差累积、稀疏注意力 + 分块 VAE 实现免训练泛化到 4K,在长视频时序一致性上拿到 SOTA。
- Transition Matching Distillation for Fast Video Generation
-
TMD 把视频扩散教师模型拆成「主干(提语义)+ 轻量 flow head(迭代精修细节)」的解耦学生,再用「TM-MeanFlow 预训练 flow head + 带 flow head 展开的 DMD2-v 分布匹配蒸馏」两阶段训练,把 Wan2.1 1.3B/14B 蒸成 1~4 步生成器,在可比推理成本下视觉保真度和文本对齐都超过现有蒸馏方法。
- TV2TV: A Unified Framework for Interleaved Language and Video Generation
-
TV2TV 用一个 Transfusion 风格的统一模型,把视频生成拆成「先用文字想清楚下一段画面要发生什么、再用像素把它画出来」的交错过程,让语言塔承担语义决策、视频塔负责渲染,从而在画质(人评 91% 胜率)和细粒度可控性(指令跟随准确率 +19 分)上同时超越「直接文生视频」和「先想完再生成」的基线。
- U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation
-
提出 U-Mind,首个统一实时全栈多模态交互系统,支持高层推理对话和指令跟随,在单一交互循环中联合生成文本、语音、动作,并渲染为逼真视频,通过排练驱动学习和文本优先解码策略兼顾推理保持与跨模态对齐。
- UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
-
UniAVGen 提出了一个基于对称双分支 DiT 的音视频联合生成框架,通过非对称跨模态交互机制和人脸感知调制模块实现精确的时空同步,仅用 1.3M 训练样本就在唇音同步、音色一致性和情感一致性上全面超越使用 30M 数据的竞品。
- Unified Camera Positional Encoding for Controlled Video Generation
-
本文提出 UCPE,把相机的完整几何(6-DoF 位姿 + 内参 + 镜头畸变)统一编码进 Transformer 注意力:用「相对射线编码」把位置编码从相机级降到射线级以兼容鱼眼/广角等非线性镜头,再用「绝对朝向编码」补上 pitch/roll 的全局参考,最后用一个 <1% 参数的空间注意力适配器注入预训练视频 DiT,在相机可控文生视频上同时刷新可控性与画质。
- UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation
-
UnityVideo 把"文生视频 / 可控生成 / 模态估计"三类任务和"深度、光流、DensePose、骨架、分割"五种辅助模态全部塞进一个 10B 的扩散 Transformer,靠动态噪声调度统一任务、靠 Modality-Aware AdaLN 表 + In-Context Learner 统一模态,在 1.3M 多模态数据上联合训练后既加速收敛又显著提升零样本泛化,多任务上同时打过或追平各自的专用 SOTA。
- V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
-
V-RGBX 把视频先逆渲染成 albedo / normal / material / irradiance 等内在通道,再用一个交错式条件注入的视频 DiT 把它们重新合成回 RGB,从而让用户只在稀疏关键帧上改某一种内在属性(如换材质、重打光),就能把这个物理一致的编辑稳定传播到整段视频。
- VABench: A Comprehensive Benchmark for Audio-Video Generation
-
VABench 是面向「同步音视频生成」的综合评测基准,覆盖文本→音视频(T2AV)、图像→音视频(I2AV)和立体声三类任务、七大内容类别,用「专家模型 + 多模态大模型」双轨共 15 个细粒度指标(外加 9 个立体声声学指标)对 Veo3 / Sora2 / Wan2.5 等端到端模型与「视频生成器 + V2A」解耦组合做无参考评测,并用用户研究验证打分与人类偏好高度相关。
- Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
-
Vanast 提出一种统一框架,通过 Dual Module 架构(HAM + GTM)和三阶段合成数据构建流水线,在单阶段内同时完成服装迁移和人体动画生成,在 Internet 数据集上 PSNR 达到 17.95dB(+5.5dB vs 最佳两阶段方案),LPIPS 仅 0.237。
- VDOT: Efficient Unified Video Creation via Optimal Transport Distillation
-
VDOT 把一个 14B 的统一视频创作大模型(VACE-Wan2.1)蒸馏成只需 4 步去噪的少步生成器,关键是在分布匹配蒸馏(DMD)里首次引入熵正则最优传输(OT)距离作为几何约束,缓解 KL 蒸馏在少步场景下的 zero-forcing / 梯度坍塌问题,再配一个对抗判别器引入真实视频,最终 4 步效果追平甚至超过教师 50 步。
- Vector Prism: Animating Vector Graphics by Stratifying Semantic Structure
-
针对 VLM 直接给 SVG 写动画常常"乱动"的问题,Vector Prism 先用多种渲染视图让 VLM 给每个图元弱标注,再用 Dawid-Skene 统计推断把这些噪声标签聚成可靠的语义分组并重构出"可动画"的 SVG 层级,从而让 VLM 在有意义的部件粒度上生成动画,指令贴合度和视觉质量全面超过 AniClipart、GPT-5 乃至 Sora 2 等商业视频生成模型。
- VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control
-
提出 VerseCrafter,一个基于4D几何控制表示(静态背景点云 + 逐物体3D高斯轨迹)的视频世界模型,通过轻量 GeoAdapter 将4D控制信号注入冻结的 Wan2.1-14B 视频扩散模型,实现了对相机和多物体运动的精确、解耦控制,同时构建了包含 35K 样本的真实世界数据集 VerseControl4D。
- VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation
-
VGA-Bench 把文生视频(T2V)的评测从"真不真"扩展到"美不美",用「美学质量 / 美学标签 / 生成质量」三维 52 个细粒度子维度、1016 条维度对齐的 prompt、12 个模型生成的 6 万段视频,并训练 VAQA-Net / VTag-Net / VGQA-Net 三个专用网络做端到端自动打分,摆脱对外部模型的依赖,给出与人类判断对齐的跨模型横评。
- Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO
-
把"下一事件预测"的答案从文字升级成视频:用 VLM 先推理出下一步该发生什么、再用视频扩散模型把它演出来,并提出 Joint-GRPO 两阶段强化学习把推理与生成两个独立模型用一个共享奖励拧成一股绳,在程序性与预测性两类基准上同时拿下文本预测和视频生成的 SOTA。
- Video Generation with Stable Transparency via Shiftable RGB-A Distribution Learner
-
针对带 alpha 通道的透明视频(RGB-A)生成中 RGB 与 alpha 分布纠缠导致质量差、透明度不稳的问题,本文提出"可偏移 RGB-A 分布学习器"——在 latent 空间用透明度感知的双向扩散损失把 alpha 分布推开、保留 RGB 分布,在 noise 空间用高斯椭圆掩码偏移噪声均值提供透明度引导与可控性,配合自建高质量数据集,在视觉质量、透明度渲染和推理速度(比 SOTA 快 15 倍)上全面领先。
- VideoRealBench: A Chain-of-Thought Realism Evaluation Benchmark for Generated Human-Centric Videos
-
针对生成视频"真实性"无法被现有评测器可靠打分这一问题,作者重新人工标注了一个 3,297 条人体中心生成视频的数据集 VideoRealDataset(含三步思维链理由),并用它 LoRA 微调出评估器 VideoRealEval,在与人类偏好的相关性上(PLCC 57.07% / SROCC 56.78%)显著超过 Gemini-2.5-pro、InternVL3.5-241B 等通用大模型和此前的专用评测器。
- VideoWeaver: Multimodal Multi-View Video-to-Video Transfer for Embodied Agents
-
VideoWeaver 把单视角的视频到视频(V2V)风格迁移扩展到多个同步相机,靠把 Pi3 预测的 4D 点云坐标注入流模型隐空间来统一各视角的外观,再用「各视角不同噪声时间步」的训练让模型同时学会联合分布和条件分布,从而能在保持机器人动作轨迹不变的前提下,对一整套多机位的具身演示视频做风格一致的批量重渲染。
- VidTAG: Temporally Aligned Video to GPS Geolocalization with Denoising Sequence Prediction at a Global Scale
-
VidTAG 把"视频地理定位"重新表述成逐帧到 GPS 坐标的检索问题,用 CLIP+DINOv2 双编码器抽帧特征、TempGeo 做帧间时序对齐、GeoRefiner 做轨迹去噪,在全球尺度上生成时序连贯的 GPS 轨迹,1km 阈值上比 GeoCLIP 提升约 20%。
- VISTA: A Test-Time Self-Improving Video Generation Agent
-
VISTA 是一个不碰模型权重、纯靠"反复改提示词 + 自我评判"在测试时迭代提升文生视频质量的多智能体系统,把用户想法拆成结构化时序剧本、用配对锦标赛选出最佳视频、再由视觉/音频/上下文三组陪审团式 agent 挑刺并由推理 agent 重写提示词,对 Veo 3 这类 SOTA 模型仍能拿到最高 60% 配对胜率、人类评测也有 66.4% 偏好。
- VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization
-
VIVA 用一个 VLM「指导员」把指令+首帧+可选参考图编码成视觉接地的多模态条件喂给视频 DiT,再用专为编辑设计的 Edit-GRPO 后训练(指令遵循/源保真/人类偏好三路奖励)做对齐,配合自建 150 万对合成数据,在 VIE-Bench 上指令遵循与编辑质量全面超过开源 SOTA、逼近商用 Runway Gen-4 Aleph。
- VMonarch: Efficient Video Diffusion Transformers with Structured Attention
-
VMonarch 发现视频 DiT 的注意力图天然呈高秩、块对角的稀疏结构,可以用 Monarch 结构化矩阵来逼近,于是把空间-时间维度对齐到 Monarch 因子上做次二次复杂度注意力,再配合首帧重算和融合熵计算的 FlashAttention 内核,在 VBench 上几乎不掉点的前提下把注意力 FLOPs 砍掉 17.5×、长视频加速 5× 以上。
- VSRELL: A Simple Baseline for Video Super-Resolution and Enhancement in Low-Light Environment
-
VSRELL 把"低光增强(LLE)"和"视频超分(VSR)"这两个一向被拆开做的任务在一个 CNN 框架里同步解耦地联合求解:用 INCO 模块在时序窗口内同时建模光照与噪声、用 ISFP 模块把光照先验注入可变形对齐并给记忆特征加动态衰减,最终以 6.3M 参数在 REDS4 上把平均 PSNR 从级联/all-in-one 方法的 ~20.6 dB 拉到 25.94 dB。
- What Are You Doing? A Closer Look at Controllable Human Video Generation
-
作者发现现有的可控人体视频生成基准(TikTok、TED-Talks、HumanVid)都太小太窄,于是构建了 1,544 段精细标注的 WYD 基准(9 大类 56 子类),并改造出 pICD / pAPE 两个人体专属指标,系统评测 8 个 SOTA 开源模型,首次量化暴露了它们在多人、人物交互、复杂场景、剧烈运动上的系统性短板。
- When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models
-
NUMINA 的核心思想是,不去重训视频扩散模型,而是在推理时先从 DiT 的注意力中提取一个“可计数的实例布局”,判断数量词和当前布局是否不一致,再对布局做保守的增删修改,并用该布局回头引导重生成,从而显著提升文本到视频模型对“两个苹果、八只鸭子”这类数量约束的遵从能力。
- WorldReel: 4D Video Generation with Consistent Geometry and Motion Modeling
-
WorldReel 把视频扩散模型的隐空间用「深度+光流」增广,并让模型在生成 RGB 的同时直接吐出逐帧点云、相机轨迹、3D 场景流和动态掩码,用合成数据的精确 4D 标签加正则项把静态几何和动态运动解耦监督,从而生成在大幅相机/非刚性运动下仍然 3D 一致的视频,深度误差从 0.353 降到 0.287。
- YOSE: You Only Select Essential Tokens for Efficient DiT-based Video Object Removal
-
YOSE 是一个即插即用的微调框架:它把基于 DiT 的视频物体移除(如 MiniMax Remover)从"对整段时空 token 做密集计算"改造成"只处理掩码区域内的 token、并用一个轻量模块模拟外部区域对自注意力的影响",让推理耗时随掩码面积近似线性下降,在 70% 的真实场景中实现 2.5× 加速且画质几乎不掉。
- Yume1.5: A Text-Controlled Interactive World Generation Model
-
Yume1.5 把一张图或一段文字变成可用键盘自由探索的无限世界视频,靠「时空-通道联合压缩历史帧」省显存、靠「Self-Forcing 蒸馏」把推理压到 4 步 8 秒,还能用文字临时往世界里塞事件,指令跟随分数从前作 0.657 拉到 0.836。