跳转至

🎬 视频生成

💬 ACL2026 · 3 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (59) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (11) · 🧠 NeurIPS2025 (23) · 📹 ICCV2025 (51) · 🧪 ICML2025 (7)

🔥 高频主题: 视频生成 ×3

Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity

提出 Local Optimization + Representation Continuity (ReCo) 训练策略,通过在局部窗口内优化并约束隐状态的平滑过渡,实现自回归视频生成模型训练速度提升 2 倍且不牺牲生成质量。

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

提出 OSCBench——首个专门评估文生视频模型中物体状态变化(OSC)能力的基准,基于烹饪场景构建 1,120 条提示覆盖常规/新颖/组合三类场景,揭示即使最强 T2V 模型在 OSC 准确率上也仅达 0.786。

Self-Correcting Text-to-Video Generation with Misalignment Detection and Localized Refinement

提出 VideoRepair,首个免训练、模型无关的文本到视频自校正框架,通过 MLLM 检测细粒度文本-视频不对齐,保留正确区域并选择性修复问题区域,在 EvalCrafter 和 T2V-CompBench 上跨四种 T2V 骨干模型一致提升对齐质量。