跳转至

🎬 视频生成

💬 ACL2025 · 2 篇论文解读

📌 同领域跨会议浏览: 💬 ACL2026 (3) · 📷 CVPR2026 (59) · 🔬 ICLR2026 (19) · 🤖 AAAI2026 (11) · 🧠 NeurIPS2025 (23) · 📹 ICCV2025 (51)

🔥 高频主题: 视频生成 ×2

Q2E: Query-to-Event Decomposition for Zero-Shot Multilingual Text-to-Video Retrieval

Q2E 提出了一种零样本的查询到事件分解方法,利用 LLM 和 VLM 的参数化世界知识将简单查询分解为前因/当前/后果事件,并结合视频的视觉描述和语音转录,通过逆熵融合排序实现 SOTA 的多语言文本到视频检索性能。

VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation

提出 VidCapBench,首个专为可控文生视频(T2V)设计的视频描述评估 benchmark,从美学/内容/运动/物理规律四个维度评估 caption 质量,643 个视频+10,644 个 QA 对,实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。