ViLL-E: Video LLM Embeddings for Retrieval¶

会议: ACL 2026
arXiv: 2604.12148
代码: 无
领域: 视频理解
关键词: 视频检索, 视频LLM, embedding生成, 对比学习, 时序定位

一句话总结¶

提出 ViLL-E，首个同时支持文本生成和 embedding 生成的 Video LLM 统一架构，通过三阶段生成-对比联合训练和自适应 KV-Former embedding head，在视频检索和时序定位上逼近专家模型，同时保持 VideoQA 竞争力。

研究背景与动机¶

领域现状 Video LLM（如 VideoLLaVA、VideoChat2）在视频问答和字幕生成等文本生成任务上表现出色，但在需要 embedding 匹配的任务（如文本到视频检索 T2V、时序定位 Moment Retrieval）上远落后于专用模型（如 QD-DETR、SigLIP、VidLA）。

现有痛点 当前视频理解需要维护两套独立模型栈：Video LLM 处理生成任务，专用 dual-encoder 处理检索任务。这不仅增加了部署复杂度，还无法在两类任务间共享表示学习。NLP 领域已有研究表明 LLM 可以通过对比微调转化为强检索模型（如 GRIT、E5），但视频领域尚无此类工作。

核心矛盾 Video LLM 的自回归生成架构天然不适合产生 dense embedding，但专用 embedding 模型又缺乏 LLM 的推理和生成能力。如何在单一模型中统一这两种能力是关键挑战。

本文目标 设计一个统一的 VideoLLM 架构，既能生成文本回答，又能产生高质量的视频/文本 embedding，在检索、定位和 QA 任务上都达到竞争性能。

切入角度 在 PaliGemma 多模态 LLM 基础上增加可学习的 embedding head，通过三阶段联合训练策略（大规模预训练→高质量预训练→多任务微调）同时优化生成和判别能力。

核心 idea 关键创新在于 EOS 触发的自适应 embedding 生成机制——模型先自回归生成可变数量的 token，这些 token 被送入 embedding head 聚合为 dense embedding。这允许模型对复杂视频"思考更久"，对简单视频快速返回。

方法详解¶

整体框架¶

ViLL-E 基于 PaliGemma-3B 多模态 LLM，包含视觉编码器、LLM 主干和新增的 embedding head。视觉 token 和输入提示使用双向注意力，自回归生成的后缀使用因果注意力。当遇到 <EOS> token 时，所有生成的 token 被收集并送入 embedding head 产生 dense embedding。训练分为三个阶段：大规模对比-生成联合预训练、高质量数据续训、多任务微调。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["输入：视频 + 文本提示"] --> B["视觉编码器 + LLM 主干<br/>视觉/提示双向注意力，后缀因果注意力"]
    B --> C["EOS 触发的自适应 embedding 生成<br/>自回归吐 token 直到 &lt;EOS&gt;，复杂视频多想几步"]
    C --> D["KV-Former Embedding Head<br/>P 个可学习 pooling token 注意力聚合 → MLP → 均值池化"]
    D --> E["固定维度 dense embedding"]
    E --> F["下游：T2V 检索 / 时序定位 / VideoQA"]
    subgraph TRAIN["三阶段生成-对比联合训练"]
        direction TB
        T1["Stage 1：10M 字幕对<br/>生成损失 + CLIP 对比损失对齐"] --> T2["Stage 2：200K 高质量长字幕续训"]
        T2 --> T3["Stage 3：100K 四任务微调<br/>QA / 检索 / 匹配 / 定位 + LoRA"]
    end
    TRAIN -.训练得到.-> B

关键设计¶

1. KV-Former Embedding Head：把变长 token 序列聚合成固定维度 embedding

Video LLM 的自回归输出长度不定，而检索需要的是一条固定维度的 dense 向量，二者之间缺一个聚合器。ViLL-E 没有直接对输出 token 做 mean pooling，而是设计了 KV-Former：以 LLM 的输出 token 作为 query，引入 \(P\) 个可学习的 key/value（称为 "pooling tokens"）当作字典，通过注意力自适应加权聚合，再经 MLP 投影和均值池化得到最终 embedding。相比 Q-Former 输出长度固定、必须截断或补齐变长输入，KV-Former 天然吃得下任意长度的 token 序列；相比简单 mean pooling 或 self-attention，那 \(P\) 个 pooling token 给了模型一块独立于生成任务的瓶颈容量，让 embedding 表示不被生成目标"带偏"，同时参数开销很小。

2. EOS 触发的自适应 embedding 生成：让模型按视频复杂度决定"想多久"

固定步数的 embedding 提取对所有视频一视同仁，复杂视频来不及分析、简单视频又浪费算力。ViLL-E 改成在提取 embedding 之前先自回归生成 token，直到吐出 <EOS> 才停，生成多少 token 随视频复杂度自然浮动——内容繁杂的视频会多生成几步"思考"token 再聚合，简单视频则快速收敛。这等于把"该思考多久"这个决策交还给模型本身，在效率和表示质量之间取得比固定步数更好的平衡。

3. 三阶段生成-对比联合训练：从对齐到精炼再到多任务解锁

要在同一个模型里同时养出生成能力和判别能力，单阶段训练既容易顾此失彼、原始字幕又太短撑不起细粒度表示。ViLL-E 拆成三段递进：Stage 1 在 10M Shutterstock 视频-字幕对上联合优化 next-token prediction（生成）和 CLIP 式对比损失（embedding），先建立基础的视频-语言对齐；Stage 2 在 200K 条 Claude-3-Sonnet 生成的高质量长字幕上续训，用详细描述弥补原始字幕过短的问题；Stage 3 在 100K 样本上做四任务微调（QA、检索、匹配、定位），解锁下游能力。消融实验里去掉预训练后检索分数从 62.8 跌到 49.3，证实每个阶段都不是摆设。

损失函数 / 训练策略¶

四种任务对应四种损失：(1) 检索任务用 CLIP 式 in-batch contrastive loss；(2) 字幕/QA 用 next-token prediction loss；(3) 匹配任务用二分类交叉熵；(4) 时序定位用 contrastive loss + 滑动窗口 hard negative mining（IoU < 0.2 的片段作为负样本）。微调阶段使用 LoRA 保证参数效率，视觉投影模块和 embedding head 全量训练。

实验关键数据¶

主实验¶

任务/数据集	指标	ViLL-E	之前最强 VideoLLM	专家模型
ActivityNet (定位)	R@1,IoU=0.5	39.4	31.2 (LLaVA-ST)	33.2 (QD-DETR)
Charades-STA (定位)	R@1,IoU=0.5	51.5	44.8 (LLaVA-ST)	57.3 (QD-DETR)
MSR-VTT (检索)	R@1	62.5	N/A	58.0 (VidLA)
DiDeMo (检索)	R@1	61.4	N/A	61.1 (VidLA)
MSR-VTT QA	Acc	65.2	63.2 (ST-LLM)	-
Composed Retrieval (零样本)	R@1	53.1	-	47.5 (SOTA)

消融实验¶

配置	MSR QA	MSR Retr.	ANet Loc.	说明
G+C+M (完整)	65.1	62.8	39.4	三种监督信号联合
G+C (无匹配)	63.9	60.3	39.1	匹配损失对检索有帮助
G only (仅生成)	61.3	25.1	28.7	无对比学习时检索崩溃
C only (仅对比)	45.5	54.7	29.3	无生成损失时 QA 大幅下降
无预训练	55.9	49.3	32.3	预训练对检索至关重要

关键发现¶

ViLL-E 在时序定位上比专用 VideoLLM 平均提升 77%（8+ 百分点），在视频检索上超越 fine-tuned 专家模型达 4%
生成和对比训练互补：联合训练在两类任务上都优于单独训练
零样本新任务能力：组合视频检索超 SOTA 5%，长文本检索超 SOTA 2%
KV-Former 设计在所有 embedding head 变体中表现最优
两阶段检索（embedding 检索 + LLM 重排序）比单阶段 R@1 额外提升 2%

亮点与洞察¶

首次证明单一 VideoLLM 可以同时做好生成任务和 embedding 任务，打破了"两套模型栈"的范式
自适应 embedding 生成机制优雅地解决了视频复杂度差异问题
三阶段训练策略的设计合理，每个阶段各有明确目标且消融实验支撑充分
解锁了之前 VideoLLM 无法完成的新任务（组合检索、长文本检索）

局限与展望¶

基于 PaliGemma-3B，参数量较小，缺乏多轮对话能力
训练数据主要为英文，可能损失多语言能力
未与最新的通用 VideoLLM（如 Qwen2.5-VL-72B）对比，模型规模差距较大
未来可扩展到更大 backbone 并加入音频模态

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一生成+embedding的VideoLLM，KV-Former设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 8个benchmark、详细消融、多种零样本新任务验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表信息丰富
价值: ⭐⭐⭐⭐ 为视频理解领域的模型统一化提供了可行路径