Imagine Before Concentration: Diffusion-Guided Registers Enhance Partially Relevant Video Retrieval¶

会议: CVPR 2026
arXiv: 2604.03653
代码: https://github.com/lijun2005/CVPR26-DreamPRVR
领域: 图像生成
关键词: 部分相关视频检索, 扩散模型, 注册令牌, 跨模态对齐, 全局上下文

一句话总结¶

本文提出 DreamPRVR，采用"先想象后集中"的粗到细策略：通过截断扩散模型在文本监督下生成全局语义注册令牌（registers），然后将其融合到细粒度视频表征中，有效抑制局部噪音响应，在三个 PRVR 基准上取得了 SOTA。

研究背景与动机¶

领域现状：部分相关视频检索（PRVR）旨在根据文本查询检索未剪辑视频，其中查询仅描述视频中的部分片段。现有方法（如 MS-SL、GMMFormer、HLFormer）主要关注片段级建模，使用滑动窗口或高斯注意力进行局部匹配。

现有痛点：核心问题是"查询歧义"——一个通用查询可能匹配到正确视频的对应片段，同时也意外匹配到其他视频中碰巧相似的局部片段，产生虚假的局部尖峰响应。这导致全局不相关的视频可能被错误检索到前面。此外，广泛使用的多实例学习（MIL）范式只奖励最佳匹配片段，导致其他片段得不到充分训练，缺乏上下文基础来解决歧义。

核心矛盾：现有方法缺乏显式的全局上下文建模。少数考虑全局信息的工作（如 HLFormer 的语义蕴含、RAL 的全局不确定性）将全局上下文视为仅训练期间的正则化，推理时视频嵌入并未得到改善。

本文目标 (1) 如何从冗余噪声的未剪辑视频中提取可靠的全局语义表征；(2) 如何利用文本语义有效监督全局表征的生成；(3) 如何将全局语义融入局部视频表征以抑制虚假响应。

切入角度：受 ViT 中 register token 概念的启发，引入全局注册令牌来存储整体视频语义。但直接从噪声视频中提取可靠 registers 很困难，因此用扩散模型进行迭代精炼和生成。

核心 idea：用文本监督的截断扩散模型从视频中心分布出发迭代生成全局语义 registers，然后通过注意力融合增强局部表征。

方法详解¶

整体框架¶

DreamPRVR 想解决的是：未剪辑视频里塞满了与查询无关的片段，纯靠局部匹配会被"碰巧相似"的片段骗到，所以得先给视频一个可靠的全局语义锚点，再用它去压制局部的虚假尖峰。整条流水线就围绕这个锚点展开——先从查询侧学一个有结构的文本潜空间，采出监督信号；再用一个截断扩散模块以视频自身为起点，在文本引导下迭代"想象"出几枚承载整体语义的全局注册令牌（register）；然后把这些 register 拼回视频 token 序列做注意力融合，让全局上下文渗进每个局部表征；最后 register 退场，只用增强后的视频表征和文本算检索相似度。整个过程被组织成一个变分推断框架，register 被当作隐变量来建模。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    Q["文本查询"] --> T["文本语义结构学习 TSSL +<br/>文本扰动采样器 TPS<br/>整理出有结构、可采样的监督源"]
    V["未剪辑视频"] --> P["概率变分采样器 PVS<br/>编码成分布、采出以视频为中心的初始噪声"]
    P --> D["扩散 Register 估计器 DRE<br/>在文本监督下迭代去噪生成 register"]
    T --> D
    D --> R["Register 增强高斯注意力 RAB<br/>register 单向把全局语义灌进视频 token"]
    V --> R
    R --> O["丢弃 register<br/>增强后视频表征与文本算检索相似度"]

关键设计¶

1. 文本语义结构学习（TSSL）+ 文本扰动采样器（TPS）：把查询侧整理成有结构、能采样的监督源

要让扩散去"想象"全局语义，得先有干净且多样的文本信号来监督它。现有的查询多样性损失有个毛病：它盲目地把所有查询都推开，连同属一个视频、本该互为补充的查询也被拆散了。TSSL 用两个损失修正这件事——Query Diversity Loss \(L_{div}\) 负责把不同视频的查询嵌入分散开以撑大语义丰富度，而 Query Similarity Preservation Loss \(L_{qsp}\) 则把同一视频的多条查询拉近，当作描述同一全局语义的互补正视图。两者合力让潜空间同时具备视频间的区分性和视频内的紧凑性。在此之上，TPS 通过对白化后的特征施加可控扰动来显式建模文本的不确定性：\(\hat{q} = \alpha \cdot \bar{q} + \beta\)，其中 \(\alpha \sim \mathcal{N}(1, (\gamma\sigma_q)^2 I)\)，整个采样不引入任何额外可训练参数，却能源源不断给扩散提供多样化的监督。

2. 概率变分采样器（PVS）+ 扩散 Register 估计器（DRE）：从视频自身出发"想象"出纯净的全局语义

如果直接对未剪辑视频做池化或一步映射，冗余噪声会把可靠语义淹没，根本解耦不出来。DreamPRVR 的做法是把它当成一个去噪问题。PVS 先把视频特征编码成一个概率分布 \(p(r_T \mid V_v) \sim \mathcal{N}(\mu_v, \sigma_v^2 I)\)，重参数化采样得到一个"以视频为中心"的初始噪声 \(r_T\)——这正是截断扩散的关键：起点不是随机高斯噪声，而是已经带着视频语义的分布。

\[ L_{dre} = \mathbb{E}_{t, \hat{q}_t, \epsilon}\big[\|\epsilon - \epsilon_\phi(\hat{q}_t, t, c)\|^2\big] \]

DRE 是一个轻量 MLP 扩散模块，从 \(r_T\) 出发、在文本监督 \(\hat{q}\) 的引导下执行 \(T\) 步迭代去噪，逐步把语义纯化成最优 registers \(r_0\)，训练目标就是上面这个标准的 DDPM 噪声预测。文中的 t-SNE 可视化能看到 registers 从初始的一团无序，沿着去噪步骤慢慢聚成有区分力的视频级簇——这也解释了为什么"视频中心起点 + 迭代精炼"比一步池化更能从噪声里捞出可靠语义。

3. Register 增强高斯注意力（RAB）：把全局 register 灌进每个局部视频表征

register 生成出来还得真正影响视频表征才有用。RAB 把视频 token 和 register 拼成一条序列 \(x = [V_o, r_0]\)，送进一个改进的高斯注意力：

\[ \text{GA}(x) = \text{softmax}\Big(\mathcal{M}_r + \big(\mathcal{M}_\sigma^g \odot \tfrac{x^q (x^k)^\top}{\sqrt{d_h}}\big)\Big) x^v \]

这里的关键是非对称注意力掩码 \(\mathcal{M}_r\)：视频 token 既能关注其他视频 token、也能关注 register，从而吸收全局上下文；但 register 只允许关注视频 token、彼此之间不互通。这样设计是为了让 register 单向地把全局信息"喂"给局部表征，又避免 register 之间互相参照造成信息短路。\(N_a\) 个 RAB 并行排列、输出经 MAIM 聚合；融合一旦完成，register 就被丢弃，不参与最终的相似度计算——它的使命只是在中途注入全局语境。

损失函数 / 训练策略¶

总损失：\(L_{total} = L_{sim} + L_{tssl} + L_{pvs} + \lambda_{dre} L_{dre}\)。\(L_{sim}\) 是标准检索相似度损失（遵循 MS-SL），\(L_{tssl} = \lambda_d L_{div} + \lambda_q L_{qsp}\)，\(L_{pvs} = \lambda_{kl} L_{kl}\)（PVS 的高斯先验约束）。模型在单张 A100-40G GPU 上训练，Adam 优化器，batch size 128。默认扩散步数 \(T=10\)，register 数量 4-8 个。

实验关键数据¶

主实验¶

方法	ActivityNet SumR	Charades SumR	TVR SumR
MS-SL	140.1	68.4	172.4
GMMFormer	146.0	72.9	176.6
HLFormer	154.9	78.7	187.7
GMMFormerV2	154.9	78.2	189.1
DreamPRVR	156.1	80.0	193.1

DreamPRVR 在 Charades-STA 上的细项指标:

指标	R@1	R@5	R@10	R@100
HLFormer	2.6	8.5	13.7	54.0
DreamPRVR	2.6	8.7	14.5	54.2

消融实验¶

配置	ActivityNet SumR	Charades SumR	TVR SumR	说明
Full DreamPRVR	156.1	80.0	193.1	完整模型
w/o registers	153.4	76.8	187.0	无全局 registers
w/ 自适应池化	151.9	78.1	191.4	简单池化替代扩散生成
w/o DRE	150.6	78.3	190.8	无扩散迭代精炼
w/o PVS	154.9	77.6	190.9	从随机噪声初始化
\(L_{sim}\) only	150.5	76.6	187.0	只用检索损失
w/o \(L_{tssl}\)	151.3	76.9	191.1	无文本结构学习

关键发现¶

去掉 registers 后 Charades SumR 从 80.0 降到 76.8（-3.2），TVR SumR 从 193.1 降到 187.0（-6.1），证实全局上下文的价值
自适应池化（-1.9）效果远不如扩散生成，说明简单聚合不足以从噪声视频中提取可靠全局语义
PVS 的视频中心初始化优于随机噪声初始化（Charades 80.0 vs 77.6），验证了截断扩散的必要性
扩散步数 \(T\) 在 2-10 之间性能稳步提升，\(T>10\) 后下降，表明过度精炼可能导致过拟合
Register 数量 4-8 个最优，过多引入冗余反而有害
t-SNE 可视化清晰显示 registers 从初始无序到最终形成紧致的视频级聚类

亮点与洞察¶

"先想象后集中"的认知类比：将扩散生成类比为认知中的"想象"阶段（形成粗粒度全局感知），将细粒度匹配类比为"集中"阶段，概念设计优雅且直觉
截断扩散的高效使用：不用大规模扩散模型，只用轻量 MLP 和 6-8 个 registers 配合 10 步扩散就能获得显著提升，证明扩散范式在检索任务中可以非常高效。训练和推理开销可接受
QSP 损失的互补设计：将同一视频的多个查询视为正样本对而非独立分散，是对现有查询多样性损失的合理修正

局限与展望¶

依赖预提取的 I3D 特征，未探索端到端训练或更强的视觉编码器（如 CLIP ViT）
Register 数量和扩散步数需要数据集特定调参（ActivityNet 4个、TVR 8个）
扩散模型的条件 \(c\) 由简单交叉注意力从视频特征获得，可能不够丰富
未来可以考虑将该框架扩展到视频语料级的时刻定位（VCMR）任务

评分¶

新颖性: ⭐⭐⭐⭐ 在检索中引入扩散生成 registers 的思路新颖，概念设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、12+ 基线、详尽消融、效率分析、多种可视化
写作质量: ⭐⭐⭐⭐ 变分推断框架推导完整，图示清晰
价值: ⭐⭐⭐⭐ 为 PRVR 提供了生成-判别融合的新范式，registers 思路可迁移