Video-RAG: Visually-aligned Retrieval-Augmented Long Video Comprehension¶

会议: NeurIPS 2025
arXiv: 2411.13093
代码: https://github.com/Leon1207/Video-RAG-master
领域: 目标检测
关键词: 检索增强生成, 长视频理解, 辅助文本, 即插即用, 多模态对齐

一句话总结¶

本文提出Video-RAG，一个免训练、即插即用的RAG管道，通过从视频中提取视觉对齐的辅助文本（OCR、ASR、目标检测）并经检索筛选后输入LVLM，在仅增加约2K token的条件下将7个开源LVLM的Video-MME平均性能提升2.8%，72B模型超越GPT-4o。

现有大型视频-语言模型（LVLM）在理解长视频时受限于有限的上下文长度。面对这一挑战，当前有两条技术路线：

微调长上下文LVLM：如LongVA通过在扩展文本上预训练来增加token容量，但需要海量高质量数据和大量GPU资源，且实验表明简单增加采样帧数反而降低性能（LongVA从128帧增加到384帧，准确率从52.6%降至51.8%）

基于GPT的Agent方法：如VideoAgent、DrVideo等，使用多轮交互和专有模型处理长视频，但计算成本极高（在Video-MME上运行VideoAgent约需20天和~$2000的API费用）且依赖闭源模型

本文的动机是找到一种免训练、低成本、兼容任意LVLM的解决方案。核心思路是：与其增加视觉token数量，不如用更精炼的辅助文本来补充视觉信息不足的问题——这些文本既与视觉内容对齐，又能提供超出视觉的额外信息（如音频内容）。

Video-RAG包含三个阶段： 1. 查询解耦：将用户问题分解为辅助文本的检索请求 2. 辅助文本生成与检索：并行生成三种辅助文本并通过RAG检索相关内容 3. 整合与生成：将检索到的辅助文本与查询和视频帧一起输入LVLM

查询解耦（Query Decouple）:
- LVLM仅处理文本输入（不访问视频帧），将用户查询分解为三类检索请求：
  - R_asr：关于语音识别的请求（提取音频信息）
  - R_det：物体检测请求（识别视频中的物理实体）
  - R_type：物体信息类型请求（位置、数量、关系）
- 输出为JSON格式，可为NULL表示不需要该类信息
辅助文本生成与RAG检索:
- OCR数据库：使用EasyOCR对每帧进行文字识别，用Contriever编码为向量，存入FAISS索引
- ASR数据库：使用Whisper转录音频，分块后同样编码存入FAISS
- DET数据库：先通过CLIP相似度筛选关键帧（阈值t=0.3），再用APE（开放词汇目标检测）在关键帧上检测查询相关物体
- 检索时用Contriever编码查询+请求，通过FAISS计算相似度，保留超过阈值的文本块
目标检测信息的场景图处理:
- 将原始检测结果（"类别: [bbox]"）处理为三种结构化信息：
  - 物体位置（A_loc）：精确描述物体类别和坐标
  - 物体计数（A_cnt）：统计各类物体数量
  - 相对位置关系（A_rel）：描述物体间的空间关系
- 通过场景图组织，使LVLM更容易理解物体关系
整合与生成:
- 将OCR、ASR、DET辅助文本按时间顺序合并
- 与用户查询和视频帧一起输入LVLM生成答案
- 全过程为单轮检索，无需多轮交互

模型	参数量	帧数	无字幕	有字幕	+Video-RAG	提升
Video-LLaVA	7B	8	39.9%	41.6%	45.0%	+3.4%
LLaVA-NeXT-Video	7B	16	43.0%	47.7%	50.0%	+2.3%
LongVA	7B	128	52.6%	56.0%	62.0%	+6.0%
Long-LLaVA	7B	64	52.9%	57.8%	62.6%	+4.8%
Qwen2-VL	72B	32	64.9%	71.9%	72.9%	+1.0%
LLaVA-Video	72B	64	70.3%	75.9%	77.4%	+1.5%
GPT-4o	-	384	71.9%	77.2%	-	-

RAG	DET	OCR	ASR	Short	Medium	Long	Overall
-	-	-	-	60.3	51.4	44.1	52.0
✓	✓	-	-	62.2	55.4	54.4	57.4
✓	✓	✓	-	64.0	56.2	55.0	58.4
✓	-	-	✓	63.0	57.3	56.4	58.9
✓	✓	✓	✓	66.4	60.2	59.8	62.1
-	✓	✓	✓	64.3	58.8	56.3	59.8

基准	模型	原始	+Video-RAG	提升	对标
MLVU	LLaVA-Video-7B	70.8%	72.4%	+1.6%	> Oryx-1.5 (32B)
MLVU	LLaVA-Video-72B	73.1%	73.8%	+0.7%	新SOTA
LongVideoBench	LLaVA-Video-7B	56.6%	58.7%	+2.1%	-
LongVideoBench	LLaVA-Video-72B	61.9%	65.4%	+3.5%	> Gemini-1.5-Pro