Free-MoRef: Instantly Multiplexing Context Perception Capabilities of Video-MLLMs within Single Inference¶

会议: ICCV 2025
arXiv: 2508.02134
代码: github.com/wkfdb/Free-MoRef
领域: 视频理解 / 多模态大模型
关键词: 长视频理解, Video-MLLM, 免训练推理, MoE启发, 注意力机制

一句话总结¶

提出免训练方法Free-MoRef，受MoE启发将长视频token分割为多个短序列作为多参考(multi-reference)，通过MoRef注意力机制并行查询并融合统一激活值，在单卡A100上实现2×到8×更长帧输入的高效全面理解，在VideoMME/MLVU/LongVideoBench上超越专训长视频模型。

研究背景与动机¶

Video-MLLM在视频理解任务上取得显著进展，但受限于底层LLM的上下文长度限制，长视频场景表现不佳。现有解决方案各有缺陷：

Token压缩：减少视觉token数量以容纳更多帧，但压缩率越高信息损失越严重

流式推理：保留历史KV-CACHE实现超长上下文依赖，但延迟与上下文长度成正比（2×上下文=2×延迟）

上下文扩展：后训练延长上下文窗口，计算负担大

核心问题：能否在单次推理中实现更长上下文感知，同时保证全面理解和高效推理？

方法详解¶

整体框架¶

Free-MoRef工作流程： 1. 多参考分割：将长视频token序列按时间维度分割为N个短块(chunk)，每个chunk代表原视频的一个抽象 2. MoRef注意力：在浅层decoder中，用相同问题并行查询各chunk并融合统一响应 3. 参考融合：在深层decoder中间层，基于注意力权重选取关键视觉token合并为全局参考

关键设计¶

多参考分割(Multi-Reference Partition)：首先将视频token按时间关系分为M个单元(unit)，每个单元再分为N个片段(fragment)，聚合不同单元的片段组成N个参考chunk。M控制参考间的时间交叉程度：M=1时N个chunk时间互不重叠，M越大交叉越显著。每个chunk附加相同的系统提示和问题，形成并行推理序列。
MoRef注意力(Mixture of Reference Attention)：核心步骤。对并行chunk执行Flash Attention获得初始结果 \(O = [O^{sys}, O^{vis}, O^{ques}]\)。由于因果注意力，\(O^{sys}\) 各chunk相同，但 \(O^{vis}\) 和 \(O^{ques}\) 因视觉参考不同而有差异。保持 \(O^{vis}\) 的差异性，通过门控加权融合 \(O^{ques}\)：

\[O^{fusion} = (\sum_{i=1}^N \omega_i \cdot O_i^{ques}).repeat(N)\]

门控权重 \(\omega_i\) 由query-vision跨模态注意力图计算：\(\omega_i = \frac{max(A[i])}{\sum max(A[i])}\)，其中 \(A = softmax(Q^{ques} \times (K^{vis})^T)\)，捕获了query与各reference的相关度。这样每层decoder中所有视觉token都有效参与了query的更新。

参考融合(Reference Fusion)：基于FastV的观察——视觉token在浅层decoder贡献均匀，但在深层注意力更集中于query token。利用此特性，在第L层进行合并：基于注意力图 \(A\) 评估每个视觉token的重要性矩阵 \(E\)，在每个chunk中剪枝 \(1-1/N\) 的不重要token，按时间关系聚合剩余token为全局参考。此步骤补偿了MoRef注意力中缺失的跨chunk视觉交互。

损失函数 / 训练策略¶

完全免训练。所有设计直接在推理阶段应用，无需额外训练或微调。

基础模型：LLaVA-Video-7B（默认最大64帧）
帧输入倍增：128(2×)、256(4×)、512(8×)
M=64个时间单元，N=帧数/64
参考融合层：N=2时L=3，N=4时L=6，N=8时L=12
支持Flash-Attention，可与流式推理和token压缩策略组合

实验关键数据¶

主实验¶

不同帧数下的性能对比：

上下文	FLOPs	MLVU	VideoMME (Medium/Long/Overall)	LongVideoBench
64帧 (基线)	100%	70.3	62.1/53.4/64.3	58.8
128帧 (原生)	400%	70.2	63.2/54.1/64.9	58.7
128帧@MoRef	110.4%	70.8	65.8/55.8/66.3	59.3
256帧 (原生)	1600%	67.2	61.4/54.1/63.1	56.7
256帧@MoRef	163.2%	72.5	66.4/55.3/66.3	59.3
512帧@MoRef	400%	72.8	67.3/56.0/66.9	59.9

512帧原生推理直接OOM或性能暴跌；Free-MoRef用400% FLOPs（而非6400%）实现最佳性能。

与其他7B-8B模型对比：

方法	MLVU	LVideoBench	VideoMME Long	VideoMME Overall
LLaVA-Video	70.2	58.2	53.4	64.3
Qwen2-VL	64.8	55.6	55.7	63.3
InternVL2.5	68.4	57.5	53.0	64.5
Video-XL	64.9	50.7	-	55.5
RETAKE	69.8	-	56.2	63.9
LLaVA-Video@MoRef	72.8	59.9	56.0	66.9

超越所有同规模模型，包括专门训练的长视频模型。

消融实验¶

各组件效果（128帧，VideoMME Overall）：

Multi-Ref	MoRef Attn	Ref Fusion	Overall
✗	✗	✗	64.9
✗	✗	✓	63.9
✓	✗	✓	62.0
✓	✓	✗	65.8
✓	✓	✓	66.3

仅分割不融合反而下降；MoRef注意力是核心提升来源（+3.8）；参考融合进一步优化（+0.5）。

并行chunk数N的影响：

N	FLOPs	Overall
1 (默认)	100%	64.9
2	27.6%	66.3
4	25%	66.1
8	23.6%	65.9

N=2时效果最佳且计算量仅为原来的27.6%。

关键发现¶

Free-MoRef核心优势在于MoRef注意力实现了全视觉token的有效参与，等效于全注意力但计算量大幅降低
时间单元M影响时间感知(TP)和空间感知(SP)任务的平衡：M小时SP好但TP差，M大时反之
参考融合层L的选择影响性能：过早融合导致信息丢失，过晚则跨chunk交互补偿不及时
在VideoMME的几乎所有问题类型上都有提升，唯一例外是属性感知任务（这类问题只涉及视频小片段，扩展上下文反而引入冗余）

亮点与洞察¶

免训练的即插即用设计：无需任何训练或额外参数，直接提升现有Video-MLLM的长视频能力
MoE思路的创新迁移：把"多专家处理不同数据"转化为"同一模型查询不同参考视频片段"
计算效率惊人：8×帧数仅需27.6%-400%原始FLOPs，单卡A100可处理1024帧
兼容性好：支持Flash-Attention，可与流式推理或token压缩方案叠加

局限与展望¶

多参考分割打断了跨chunk的视觉特征连续性，参考融合仅部分补偿
超参数(M, N, L)需要手动配置，缺乏自适应机制
仅在LLaVA-Video-7B上验证，未测试更大模型或其他架构
属性感知类任务(AP)反而因上下文扩展而轻微下降
MoRef注意力设计可能启发训练时的长上下文学习方案，但本文未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 免训练方法创新性强，MoRef注意力设计巧妙，MoE到多参考的类比有启发
实验充分度: ⭐⭐⭐⭐ 三个长视频benchmark全面评测，消融详细，但仅限单一基础模型
写作质量: ⭐⭐⭐⭐ 框架图清晰，注意力模式可视化有说服力
价值: ⭐⭐⭐⭐⭐ 实用价值极高，任何Video-MLLM都可即时获益，代码开源