Decomposed Attention Fusion in MLLMs for Training-free Video Reasoning Segmentation¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=79SSF3ppjS
代码: https://github.com/HYUNJS/DecAF
领域: 视频分割 / 多模态推理
关键词: video reasoning segmentation, MLLM, attention rollout, training-free, SAM2, referring VOS
一句话总结¶
把视频推理分割重构成视频问答任务,直接从 MLLM 的注意力 rollout 中抽取定位线索,再用"对比式去背景 + 视频帧互补"两种融合把噪声注意力图提纯成干净的物体掩码,最后用注意力引导 SAM2 出精细掩码——全程不训练,效果逼近训练型方法。
研究背景与动机¶
领域现状:多模态大模型(MLLM)在视频问答上展现出强大的时序理解和复杂推理能力,这暗示它们内部其实"知道"目标物体在哪。视频推理分割(video reasoning segmentation)要求根据需要复杂推理的文本表述(不只是外观、运动,还涉及世界知识与时序)定位并分割视频中的物体,正是检验这种隐含定位能力的任务。
现有痛点:当前主流做法是把 MLLM 和分割基座(SAM/SAM2)用 LoRA 等方式联合微调(LISA、VISA、VideoLISA、GLUS 等),但这需要针对模型定制训练、同时优化两个基座,算力开销大且泛化受限。唯一的训练免费路线 Loc-Head 只在图像域用空间熵挑选"定位注意力头",强假设单物体、靠启发式压制 visual attention sink(某些区域无视指令始终拿到高分),扩展到多物体、时序视频时表现骤降。
核心矛盾:直接拿 MLLM 的注意力 rollout 当分割图,会同时被两类污染拖垮——一是聚合所有 head/layer 带来的弥散噪声,二是与指令无关却持续高激活的 visual attention sink。原始注意力图既不对齐物体边界,又被无关区域主导,无法直接阈值化成掩码。
本文目标:在完全不训练、不改模型结构的前提下,把 MLLM 注意力图提纯成可用的物体定位信号,并跨多个 MLLM 家族稳定工作。
核心 idea:[把任务转成视频 QA] 让模型回答"表述指向哪个物体",用 rollout 抓取最后一个 token 对视觉 token 的注意力;[分解+融合去噪] 不靠启发式选 head,而是通过两路"对比/互补"融合系统性地抵消噪声与 sink;[注意力引导 SAM2] 把粗注意力图转成点提示喂给 SAM2,再用一致性打分过滤误检。
方法详解¶
整体框架¶
DecAF 是两阶段流水线。第一阶段在 MLLM 内部把任务当成视频 QA,用改进的注意力 rollout 抽出原始定位图,再经两种融合(对比式去背景 + 视频帧互补)提纯成干净的时空注意力图,直接阈值化即可得到粗掩码;第二阶段把粗注意力图转成点提示,用 SAM2 生成稠密掩码 tracklet,并以"注意力一致性分数"过滤掉落在背景上的误检 tracklet。
flowchart LR
A[视频+文本指令] --> B[改进 rollout<br/>V-Max 归一化]
B --> C[对比式去背景融合<br/>物体图−背景图]
B --> D[视频/帧双路注意力]
C --> E[视频帧互补融合<br/>上采样后平均]
D --> E
E --> F[阈值化→粗掩码]
E --> G[点提示生成 τpq]
G --> H[SAM2 传播出 tracklet]
H --> I[一致性打分 sac<br/>NMS+阈值过滤]
I --> J[稠密分割掩码]
关键设计¶
1. 视觉感知归一化的注意力 rollout(V-Max Rollout):让聚合偏向真正看图像的 head。 标准 rollout 逐层累乘 head 平均注意力并加入残差恒等项,\(\hat{A}^{(l)}=(\bar{A}^{(l)}+I)/2\),\(R^{(l)}=\hat{A}^{(l)}R^{(l-1)}\),但简单的 head 平均会让噪声 head 稀释物体信号。DecAF 的改法是按 head 对视觉 token 的关注强度加权:从注意力张量里取出视觉块 \(A_v^{(l)}\in\mathbb{R}^{h\times N\times N_v}\),先沿视觉 token 维取最大 \(m^{(l)}=\max_{j} A_v^{(l)}[:,:,j]\),再沿 token 维平均得到每个 head 的权重 \(w^{(l)}\in\mathbb{R}^h\),归一化到 \(\max_h w^{(l)}_h=1\) 后加权聚合 head。直觉是"越往视觉 token 投注意力的 head 越可能负责定位",因此放大它们的话语权。消融显示 V-Max 比原始 rollout(68.4)和 Rollout-Max(72.9)在 Ref-DAVIS 上更高(75.2),且从 LLM 中间层(28 层模型的第 14 层)起始 rollout 效果最佳。
2. 对比式物体-背景融合:用减法把 attention sink 减掉。 Visual attention sink 会让无关区域拿到极高分,单纯阈值压不下去。DecAF 用两个互补 prompt 各跑一次 rollout:物体图来自聚焦目标的 prompt "What is the main object referred to in the given expression?",背景图来自 "Describe the background scene of the video." 由于背景 prompt 可能误把目标物体也算进背景,作者额外把识别出的类别名 \(o_{name}\) 插进模板显式排除目标。两张图都 reshape 成 \((T,H_p,W_p)\) 并做高斯平滑缓解稀疏,对比图 \(V_{ctr}\) 由"物体图减背景图、clamp 去负值、再 min-max 归一化"得到。背景里恒定高激活的 sink 在两个 prompt 下都出现,相减即可抵消,目标信号被凸显。消融里加上对比融合让 IVL3 在 Ref-DAVIS 的注意力掩码从 12.4 跳到 20.7、SAM 掩码从 50.8 升到 62.8。
3. 视频-帧互补融合:用多尺度调和时序与空间。 softmax 让所有 token 分数和为 1:视频输入下注意力被摊薄到大量 token、偏稀疏但带时序上下文(物体临时消失或需要时序推理时关键),图像输入下注意力集中在少数 token、偏物体中心的细粒度但缺时序连贯。DecAF 对视频和逐帧两路跑同一 rollout 流程(帧模态沿 batch 轴处理),并做两处适配:背景 prompt 需要类别名时,聚合视频+帧两路输出用类别选择 prompt 选单一预测;min-max 归一化时帧级逐帧独立归一、视频级跨全帧全局归一。两路对齐分辨率后简单平均融合,兼得全局时序与空间精度。这套解耦 prompting 还顺带支持多尺度——帧模态可用更高分辨率(QwenVL 直接把宽高翻倍),视频低分图上采样后再融合。消融显示视频/帧单独用都不如融合(QVL2.5:65.9 / 67.4 → 75.2),多尺度再加 2.8 分。
4. 注意力引导的 SAM2 提示与一致性过滤:把粗定位变精细掩码并杀掉误检。 注意力图分辨率太低(patch 网格),靠它直接出的掩码轮廓很糙。DecAF 从注意力图上挑出分数高于 \(\tau_{pq}\) 的视觉 token,取其中心坐标作点提示 \(P=\{(t,y+o_y,x+o_x)\mid V_{t,y,x}\ge\tau_{pq}\}\) 喂给 SAM2,逐帧传播出掩码 tracklet。为减冗余,给每个掩码赋物体分 \(s^{obj}_i=V_{p_i}+s^{SAM}_i\) 后做 NMS(IoU>0.7 视为重叠,留高分的)。但 SAM 常从落在墙壁等背景的点提示上出高置信误检,于是引入注意力一致性分数 \(s^{ac}\):先按帧均值 \(\mu_t\) 把注意力图二值化得 \(M^{Attn}\),对低注意力区赋负的逐帧最大分 \(\delta_t=-\max(V_{t,:,:})\) 做惩罚,最终 \(s^{ac}_i=\langle\tilde{M}_i,\hat{V}\rangle/\langle M^{Attn},\hat{V}\rangle\) 衡量掩码与高注意力区跨帧的重叠度。综合分 \(s^{trk}_i=\text{Avg}(V_{p_i},s^{SAM}_i,s^{ac}_i)\),保留 \(\ge\tau_{trk}\) 的 tracklet 全帧传播出最终稠密掩码——天然同时支持单物体与多物体。
实验关键数据¶
覆盖三个 MLLM 家族(LLaVA-OV/InternVL3/Qwen2.5VL 等)、五个数据集(Ref-DAVIS、Ref-YTVOS、MeViS 三个 referring VOS + ReasonVOS、ReVOS 两个 reasoning VOS)。默认 Otsu 自适应阈值、rollout 从中间层起始、\(\tau_{trk}=\tau_{pq}=0.8\)、SAM2-hiera-large。
主实验表格(直接从注意力图出掩码,无 SAM,J&F)¶
| Method | MLLM | Ref-DAVIS | ReasonVOS | ReVOS(Overall) |
|---|---|---|---|---|
| Loc-Head | Qwen2.5VL-7B | 19.1 | 10.7 | 14.1 |
| DecAF | Qwen2.5VL-7B | 25.3 | 20.6 | 20.2 |
| TAM | Qwen2.5VL-7B | 3.5 | 3.7 | 4.0 |
| DecAF | InternVL3-8B | 20.7 | 18.4 | 16.7 |
主实验表格(加 SAM2 稠密掩码 vs 训练型方法,J&F)¶
| Method | 类型 | MLLM | Ref-DAVIS | ReasonVOS | ReVOS(Overall) |
|---|---|---|---|---|---|
| VISA | 训练型 | ChatUniVi-7B | 69.4 | - | 46.9 |
| VideoLISA | 训练型 | LLaVA-Phi-3-V | 68.8 | 47.5 | - |
| Veason-R1(RL) | 训练型 | Qwen2.5VL-7B | - | 59.9 | 61.3 |
| Loc-Head | 训练免费 | Qwen2.5VL-7B | 64.6 | 41.1 | 47.0 |
| DecAF | 训练免费 | Qwen2.5VL-7B | 75.2 | 63.9 | 54.2 |
DecAF 在 Ref-DAVIS 上超 VISA/VideoLISA 5.8/6.4 J&F,在 ReasonVOS 上甚至超过对同款 Qwen2.5VL 做 RL 训练的 Veason-R1,而它只用均匀采样、不带训练好的关键帧选择模块。
消融实验表格(Qwen2.5VL-7B SAM 掩码 J&F)¶
| 配置 | Ref-DAVIS | ReasonVOS |
|---|---|---|
| 仅物体注意力 | 61.9 | 58.4 |
| + 对比式去背景 | 75.2 | 63.9 |
| 仅视频注意力 | 65.9 | 58.6 |
| 仅帧注意力 | 67.4 | 58.2 |
| 视频+帧互补 | 75.2 | 63.9 |
| 去多尺度 | 72.4 | 60.5 |
| Rollout 原版 / Max / V-Max | 68.4 / 72.9 / 75.2 | 56.8 / 60.9 / 63.9 |
关键发现¶
- 注意力掩码本身轮廓精度(F)远低于区域相似度(J),与分割专用模型趋势相反——说明低分辨率注意力图只能给"粗定位",但这粗信号足以引导 SAM2 出精细掩码。
- TAM 因强依赖预测词 token,在物体聚焦 prompt 下几乎无法 grounding(J&F 仅 2-4),凸显 rollout 路线的鲁棒性。
- Loc-Head 在简单 referring 数据上偶尔略高(InternVL3 的 Ref-DAVIS),但在需要复杂推理的 ReasonVOS 上大幅落后,印证启发式选 head 的泛化短板。
亮点与洞察¶
- 把分割问题"翻译"成 QA:不去碰分割监督,而是借 MLLM 已有的视频问答能力间接拿定位线索,这种"换问题形式"的思路很巧妙。
- 用对比 prompt 做减法去 sink:visual attention sink 是 MLLM 注意力的老大难,DecAF 不靠检测/启发式而是"同一个 sink 在物体图和背景图都在、相减即消",简单却切中要害。
- 视频与帧注意力的互补性分析:从 softmax 归一化约束推出"视频图稀疏带时序、帧图集中带空间"的本质差异,并据此做多尺度融合,解释清晰。
- 完全训练免费却逼近/超越训练型方法,对算力受限场景和快速适配新 MLLM 极有价值。
局限与展望¶
- 注意力图分辨率天生很低,轮廓精度(F)受限,强依赖 SAM2 补细节;若 SAM2 失效则整体掉链子。
- 需要对每个视频跑多次 MLLM 前向(物体 prompt、背景 prompt、视频/帧两路),推理成本高于单次前向。
- 背景 prompt 需要先识别类别名再插模板,链路较长,类别识别错误会污染对比图。
- 多个阈值(\(\tau_{pq}\)、\(\tau_{trk}\)、rollout 起始层)需调,跨数据集/模型的最优值未必一致。
- 仍逊于带训练好关键帧选择的最新 SOTA(GLUS/VRS-HQ),均匀采样在长视频上可能丢关键帧。
相关工作与启发¶
- 训练型 RVOS/推理分割:LISA、VISA、VideoLISA、GLUS、VRS-HQ、Veason-R1(RL)——靠 LoRA/全量微调把 MLLM 与 SAM 联合优化,DecAF 走完全相反的训练免费路线。
- 注意力 rollout 定位:VL-SAM、TAM 用 rollout 在图像域定位(枚举类别),Loc-Head 选定位 head;DecAF 改进归一化并加分解融合,扩展到多物体、时序视频。
- 启发:MLLM 的内部注意力是一座未被充分挖掘的"免费定位金矿","对比 prompt 做减法"这一去 sink 范式或可迁移到 grounding、检测、可解释性等其他需要从注意力提纯信号的任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把视频推理分割重构成 QA + rollout 提纯的训练免费框架,对比/互补融合与一致性过滤组合新颖
- 实验充分度: ⭐⭐⭐⭐ 三家 MLLM × 五数据集,主实验+多组消融(融合/rollout/阈值)齐全,对比训练型与训练免费双线
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰,从 sink 与 softmax 约束讲到设计动机,图示完整
- 价值: ⭐⭐⭐⭐ 训练免费却逼近/超越训练型方法,对低成本适配新 MLLM 与可解释定位有实用与启发价值