Decomposed Attention Fusion in MLLMs for Training-free Video Reasoning Segmentation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=79SSF3ppjS
代码: https://github.com/HYUNJS/DecAF
领域: 视频分割 / 多模态推理
关键词: video reasoning segmentation, MLLM, attention rollout, training-free, SAM2, referring VOS

一句话总结¶

把视频推理分割重构成视频问答任务，直接从 MLLM 的注意力 rollout 中抽取定位线索，再用"对比式去背景 + 视频帧互补"两种融合把噪声注意力图提纯成干净的物体掩码，最后用注意力引导 SAM2 出精细掩码——全程不训练，效果逼近训练型方法。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在视频问答上展现出强大的时序理解和复杂推理能力，这暗示它们内部其实"知道"目标物体在哪。视频推理分割（video reasoning segmentation）要求根据需要复杂推理的文本表述（不只是外观、运动，还涉及世界知识与时序）定位并分割视频中的物体，正是检验这种隐含定位能力的任务。

现有痛点：当前主流做法是把 MLLM 和分割基座（SAM/SAM2）用 LoRA 等方式联合微调（LISA、VISA、VideoLISA、GLUS 等），但这需要针对模型定制训练、同时优化两个基座，算力开销大且泛化受限。唯一的训练免费路线 Loc-Head 只在图像域用空间熵挑选"定位注意力头"，强假设单物体、靠启发式压制 visual attention sink（某些区域无视指令始终拿到高分），扩展到多物体、时序视频时表现骤降。

核心矛盾：直接拿 MLLM 的注意力 rollout 当分割图，会同时被两类污染拖垮——一是聚合所有 head/layer 带来的弥散噪声，二是与指令无关却持续高激活的 visual attention sink。原始注意力图既不对齐物体边界，又被无关区域主导，无法直接阈值化成掩码。

本文目标：在完全不训练、不改模型结构的前提下，把 MLLM 注意力图提纯成可用的物体定位信号，并跨多个 MLLM 家族稳定工作。

核心 idea：[把任务转成视频 QA] 让模型回答"表述指向哪个物体"，用 rollout 抓取最后一个 token 对视觉 token 的注意力；[分解+融合去噪] 不靠启发式选 head，而是通过两路"对比/互补"融合系统性地抵消噪声与 sink；[注意力引导 SAM2] 把粗注意力图转成点提示喂给 SAM2，再用一致性打分过滤误检。

方法详解¶

整体框架¶

DecAF 是两阶段流水线。第一阶段在 MLLM 内部把任务当成视频 QA，用改进的注意力 rollout 抽出原始定位图，再经两种融合（对比式去背景 + 视频帧互补）提纯成干净的时空注意力图，直接阈值化即可得到粗掩码；第二阶段把粗注意力图转成点提示，用 SAM2 生成稠密掩码 tracklet，并以"注意力一致性分数"过滤掉落在背景上的误检 tracklet。

flowchart LR
    A[视频+文本指令] --> B[改进 rollout<br/>V-Max 归一化]
    B --> C[对比式去背景融合<br/>物体图−背景图]
    B --> D[视频/帧双路注意力]
    C --> E[视频帧互补融合<br/>上采样后平均]
    D --> E
    E --> F[阈值化→粗掩码]
    E --> G[点提示生成 τpq]
    G --> H[SAM2 传播出 tracklet]
    H --> I[一致性打分 sac<br/>NMS+阈值过滤]
    I --> J[稠密分割掩码]

关键设计¶

1. 视觉感知归一化的注意力 rollout（V-Max Rollout）：让聚合偏向真正看图像的 head。 标准 rollout 逐层累乘 head 平均注意力并加入残差恒等项，\(\hat{A}^{(l)}=(\bar{A}^{(l)}+I)/2\)，\(R^{(l)}=\hat{A}^{(l)}R^{(l-1)}\)，但简单的 head 平均会让噪声 head 稀释物体信号。DecAF 的改法是按 head 对视觉 token 的关注强度加权：从注意力张量里取出视觉块 \(A_v^{(l)}\in\mathbb{R}^{h\times N\times N_v}\)，先沿视觉 token 维取最大 \(m^{(l)}=\max_{j} A_v^{(l)}[:,:,j]\)，再沿 token 维平均得到每个 head 的权重 \(w^{(l)}\in\mathbb{R}^h\)，归一化到 \(\max_h w^{(l)}_h=1\) 后加权聚合 head。直觉是"越往视觉 token 投注意力的 head 越可能负责定位"，因此放大它们的话语权。消融显示 V-Max 比原始 rollout（68.4）和 Rollout-Max（72.9）在 Ref-DAVIS 上更高（75.2），且从 LLM 中间层（28 层模型的第 14 层）起始 rollout 效果最佳。

2. 对比式物体-背景融合：用减法把 attention sink 减掉。 Visual attention sink 会让无关区域拿到极高分，单纯阈值压不下去。DecAF 用两个互补 prompt 各跑一次 rollout：物体图来自聚焦目标的 prompt "What is the main object referred to in the given expression?"，背景图来自 "Describe the background scene of the video." 由于背景 prompt 可能误把目标物体也算进背景，作者额外把识别出的类别名 \(o_{name}\) 插进模板显式排除目标。两张图都 reshape 成 \((T,H_p,W_p)\) 并做高斯平滑缓解稀疏，对比图 \(V_{ctr}\) 由"物体图减背景图、clamp 去负值、再 min-max 归一化"得到。背景里恒定高激活的 sink 在两个 prompt 下都出现，相减即可抵消，目标信号被凸显。消融里加上对比融合让 IVL3 在 Ref-DAVIS 的注意力掩码从 12.4 跳到 20.7、SAM 掩码从 50.8 升到 62.8。

3. 视频-帧互补融合：用多尺度调和时序与空间。 softmax 让所有 token 分数和为 1：视频输入下注意力被摊薄到大量 token、偏稀疏但带时序上下文（物体临时消失或需要时序推理时关键），图像输入下注意力集中在少数 token、偏物体中心的细粒度但缺时序连贯。DecAF 对视频和逐帧两路跑同一 rollout 流程（帧模态沿 batch 轴处理），并做两处适配：背景 prompt 需要类别名时，聚合视频+帧两路输出用类别选择 prompt 选单一预测；min-max 归一化时帧级逐帧独立归一、视频级跨全帧全局归一。两路对齐分辨率后简单平均融合，兼得全局时序与空间精度。这套解耦 prompting 还顺带支持多尺度——帧模态可用更高分辨率（QwenVL 直接把宽高翻倍），视频低分图上采样后再融合。消融显示视频/帧单独用都不如融合（QVL2.5：65.9 / 67.4 → 75.2），多尺度再加 2.8 分。

4. 注意力引导的 SAM2 提示与一致性过滤：把粗定位变精细掩码并杀掉误检。 注意力图分辨率太低（patch 网格），靠它直接出的掩码轮廓很糙。DecAF 从注意力图上挑出分数高于 \(\tau_{pq}\) 的视觉 token，取其中心坐标作点提示 \(P=\{(t,y+o_y,x+o_x)\mid V_{t,y,x}\ge\tau_{pq}\}\) 喂给 SAM2，逐帧传播出掩码 tracklet。为减冗余，给每个掩码赋物体分 \(s^{obj}_i=V_{p_i}+s^{SAM}_i\) 后做 NMS（IoU>0.7 视为重叠，留高分的）。但 SAM 常从落在墙壁等背景的点提示上出高置信误检，于是引入注意力一致性分数 \(s^{ac}\)：先按帧均值 \(\mu_t\) 把注意力图二值化得 \(M^{Attn}\)，对低注意力区赋负的逐帧最大分 \(\delta_t=-\max(V_{t,:,:})\) 做惩罚，最终 \(s^{ac}_i=\langle\tilde{M}_i,\hat{V}\rangle/\langle M^{Attn},\hat{V}\rangle\) 衡量掩码与高注意力区跨帧的重叠度。综合分 \(s^{trk}_i=\text{Avg}(V_{p_i},s^{SAM}_i,s^{ac}_i)\)，保留 \(\ge\tau_{trk}\) 的 tracklet 全帧传播出最终稠密掩码——天然同时支持单物体与多物体。

实验关键数据¶

覆盖三个 MLLM 家族（LLaVA-OV/InternVL3/Qwen2.5VL 等）、五个数据集（Ref-DAVIS、Ref-YTVOS、MeViS 三个 referring VOS + ReasonVOS、ReVOS 两个 reasoning VOS）。默认 Otsu 自适应阈值、rollout 从中间层起始、\(\tau_{trk}=\tau_{pq}=0.8\)、SAM2-hiera-large。

主实验表格（直接从注意力图出掩码，无 SAM，J&F）¶

Method	MLLM	Ref-DAVIS	ReasonVOS	ReVOS(Overall)
Loc-Head	Qwen2.5VL-7B	19.1	10.7	14.1
DecAF	Qwen2.5VL-7B	25.3	20.6	20.2
TAM	Qwen2.5VL-7B	3.5	3.7	4.0
DecAF	InternVL3-8B	20.7	18.4	16.7

主实验表格（加 SAM2 稠密掩码 vs 训练型方法，J&F）¶

Method	类型	MLLM	Ref-DAVIS	ReasonVOS	ReVOS(Overall)
VISA	训练型	ChatUniVi-7B	69.4	-	46.9
VideoLISA	训练型	LLaVA-Phi-3-V	68.8	47.5	-
Veason-R1(RL)	训练型	Qwen2.5VL-7B	-	59.9	61.3
Loc-Head	训练免费	Qwen2.5VL-7B	64.6	41.1	47.0
DecAF	训练免费	Qwen2.5VL-7B	75.2	63.9	54.2

DecAF 在 Ref-DAVIS 上超 VISA/VideoLISA 5.8/6.4 J&F，在 ReasonVOS 上甚至超过对同款 Qwen2.5VL 做 RL 训练的 Veason-R1，而它只用均匀采样、不带训练好的关键帧选择模块。

消融实验表格（Qwen2.5VL-7B SAM 掩码 J&F）¶

配置	Ref-DAVIS	ReasonVOS
仅物体注意力	61.9	58.4
+ 对比式去背景	75.2	63.9
仅视频注意力	65.9	58.6
仅帧注意力	67.4	58.2
视频+帧互补	75.2	63.9
去多尺度	72.4	60.5
Rollout 原版 / Max / V-Max	68.4 / 72.9 / 75.2	56.8 / 60.9 / 63.9

关键发现¶

注意力掩码本身轮廓精度（F）远低于区域相似度（J），与分割专用模型趋势相反——说明低分辨率注意力图只能给"粗定位"，但这粗信号足以引导 SAM2 出精细掩码。
TAM 因强依赖预测词 token，在物体聚焦 prompt 下几乎无法 grounding（J&F 仅 2-4），凸显 rollout 路线的鲁棒性。
Loc-Head 在简单 referring 数据上偶尔略高（InternVL3 的 Ref-DAVIS），但在需要复杂推理的 ReasonVOS 上大幅落后，印证启发式选 head 的泛化短板。

亮点与洞察¶

把分割问题"翻译"成 QA：不去碰分割监督，而是借 MLLM 已有的视频问答能力间接拿定位线索，这种"换问题形式"的思路很巧妙。
用对比 prompt 做减法去 sink：visual attention sink 是 MLLM 注意力的老大难，DecAF 不靠检测/启发式而是"同一个 sink 在物体图和背景图都在、相减即消"，简单却切中要害。
视频与帧注意力的互补性分析：从 softmax 归一化约束推出"视频图稀疏带时序、帧图集中带空间"的本质差异，并据此做多尺度融合，解释清晰。
完全训练免费却逼近/超越训练型方法，对算力受限场景和快速适配新 MLLM 极有价值。

局限与展望¶

注意力图分辨率天生很低，轮廓精度（F）受限，强依赖 SAM2 补细节；若 SAM2 失效则整体掉链子。
需要对每个视频跑多次 MLLM 前向（物体 prompt、背景 prompt、视频/帧两路），推理成本高于单次前向。
背景 prompt 需要先识别类别名再插模板，链路较长，类别识别错误会污染对比图。
多个阈值（\(\tau_{pq}\)、\(\tau_{trk}\)、rollout 起始层）需调，跨数据集/模型的最优值未必一致。
仍逊于带训练好关键帧选择的最新 SOTA（GLUS/VRS-HQ），均匀采样在长视频上可能丢关键帧。

评分¶

新颖性: ⭐⭐⭐⭐ 把视频推理分割重构成 QA + rollout 提纯的训练免费框架，对比/互补融合与一致性过滤组合新颖
实验充分度: ⭐⭐⭐⭐ 三家 MLLM × 五数据集，主实验+多组消融（融合/rollout/阈值）齐全，对比训练型与训练免费双线
写作质量: ⭐⭐⭐⭐ 动机推导清晰，从 sink 与 softmax 约束讲到设计动机，图示完整
价值: ⭐⭐⭐⭐ 训练免费却逼近/超越训练型方法，对低成本适配新 MLLM 与可解释定位有实用与启发价值