Reasoning to Attend: Try to Understand How \<SEG> Token Works¶

会议: CVPR 2025
arXiv: 2412.17741
代码: https://github.com/rui-qian/READ
领域: 多模态VLM
关键词: 推理分割, SEG token分析, 相似度引导点提示, 语义对齐, 大多模态模型

一句话总结¶

深入分析了 \<SEG> token 在推理分割任务中的工作机制——发现其学到了与文本直接提及相似的语义特征并用于图像-文本语义对齐，在此基础上提出 READ 方法，将 \<SEG> token 与图像 token 的相似度图转换为点提示，以即插即用方式指导 SAM 解码器生成更精确的分割掩码。

研究背景与动机¶

在推理分割（reasoning segmentation）任务中，LISA 等先驱工作使用 \<SEG> token 作为 LLaVA 编码器与 SAM 解码器之间的桥梁：\<SEG> token 是文本词表中新增的占位符，经LLM微调后其隐藏层嵌入被投射到SAM中生成分割掩码。然而，很少有研究探究 \<SEG> token 到底"学到了什么"。

作者通过可视化发现了一个惊人的一致性：\<SEG> token 与图像 token 的相似度图（similarity map）在LLaVA编码器和SAM解码器中都呈现高度一致的激活模式，且这些激活区域与 CLIP 中文本直接提及（如"antler"）的相似度图也高度吻合。这意味着 \<SEG> token 本质上学到了"语义相似度"能力，充当了隐式文本到视觉的语义桥梁。基于此发现，一个自然的想法是：直接利用相似度图中的高激活点来告诉模型"该注意哪里"。

方法详解¶

整体框架¶

READ 由三个核心模块组成：(1) LLaVA编码器：接收图像-文本对，输出文本响应和 \<SEG> token 的隐藏层嵌入 \(\boldsymbol{h}_{seg}\)；(2) SasP模块（Similarity as Points）：计算 \<SEG> token 嵌入与图像 token 嵌入的相似度图，将高激活区域转换为连续可微的点坐标；(3) SAM解码器：接收 \(\boldsymbol{h}_{seg}\)、点提示 \(\mathcal{P}\) 和图像特征，生成分割掩码 \(\hat{\mathbf{M}} = \mathcal{G}_{\mathcal{V}}^{dec}(\mathbf{f}, \boldsymbol{h}_{seg}, \mathcal{P})\)。

关键设计¶

相似度即点提示（Similarity as Points, SasP）:
- 功能：从 \<SEG> token 与图像 token 的语义相似度中提取空间位置提示
- 核心思路：计算参数无关的相似度得分 \(\mathcal{S} = \boldsymbol{h}_{img}^{(l_k)} \cdot (\boldsymbol{h}_{seg}^{(l_k)})^T\)，其中 \(\mathcal{S} \in \mathbb{R}^{N_t}\)。根据均值 \(\mu\) 和标准差 \(\sigma\) 设定阈值划分三类点：正点（\(\mathcal{S}_j \geq \mu + 0.5\sigma\)，前景）、负点（\(\mathcal{S}_j \leq \mu - 0.5\sigma\)，背景）、中性点（其余）。恢复每个被选点的绝对坐标后送入 SAM 作为点提示
- 设计动机：实验证明相似度图中的高激活点已经隐含了目标对象的位置信息（单独用these points提示SAM就能获得27.0% cIoU），将其显式利用可以为SAM提供更强的空间定位线索
离散到连续采样（Discrete to Continuous, DtoC）:
- 功能：将离散的、不可微的点坐标转化为连续可微坐标，使梯度可以回传到LMM
- 核心思路：使用基于距离的高斯加权平均插值。对选定点 \((x_j, y_j)\)，计算其与每个网格点的距离权重 \(w_i^j = \exp(-d_i^j)\)，与 softmax 概率 \(p_i\) 结合得到归一化权重 \(\hat{w}_i^j\)，最终连续坐标为加权平均 \(\hat{x}_j = \sum_{i=1}^{h \times w} \mathbf{g}_{x,i} \cdot \hat{w}_i^j\)
- 设计动机：点选择涉及排序和索引操作是不可微的，若不做连续化处理，损失函数的梯度无法传回LLaVA编码器。通过DtoC，模型可以在前向"推理关注位置"的同时在反向"学习更好地关注"
即插即用架构设计:
- 功能：SasP 可无缝集成到任何基于 \<SEG> token 的管线中（如 LISA、SESAME、GSVA 等）
- 核心思路：SasP 的相似度计算是无参数的（parameter-free），仅需利用已有的 \<SEG> token 嵌入和图像 token 嵌入，不引入额外参数
- 设计动机：降低集成成本，保持方法的通用性和极低开销

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \lambda_{txt} \mathcal{L}_{txt} + \lambda_{mask} \mathcal{L}_{mask}\)
文本生成损失 \(\mathcal{L}_{txt}\)：交叉熵损失
掩码损失 \(\mathcal{L}_{mask} = \lambda_{bce} \mathcal{L}_{bce}(\hat{\mathbf{M}}, \mathbf{M}) + \lambda_{dice} \mathcal{L}_{dice}(\hat{\mathbf{M}}, \mathbf{M})\)，\(\lambda_{bce}=2.0\), \(\lambda_{dice}=0.5\)
使用 LoRA 高效微调 LLaVA，SAM 的图像编码器冻结，仅训练 mask decoder
4×3090 GPU，20 epochs，约24小时；AdamW，lr=0.0003

实验关键数据¶

主实验¶

数据集	指标	READ-7B	LISA-7B-v1.5(ft)	SESAME	提升
ReasonSeg val	cIoU	67.6	62.9	39.1	+4.7
ReasonSeg test overall	gIoU	58.5	55.6	30.5	+2.9
RefCOCO val	cIoU	78.1	74.9	74.7	+3.2
RefCOCO+ val	cIoU	68.4	65.1	64.9	+3.3
RefCOCOg val(U)	cIoU	70.1	67.9	66.1	+2.2
FP-RefCOCO See	Acc	82.87	51.36	79.84	+3.03
FP-RefCOCO Seg	cIoU	61.50	44.00	57.93	+3.57

消融实验¶

配置	gIoU	cIoU	说明
\<SEG>prompt only	51.2	57.6	基线LISA方式
+ \(\mathcal{P}\)prompt（离散点）	56.4	64.6	点提示贡献+7% cIoU
+ \(\mathcal{P}\)DtoC（连续化）	59.8	67.6	DtoC再贡献+3% cIoU
SAM-ViT-Base	55.6	61.9	-
SAM-ViT-Large	60.1	65.2	-
SAM-ViT-Huge	59.8	67.6	更大backbone更优

关键发现¶

\<SEG> token 的定量分析：仅用相似度图中的高/低激活点提示原始SAM，就能达到27.0% cIoU（vs SESAME的30.4%），说明 \<SEG> token 确实学到了有效的空间定位语义
相似度图与ground-truth掩码的 IoU 一致性（\(\mathcal{S}\)IoU=36.4%）甚至超过了 \<SEG> token 直接提示 SAM 的结果（30.4%），验证了空间位置信息的存在
READ 在假前提（false premise）场景中表现出色：FP-RefCOCO 的 See 准确率82.87%（vs LISA的51.36%），说明READ不会盲目生成掩码

亮点与洞察¶

首次系统分析 \<SEG> token 的工作机制：通过可视化和定量实验揭示了 \<SEG> token 学到的是"语义相似度"——本质上是将隐式文本推理结果映射到了视觉空间
"推理以关注 & 关注以推理"的双向学习：DtoC 使得梯度可以从分割损失回传到 LLaVA，建立了"注意力引导分割"和"分割反馈优化注意力"的闭环
极简且即插即用：SasP 无额外参数，可直接叠加到任何 \<SEG>-like 系统上
发现 \<SEG> token 语义等价性：\<SEG> token 在隐式推理后获得的嵌入，与直接文本提及（如"antler"）在CLIP空间中的相似度模式高度一致

局限与展望¶

当前相似度计算是简单点积，未引入可学习参数（如交叉注意力），有进一步提升空间
仅在7B和13B的LLaVA上验证，未在更大或更新的LMM上测试
阈值 \(\varepsilon=0.5\) 是固定的，自适应阈值可能更优
单 \<SEG> token 的多目标场景尚未充分探索

评分¶

新颖性: ⭐⭐⭐⭐ 对 \<SEG> token 机制的分析是全新视角，SasP 设计虽简单但动机清晰
实验充分度: ⭐⭐⭐⭐⭐ ReasonSeg + RefCOCO(+/g) + FP-RefCOCO(+/g) 全面覆盖，消融详尽
写作质量: ⭐⭐⭐⭐ 分析→发现→方法的逻辑链条清晰，可视化有说服力
价值: ⭐⭐⭐⭐ 作为即插即用模块有实用价值，机理分析对后续工作有指导意义