CoPRS: Learning Positional Prior from Chain-of-Thought for Reasoning Segmentation¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=Fcsop01h40
代码: https://github.com/ZhenyuLU-Heliodore/CoPRS
领域: 多模态VLM / 推理分割
关键词: 推理分割、思维链、位置先验、热力图、GRPO

一句话总结¶

CoPRS 让多模态大模型先用思维链推理、再吐出一个「聚焦 token」，把它转成一张稠密可微的热力图当作位置先验，再用一个轻量解码器把先验细化成分割掩码，从而在 RefCOCO 系列和 ReasonSeg 上做到推理与分割可解释地对齐，并刷出 SOTA。

研究背景与动机¶

领域现状：推理分割（reasoning segmentation）要求模型读懂一句自由形式、带组合约束的指令（如「分割那架尾随四旋翼、被树部分遮挡的无人机」），然后输出对应物体的掩码。这是分割任务从语义分割→实例分割→开放词表分割一路演化的终点，核心难点是把「语言推理」和「空间定位」耦合起来。现有方法分成两大阵营。

现有痛点：第一类是隐式推理（LISA、PerceptionGPT 等），直接把语言模型的隐藏特征接到掩码解码器上。问题是中间决策完全是黑箱——你看不到模型「为什么」选了这个区域，也无从诊断和干预。第二类是文本式推理（Seg-Zero、Text4Seg 等），让 MLLM 用思维链输出离散的文本坐标（bbox / point / patch 索引）再喂给 SAM。这一类虽然「显式」，但稀疏的离散坐标承载不了细粒度视觉语义，而且对格式错误、坐标越界这类工程问题很脆弱。

核心矛盾：两个极端各踩一边——隐式法有表达力但不可解释，文本法可解释但表达力差。问题的根本在于缺一个既可解释、又稠密可微的中间接口来连接推理和分割。

本文目标：造一个端到端、单阶段的模型，让 MLLM 先推理、再产出一个能直接监督、又能看懂的位置表征，把它当作增强掩码解码的位置先验。

切入角度：作者的关键观察是，「位置」不一定要用隐特征（看不懂）或文本坐标（太稀疏）来表达，可以用一张稠密热力图——它天然可微（能端到端反传）、可视化即可解释（哪里红代表模型在关注哪里），信息量也远比几个坐标点丰富。

核心 idea：用一个可学习的「聚焦 token」把图像和推理文本的上下文聚合成一个查询，让它去 attend 图像特征生成热力图位置先验，再轻量解码成掩码——用「可微热力图」这个接口同时替掉「黑箱隐特征」和「稀疏文本坐标」。

方法详解¶

整体框架¶

CoPRS 建在一个多模态 LLM（MLLM）+ 视觉骨干 + 查询头 + 掩码解码器之上。给定图像-文本输入 \((x_{img}, x_{txt})\)，策略模型 \(\pi_\theta\) 通过 next-token 预测生成一段 token 序列，里面既包含 <think>...</think> 的思维链（CoT），也包含一个特殊的聚焦 token <REF_POS>。模型读出这个聚焦 token 在 LLM 里对应的隐藏状态 \(e_{conc}\)，再经查询头 \(F_{head}\) 映射成「聚焦查询」\(Q\)。同时视觉编码器 \(F_{enc}\) 把图像编成「图像键」\(K\)。查询 \(Q\) 用多头注意力去 attend 这些键，得到一张热力图 \(H_{prior}\) 作位置先验；最后轻量掩码解码器 \(F_{dec}\) 把这个先验解码成预测掩码 \(\hat{M}\)。整套系统端到端联合训练：语言路用 GRPO 强化学习增强推理，视觉路用分割监督锤炼掩码质量，两条路通过这张可微热力图缝在一起、共享一次反向传播。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 + 指令"] --> B["MCoT 推理 + 聚焦 token<br/>think 块推理后吐 REF_POS"]
    B --> C["聚焦查询 Q<br/>读隐状态经查询头映射"]
    A --> K["视觉编码器<br/>提图像键 K"]
    C --> D["位置先验热力图<br/>Q 注意力 attend K"]
    K --> D
    D --> E["轻量解码器<br/>卷积重采样 + 双向 Transformer"]
    E --> F["预测掩码"]
    B -.->|GRPO 奖励| G["统一训练目标<br/>GRPO + 分割监督"]
    D -.->|BCE 监督| G
    E -.->|Dice/Focal 监督| G

关键设计¶

1. MCoT 驱动的聚焦 token：把推理过程显式接到位置上

针对「隐式法看不到推理、文本法坐标太稀疏」这个痛点，CoPRS 让 MLLM（用 Qwen2.5-VL）先在 <think>...</think> 块里把指令推理一遍，再输出一个聚焦 token <REF_POS>。这一步借鉴 DeepSeek-R1 的做法，用提示词诱导模型对组合型指令做多模态思维链。关键在于：模型不是直接把隐特征丢给解码器，而是先把推理走完、再用一个专门的 token 去「凝结」这次推理对目标位置的判断。形式上策略 \(\pi_\theta\) 生成序列 \(y_{1:T}\)，再用 \(F_{conc}\) 找到聚焦 token 的位置、读出它的隐藏状态：

\[y_t \sim \pi_\theta(\cdot \mid y_{0:t-1}, x_{img}, x_{txt}), \quad e_{conc} = F_{conc}(y_{1:T})\]

好处是推理过程因为 CoT 而透明，且聚焦 token 的 embedding 携带了「推理之后」的语义，而不是原始 prompt 的浅层编码。

2. 从键和查询到位置先验：用可微热力图替掉文本坐标

这是 CoPRS 最核心的接口设计。视觉骨干（用 SAM 的 ViT-H 编码器）把图像编成键 \(K \in \mathbb{R}^{H\times W \times d_k}\)，查询头（MLP）把聚焦 token embedding 投成查询 \(Q \in \mathbb{R}^{d_q}\)，然后在 \(Q\) 和 \(K\) 之间算缩放点积多头注意力，用两层堆叠的 2D 卷积 \(F_{fuse}\) 把多头结果聚合成单张热力图：

\[H_{prior} = F_{fuse}\left(\left[(QW_i^Q)(KW_i^K)^\top / \sqrt{d_c}\right]_{i=1}^{n_{head}}\right)\]

这张稠密、可微的热力图就是位置先验——比黑箱隐特征更可解释（红色区域直观显示模型聚焦在哪），又比离散文本坐标承载更多细粒度语义，且整条路径可微、能被分割损失端到端监督。本质上它把「位置」从一串脆弱的数字坐标，换成了一张能反传、能可视化的密集图。

3. 轻量两阶段解码器：让先验细化成精确掩码

热力图只是「大致聚焦」，还不是精确边界。解码器分两个子模块：先用三层堆叠的 2D 卷积块把融合后的先验重采样到解码分辨率；再接一个仿照 SAM 解码器设计的双向 Transformer（Two-Way Transformer），在图像特征和位置先验之间做双向交叉注意力。整个解码器只有 4.7M 参数，却能让先验去引导稠密分割：

\[\hat{M} = F_{dec}(K, H_{prior})\]

作者在相关性分析里发现，推理时大多数样本落在 \(y=x\) 线上方——意味着先验本身已经聚焦得不错，解码器又把它进一步精修成更精确的掩码，二者分工明确。

4. 统一训练目标：GRPO 强化推理 + 分割监督锤炼掩码

推理和分割不是分两段训，而是一个目标里联合优化。对每个 \((x_{img}, x_{txt})\)，策略 \(\pi_\theta\) 用 GRPO（组相对策略优化）滚出一组 \(G\) 个回复，从组内相对优势算出 \(L_{GRPO}\)；同时位置先验 \(H_{prior}\) 和预测掩码 \(\hat{M}\) 用真值掩码 \(M_{gt}\) 监督，给出 \(L_{SEG}\)。总目标是：

\[L = L_{GRPO}\left(\{y_{1:T_i}^{(i)}\}_{i=1}^G\right) + \lambda_{SEG} L_{SEG}\left(H_{prior}, \hat{M}, M_{gt}\right)\]

其中 GRPO 部分沿用 PPO 的裁剪和 KL 正则，奖励由「掩码质量分」（soft IoU 0.5、soft Dice 0.2、hard IoU 0.3 加权）和「CoT 格式分」（多条正则匹配）按 0.7/0.3 混合。分割损失则是三项互补：对热力图 \(H_{prior}\) 的 BCE（鼓励位置证据集中）、对掩码的 Dice（直接监督掩码质量）、对掩码 logits 的 Focal（强调难像素和细结构）：

\[L_{SEG} = L_{BCE}(H_{prior}, M_{gt}) + \lambda_d L_{DICE}(\hat{M}, M_{gt}) + \lambda_f L_{FOCAL}(\hat{M}, M_{gt})\]

每个 batch 同时算两项、走一次反向传播——GRPO 损失只更新 MLLM 参数，分割损失更新全部可训练模块。这样强化学习负责让 CoT 推理更准，监督信号负责让掩码更锐利，两者通过可微先验互相增益。

损失函数 / 训练策略¶

训练时把每个图文对复制 \(G\) 份喂给 \(\pi_\theta\) 生成 \(G\) 个回复，奖励函数给每个回复打标量分、转成优势算 GRPO 损失；同 batch 内图像 resize+pad 到 \(1024\times1024\)、过视觉骨干、解码成 \(\hat{M}\) 算分割损失，两损失每轮联合优化。默认超参：\(\lambda_{SEG}=0.3\)、\(\lambda_d=3.0\)、\(\lambda_f=10\)；GRPO 组大小 \(G=8\)；MLLM 基学习率 2e-6，聚焦查询头乘 25×、解码器两子模块分别乘 10×/5×；优化器 AdamW（weight decay 0.01），OneCycleLR 调度。推理时不复制，\(\pi_\theta\) 做确定性 next-token 生成单个回复、走同一前向得到 logits，去 padding、resize 回原图、阈值 0 二值化得掩码。训练在 8 张 A100（80GB）上、基于 VERL 代码库。

实验关键数据¶

主实验¶

RefCOCO 系列（cIoU），与三类方法对比；CoPRS-7B 在大多数 split 上拿下最佳，仅在 RefCOCO 的 2/8 个 split 上落后于参数更大的 RAS-13B：

数据集/split	指标	CoPRS-7B	CoPRS-3B	之前最强对比
RefCOCO testA	cIoU	85.3	83.9	RAS-13B 83.5
RefCOCO+ val	cIoU	75.9	71.8	RAS-13B 75.1
RefCOCO+ testA	cIoU	80.3	78.9	RAS-13B 80.0
RefCOCOg val	cIoU	76.2	74.8	RAS-13B 76.0

ReasonSeg 零样本（不在其图像上训练），考验复杂推理分割的泛化：

数据集/split	指标	CoPRS-7B	CoPRS-3B	Seg-Zero-7B
ReasonSeg val	gIoU	65.2	61.3	62.6
ReasonSeg val	cIoU	64.5	60.6	62.0
ReasonSeg test	gIoU	59.8	57.8	57.5
ReasonSeg test	cIoU	55.1	52.7	52.0

值得注意的是，相比同样用 GRPO 训练的 Seg-R1 和 Seg-Zero，CoPRS 的 3B 模型就能超过它们的 7B 版本，作者归因于可学习聚焦查询在连接推理与分割上的有效性。

消融实验¶

配置	关键指标 (RefCOCO+)	说明
完整模型 (Qwen2.5-VL-7B + ViT-H)	val 75.9 / testA 80.3	默认设置
MLLM 换 LLaVA-1.5-7B	val 73.1 / testA 79.0	换骨干仅小幅下降，方法不依赖特定 MLLM
视觉骨干换 ViT-B	val 73.2 / testA 77.3	比 ViT-H 掉约 2.7 / 3.0，但骨干只占总参数小头
视觉骨干换 ViT-L	val 74.8 / testA 78.9	介于 B 和 H 之间
仅 RL / 仅 Seg	均明显低于 RL+Seg	单独任一路都不如联合目标
掩码奖励系数 0→0.7→1.0	0.7 最优	纯掩码奖励(1.0)反而略降，格式分需保留做正则

关键发现¶

可解释对齐是核心卖点也被实证：作者用最小二乘回归量化了 CoT 轨迹、热力图 \(H_{prior}\)、掩码 \(\hat{M}\) 三者的相关性。训练阶段热力图与掩码的 \(R>0.7\)（如 RefCOCO 上 \(R=0.76\)），推理阶段 IoU 相关同样 \(R>0.7\)；更进一步用 Gemini-2.5-Flash 当独立评分器算 CoT 一致性分（逻辑 0.3 / 任务相关 0.2 / 视觉一致 0.3 / 定位 0.2 加权），发现 CoT 质量越高、热力图和掩码 IoU 越好（\(R=0.65\)/\(0.44\)）。这定量支持了「推理越好→分割越准」。
GRPO 组大小的甜点是 8：增大 \(G\) 在各 split 上都涨点，但收敛所需总样本数并不随 \(G\) 线性增长——更大的组每步给更多样的候选、改善探索和正负样本对比，\(G=8\) 在效率和性能间最平衡。
失败模式：CoPRS 主要在两类场景翻车——当前输入分辨率下会消失的极小物体，以及一堆相似实例密集排布、光靠文本无法可靠区分目标时。

亮点与洞察¶

「可微热力图当接口」是真正巧妙的地方：它一举调和了隐式法（可微但黑箱）和文本法（可解释但稀疏脆弱）的矛盾——热力图既能端到端反传被监督，又能直接可视化看懂模型在关注哪，信息密度还远高于几个坐标点。这个「用密集可微表征替掉离散符号接口」的思路，可迁移到任何「LLM 推理 → 下游空间/结构预测」的任务（如检测、关键点、轨迹预测，作者也提到天然能扩展到 region concentration 任务）。
聚焦 token 的设计干净：不新增一堆模块，就靠一个特殊 token 的隐状态来「凝结」推理后的位置判断，再 attend 视觉特征——比直接接隐特征多了一层「推理后聚焦」的语义。
小模型超大模型的现象有说服力：CoPRS-3B 超过 Seg-Zero/Seg-R1 的 7B，说明收益来自接口设计而非堆参数，这种「架构红利」比单纯 scale 更值钱。
三者相关性的定量验证很难得：大多数可解释性工作停在「画几张热力图给你看」，CoPRS 用回归系数 + 独立 LLM 评分把「CoT→热力图→掩码」的对齐量化出来，让「可解释」不只是口号。

局限与展望¶

作者承认的局限：对分辨率下会消失的极小目标、以及密集同类实例（文本无法消歧）这两类难例处理不佳。前者可通过更高输入分辨率或多尺度先验缓解，后者需要更强的指代消歧能力。
依赖 MLLM 的推理质量：相关性分析显示分割质量强依赖 CoT 质量，意味着当 MLLM 推理出错时，错误会顺着热力图直接传导到掩码，缺少一个纠错回环。
评测范围：主要在 RefCOCO 系列和 ReasonSeg 上验证，都偏自然图像的指代/推理分割；在医学、遥感等专业域，或视频时序场景下的表现还未知。
CoT 一致性用 Gemini-2.5-Flash 打分引入了外部黑箱评估器，其打分本身的可靠性和偏置没有进一步校验（⚠️ 这部分以原文为准）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用可微可解释热力图当推理-分割接口，干净地调和了两大阵营的矛盾，思路有普适性
实验充分度: ⭐⭐⭐⭐⭐ 四数据集 + 零样本 + 六类消融 + 三者相关性的定量回归分析，覆盖很全
写作质量: ⭐⭐⭐⭐ 方法清晰、图示到位，相关性分析部分公式排版略密
价值: ⭐⭐⭐⭐⭐ 同尺度刷 SOTA、3B 超 7B，且可解释接口可迁移到更广的「推理→空间预测」任务