Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2604.07723
代码: GitHub
领域: 图像分割
关键词: 开放词汇语义分割, 免训练, 分布差异, 最优传输, 马尔可夫过程

一句话总结¶

提出一种跳过logits优化过程的开放词汇语义分割方法，基于"同类区域的logits到退化分布的分布差异一致"这一假设，直接通过最优传输路径或最大传输速度的解析解来构造分割图，在8个基准上达到SOTA且无需训练或模型特定调制。

研究背景与动机¶

开放词汇语义分割（OVSS）需要像素级的视觉-语言对齐能力。现有方法的核心范式可归纳为logits优化——计算视觉与语言特征的余弦相似度（logits），最小化logits分布与GT分布的差异以获得最优logits，再取argmax得到分割图。这一范式有两种实现方式：

迭代训练范式：需要GT标注和耗时的训练过程

注意力调制范式（免训练）：校准自注意力计算来纠正细粒度对齐，但其去噪操作是数据无关但模型特定的（如CLIP特定的注意力替换），泛化性差

这两种方式都优先推导最优logits、然后构造分割图。作者的核心洞察是：能否完全跳过logits优化，直接从分布差异本身获得分割图？

关键假设：同类区域（homogeneous regions）呈现一致的分布差异，异类区域（heterogeneous regions）呈现不同的分布差异。如果这个假设成立，分布差异本身就编码了语义信息，无需先优化出最优logits。

方法详解¶

整体框架¶

这篇论文要解决的是免训练开放词汇语义分割：给一张图和一组文本类别，不训练、不做模型特定的注意力魔改，就要输出像素级分割。整条流水线的关键转折在于它不再去优化 logits。传统范式是先用 CLIP 算出视觉-语言相似度 logits，再把 logits 分布往 GT 分布拉（\(\mathcal{Q}^* = \arg\min_\mathcal{Q} \mathbf{D}(\mathcal{P}\|\mathcal{Q})\)），最后 argmax 取类别；本文把它翻转成一个解析解 \(\mathbf{M} = \arg\max_{N_c} \mathbf{D}(\mathcal{S}\|\mathcal{Q})\)，直接拿「logits 到退化分布 \(\mathcal{S}\) 的差异」当作分割依据。

具体走法是：CLIP 算出 logits 后，先做非极大值抑制（NMS）和归一化压掉噪声；然后计算归一化 logits 到退化分布（均匀分布 \(\frac{1}{N}\mathbf{1}_N\)）的差异，这一步有两条等价路线——最优传输路径或最大传输速度，两者都依赖一张刻画 patch 间关系的自注意力张量；最后用联合双边上采样（JBU）把低分辨率结果恢复到原图尺寸，argmax 得到分割图。整个过程没有任何参数更新。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 + 文本类别"] --> B["CLIP 编码<br/>余弦相似度得 logits"]
    B --> C["NMS + 归一化<br/>压掉低置信 patch"]
    C --> D["退化分布替代 GT<br/>测 logits 到均匀分布 S 的差异"]
    SD["自注意力张量来源<br/>SD2 单步去噪取 up0+up1 块"] -.->|代价 / 转移矩阵| E
    SD -.->|代价 / 转移矩阵| F
    D --> E["最优传输路径<br/>Sinkhorn 解析解"]
    D --> F["最大传输速度<br/>马尔可夫收敛步数倒数"]
    E --> G["JBU 上采样得差异图"]
    F --> G
    G --> H["argmax → 分割图"]

关键设计¶

1. 退化分布替代 GT：把推理时拿不到的 GT 端点换成永远可知的均匀分布

整套方法的合法性全押在这个替换上。优化范式之所以离不开训练，是因为它需要 GT 分布作为靠拢目标，而推理时根本没有 GT。本文的做法是用退化分布（均匀分布）当替身：作者发现在特征空间里，退化分布 \(\mathcal{S}\) 和 GT 分布 \(\mathcal{P}\) 恰好占据对跖（antipodal）的两端——logits 优化是朝 GT 端点走，那么反过来「测 logits 到退化端点还有多远」同样能区分类别。实验上，KL 散度从 logits 到 GT（\(\mathbf{D}(\mathcal{P}\|\mathcal{Q})\)）和从 logits 到退化分布（\(\mathbf{D}(\mathcal{S}\|\mathcal{Q})\)）在 5 个数据集上性能高度一致，验证了这种端点对调可行。选退化分布而不是别的分布，原因很现实：它是推理时唯一无需任何额外信息就能写出来的分布。

2. 最优传输路径：用同类区域退化路径一致这件事，把「差异」量化成传输代价

有了替代端点，还需要一把尺子去量「每个 patch 的 logits 到退化分布有多远」。第一把尺子是路径——核心假设是同类区域走向退化的路径应当一致，于是路径本身就编码了语义差异。作者把它写成带熵正则的 Sinkhorn 最优传输：

\[\boldsymbol{\pi}^* = \min_{\boldsymbol{\pi}} \sum_{i,j} \mathbf{C}_{i,j}\boldsymbol{\pi}_{i,j} - \epsilon\sum_{i,j}\boldsymbol{\pi}_{i,j}(\ln\boldsymbol{\pi}_{i,j} - 1)\]

代价矩阵 \(\mathbf{C}\) 取自 Stable Diffusion v2 的层级平均自注意力张量，刻画 patch 之间的相互关系。借 Lagrange 乘子法可得解析解 \(\boldsymbol{\pi}^* = \text{diag}(\boldsymbol{\mu})\mathbf{K}\text{diag}(\boldsymbol{\nu})\)，其中 Gibbs 核 \(\mathbf{K} = \exp(-\mathbf{C}/\epsilon)\)，再用 Sinkhorn 迭代（50 次，\(\epsilon=0.1\)）交替更新 \(\boldsymbol{\mu}\)、\(\boldsymbol{\nu}\) 收敛即可。这条路线对高频纹理更敏感。

3. 最大传输速度：路径相同时，谁退化得慢谁差异就大

第二把尺子换了个角度——不看路径走到哪，而看走得多快。作者把 logits 收敛到静止分布的过程建模成马尔可夫链 \(\mathbf{f}^{c(l)} = \mathbf{f}^{c(0)} \cdot \mathbf{T}^l\)，转移矩阵 \(\mathbf{T}\) 由迭代比例拟合（IPF，15 次）把自注意力张量整成双随机矩阵得到。一个 patch 越快被推向退化的均匀态，说明它离退化端点越近、与该类的差异越小；反过来收敛越慢、差异越大。于是把每个 patch 的最大传输速度定义为收敛步数的倒数：

\[\mathbf{v}_i^c = \max\{1/l : |\mathbf{f}_i^{c(l)} - \mathbf{f}_i^{c(l-1)}| \leq \tau\}\]

其中 \(\tau=0.3\) 是收敛阈值——阈值太大会让 logits 还没充分退化就被判定收敛。这条路线对类间边界更敏感，和最优路径形成互补（也正因关注点不同，简单融合两者反而互相干扰、掉点）。

4. 自注意力张量来源：用 SD2 而非 CLIP 的自注意力当 patch 关系图

前两把尺子都依赖一张刻画 patch 间关系的张量（代价矩阵 / 转移矩阵），它从哪来直接决定效果。作者没用 CLIP 自己的自注意力，而是改用 Stable Diffusion v2 的自注意力：把无噪声潜在特征直接编码后做单步无条件去噪来提取，避免注入噪声、保证特征确定性。来源块也有讲究——组合 \(\text{up}_0\) 与 \(\text{up}_1\) 上采样块的张量效果最好。这也是全方法唯一引入的「外部模型」，换来的是不绑定任何特定 CLIP 架构的模型无关性。

损失函数 / 训练策略¶

完全免训练方法。不涉及任何训练或微调过程。使用现成的CLIP（ViT-B/16 或 ViT-L/14）和Stable Diffusion v2权重。16位浮点精度推理，整图推理无需滑动窗口。

实验关键数据¶

主实验¶

CLIP ViT-B/16 骨干：

方法	范式	VOC21	Context60	COCO-Stuff	Cityscapes	ADE20K	Avg
SCLIP	M.M.	59.1	30.4	22.4	32.2	16.1	38.2
NACLIP	M.M.	58.9	32.2	23.3	35.5	17.4	39.4
CASS	M.M.	65.8	36.7	26.7	39.4	20.4	44.4
Ours (O.P.)	-	66.9	37.6	28.6	41.7	22.8	46.2
Ours (M.V.)	-	67.8	38.3	28.9	43.3	23.0	46.9

CLIP ViT-L/14 骨干：

方法	VOC21	Context60	COCO-Stuff	Cityscapes	ADE20K	Avg
SC-CLIP	65.0	36.9	26.9	41.3	21.7	45.2
Ours (M.V.)	68.9	38.7	29.2	43.9	23.4	47.8

消融实验¶

配置	VOC21	COCO-Stuff	Cityscapes	ADE20K	Avg
(I) Baseline (raw logits)	18.6	7.2	6.7	3.2	8.9
(II) +KL散度	44.2	12.1	8.6	6.4	17.8
(III) +NMS	45.9	13.0	9.6	7.7	19.1
(IV) +JBU	46.3	13.3	10.1	8.8	19.6
(V) +最优传输路径	66.9	28.6	41.7	22.8	40.0
(VI) +最大传输速度	67.8	28.9	43.3	23.0	40.8
(VII) 融合(V)+(VI)	64.9	26.8	41.4	20.5	38.4

关键发现¶

分布差异可替代logits优化：简单KL散度就带来+8.9% mIoU提升，最优传输/马尔可夫进一步+22%
最大速度模式略优于最优路径：B/16平均+0.7%，L/14平均+0.6%
融合两个模式反而降低性能：两种差异度量关注不同方面（高频纹理 vs 类间边界），简单融合引入干扰
SD2的自注意力优于ViT基础模型：SD2的自注意力张量对构建转移矩阵更有效
去噪步数越少越好：编码过程避免注入噪声，确保确定性特征提取
\(\tau=0.3\) 是最优阈值：更高阈值导致过早退化，logits分布未达到最优退化状态

亮点与洞察¶

范式转换：从"优化logits再构建分割图"转向"直接从分布差异获得分割图"，消除了训练和模型特定调制的需求
理论优雅：将分割问题与最优传输和马尔可夫过程联系，赋予了几何和概率的双重解释
退化分布替代GT：巧妙利用GT和退化分布在特征空间中的对跖关系，使推理时不需要GT
三重自由：不需要GT标注、不需要耗时训练、不需要模型特定调制
最优路径 vs 最大速度的互补性：前者对高频纹理敏感，后者对类间边界敏感
Stable Diffusion作为特征提取器：SD2的自注意力张量比CLIP/DINO的自注意力更适合构建patch间转移概率

局限与展望¶

依赖Stable Diffusion：需要额外加载SD2模型用于自注意力提取，增加了推理时的内存和计算开销
Sinkhorn迭代的计算代价：50次迭代的最优传输计算在大分辨率图像上可能较慢
阈值\(\tau\)和正则化\(\epsilon\)需要手动调整：虽然实验表明对这些超参数相对鲁棒，但仍需经验设置
融合两种模式未能叠加收益：这固然是一个有趣发现，但也意味着错失了可能的性能上限
仅在语义分割上验证：全景分割、实例分割等更复杂任务的适用性未探索
退化分布替代GT的理论保证有限：实验验证了可行性但缺乏严格的理论分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 跳过logits优化的范式思路独特且有说服力
实验充分度: ⭐⭐⭐⭐⭐ — 8个基准、两种CLIP规模、详细消融和分析
写作质量: ⭐⭐⭐⭐ — 数学推导清晰，但部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 免训练OVSS新SOTA，方法简洁且思路可推广