Beyond Semantics: Disentangling Information Scope in Sparse Autoencoders for CLIP¶

会议: CVPR 2026
arXiv: 2604.05724
代码: 无
领域: 模型压缩/可解释性
关键词: 稀疏自编码器, CLIP, 信息范围, 上下文依赖性, outlier token

一句话总结¶

提出"信息范围"（information scope）作为SAE特征可解释性的新维度，通过Contextual Dependency Score（CDS）将CLIP的SAE特征分为局部特征（低CDS）和全局特征（高CDS），揭示两类特征在分类、分割、深度估计中的差异化功能角色。

研究背景与动机¶

领域现状：稀疏自编码器（SAE）已成为解释CLIP等视觉模型内部表示的核心工具，能将稠密多义（polysemantic）表示分解为稀疏单义（monosemantic）特征。

现有痛点：当前SAE可解释性研究几乎只关注特征的语义身份（"这个特征代表什么概念"），但一个标记为"dog"的特征可能是对整个物体的全局编码，也可能仅对局部纹理（如毛发）响应——后语义分析无法区分这两者。

关键观察：Vision Transformer中的outlier token（异常高范数的patch token）在微小上下文偏移（Shifted Context Cropping，SCC）下表现出极强的空间不稳定性——位置随上下文变化剧烈。这暗示全局信号对上下文高度敏感，而局部信号则稳定锚定于视觉内容。

核心idea：利用上下文偏移下的空间稳定性差异，量化每个SAE特征的"信息范围"——是聚合局部证据还是全局证据。

方法详解¶

整体框架¶

输入图像 → Shifted Context Cropping生成两个重叠裁剪 → ViT编码 → SAE解码得到每个特征的空间激活图 → 计算两个裁剪间激活图的EMD距离 → 平均得到CDS

关键设计¶

Shifted Context Cropping (SCC)：
- 将图像调整为 \((p+s)n \times (p+s)n\) 后裁剪两个 \(pn \times pn\) 的图，偏移 \(sn\) 像素
- 两个裁剪共享 \((p-s) \times (p-s)\) 个像素完全相同的patch
- 设计动机：隔离纯上下文因素（位置编码差异+注意力上下文变化），排除内容差异
Contextual Dependency Score (CDS)：对每个SAE特征 \(f_j\)：
- 选取该特征激活最强的 \(k_{CDS}\) 张图像
- 对每张图像做SCC，获取重叠区域的特征激活图 \(M_{j,1}^{(m)}\) 和 \(M_{j,2}^{(m)}\)
- 归一化为概率分布，计算Earth Mover's Distance (EMD)
- 归一化网格对角线距离后取平均： \(CDS_j = \frac{1}{k_{CDS} \cdot D_{grid}} \sum_{m=1}^{k_{CDS}} \text{EMD}(\mathcal{N}(M_{j,1}^{(m)}), \mathcal{N}(M_{j,2}^{(m)}))\)
- 低CDS → 空间稳定 → 局部范围特征；高CDS → 空间变化大 → 全局范围特征
特征分区与验证： CDS直方图呈多峰分布，用阈值 \(\gamma\) 自然分为低CDS组和高CDS组。通过检查两组在outlier/non-outlier token上的激活模式验证：高CDS特征主要在outlier token上激活，低CDS特征主要在normal token上激活。

下游分析¶

特征组移除实验：冻结CLIP骨干，线性探针评估
三个任务：ImageNet分类、ADE20K语义分割、NYUd深度估计

实验关键数据¶

主实验（特征组移除 → 线性探针性能）¶

模型	嵌入类型	ImageNet Top-1↑	ADE20K mIoU↑	NYUd RMSE↓
CLIP-B/16	原始	74.82	25.87	0.8841
	移除高CDS	75.54	26.02	0.8616
	移除低CDS	64.86	11.65	0.9481
CLIP-L/14	原始	80.82	26.66	0.8029
	移除高CDS	81.28	26.44	0.7994
	移除低CDS	78.30	13.89	0.8878

消融实验¶

分析	关键发现	说明
Outlier vs Non-outlier EMD	outlier EMD >> non-outlier EMD	outlier token空间极不稳定
高CDS在outlier上激活	83.45 vs 1.66 (B/16)	高CDS特征选择性响应outlier
低CDS在normal token上激活	31.51 vs 10.39 (B/16)	低CDS特征编码局部信息
移除高CDS提升分类	+0.72 ~ +1.42%	全局噪声移除反而有益

关键发现¶

移除低CDS特征对分割和深度估计的破坏性极大（mIoU从26→12），证明空间细粒度信息主要由低CDS特征携带
移除高CDS特征反而略微提升分类性能，说明全局特征可能包含冗余信息
CDS分区与outlier token现象高度吻合，提供了outlier token的特征级机理解释

亮点与洞察¶

提出信息范围作为语义之外的正交可解释性维度，弥补了现有SAE分析的盲区
CDS指标巧妙地利用SCC隔离上下文因素，设计精妙且物理意义明确
建立了SAE特征→outlier token→全局/局部信息的清晰链条

局限与展望¶

CDS计算需要对每个特征选取top-k图像并做双向推理，计算成本随字典规模增长
仅分析了CLIP模型，DINOv2等自监督ViT的信息范围特性待探索
二分法（局部vs全局）可能过于粗糙，连续谱上的更细粒度分析有价值
未探索CDS引导的特征选择在实际下游任务中的应用

评分¶

新颖性: ⭐⭐⭐⭐⭐ 信息范围维度和CDS指标均为全新贡献，视角独特
实验充分度: ⭐⭐⭐⭐ 三个CLIP模型、三个下游任务，但缺少非CLIP模型验证
写作质量: ⭐⭐⭐⭐⭐ 从现象→假说→指标→验证，逻辑链极为清晰
价值: ⭐⭐⭐⭐ 为模型可解释性研究开辟新方向，但实际应用场景还需探索