跳转至

Beyond Semantics: Disentangling Information Scope in Sparse Autoencoders for CLIP

会议: CVPR 2026
arXiv: 2604.05724
代码: 无
领域: 模型压缩/可解释性
关键词: 稀疏自编码器, CLIP, 信息范围, 上下文依赖性, outlier token

一句话总结

提出"信息范围"(information scope)作为SAE特征可解释性的新维度,通过Contextual Dependency Score(CDS)将CLIP的SAE特征分为局部特征(低CDS)和全局特征(高CDS),揭示两类特征在分类、分割、深度估计中的差异化功能角色。

研究背景与动机

领域现状:稀疏自编码器(SAE)已成为解释CLIP等视觉模型内部表示的核心工具,能将稠密多义(polysemantic)表示分解为稀疏单义(monosemantic)特征。

现有痛点:当前SAE可解释性研究几乎只关注特征的语义身份("这个特征代表什么概念"),但一个标记为"dog"的特征可能是对整个物体的全局编码,也可能仅对局部纹理(如毛发)响应——后语义分析无法区分这两者。

关键观察:Vision Transformer中的outlier token(异常高范数的patch token)在微小上下文偏移(Shifted Context Cropping,SCC)下表现出极强的空间不稳定性——位置随上下文变化剧烈。这暗示全局信号对上下文高度敏感,而局部信号则稳定锚定于视觉内容。

核心idea:利用上下文偏移下的空间稳定性差异,量化每个SAE特征的"信息范围"——是聚合局部证据还是全局证据。

方法详解

整体框架

输入图像 → Shifted Context Cropping生成两个重叠裁剪 → ViT编码 → SAE解码得到每个特征的空间激活图 → 计算两个裁剪间激活图的EMD距离 → 平均得到CDS

关键设计

  1. Shifted Context Cropping (SCC)

    • 将图像调整为 \((p+s)n \times (p+s)n\) 后裁剪两个 \(pn \times pn\) 的图,偏移 \(sn\) 像素
    • 两个裁剪共享 \((p-s) \times (p-s)\) 个像素完全相同的patch
    • 设计动机:隔离纯上下文因素(位置编码差异+注意力上下文变化),排除内容差异
  2. Contextual Dependency Score (CDS): 对每个SAE特征 \(f_j\)

    • 选取该特征激活最强的 \(k_{CDS}\) 张图像
    • 对每张图像做SCC,获取重叠区域的特征激活图 \(M_{j,1}^{(m)}\)\(M_{j,2}^{(m)}\)
    • 归一化为概率分布,计算Earth Mover's Distance (EMD)
    • 归一化网格对角线距离后取平均: \(CDS_j = \frac{1}{k_{CDS} \cdot D_{grid}} \sum_{m=1}^{k_{CDS}} \text{EMD}(\mathcal{N}(M_{j,1}^{(m)}), \mathcal{N}(M_{j,2}^{(m)}))\)
    • 低CDS → 空间稳定 → 局部范围特征;高CDS → 空间变化大 → 全局范围特征
  3. 特征分区与验证: CDS直方图呈多峰分布,用阈值 \(\gamma\) 自然分为低CDS组和高CDS组。通过检查两组在outlier/non-outlier token上的激活模式验证:高CDS特征主要在outlier token上激活,低CDS特征主要在normal token上激活。

下游分析

  • 特征组移除实验:冻结CLIP骨干,线性探针评估
  • 三个任务:ImageNet分类、ADE20K语义分割、NYUd深度估计

实验关键数据

主实验(特征组移除 → 线性探针性能)

模型 嵌入类型 ImageNet Top-1↑ ADE20K mIoU↑ NYUd RMSE↓
CLIP-B/16 原始 74.82 25.87 0.8841
移除高CDS 75.54 26.02 0.8616
移除低CDS 64.86 11.65 0.9481
CLIP-L/14 原始 80.82 26.66 0.8029
移除高CDS 81.28 26.44 0.7994
移除低CDS 78.30 13.89 0.8878

消融实验

分析 关键发现 说明
Outlier vs Non-outlier EMD outlier EMD >> non-outlier EMD outlier token空间极不稳定
高CDS在outlier上激活 83.45 vs 1.66 (B/16) 高CDS特征选择性响应outlier
低CDS在normal token上激活 31.51 vs 10.39 (B/16) 低CDS特征编码局部信息
移除高CDS提升分类 +0.72 ~ +1.42% 全局噪声移除反而有益

关键发现

  • 移除低CDS特征对分割和深度估计的破坏性极大(mIoU从26→12),证明空间细粒度信息主要由低CDS特征携带
  • 移除高CDS特征反而略微提升分类性能,说明全局特征可能包含冗余信息
  • CDS分区与outlier token现象高度吻合,提供了outlier token的特征级机理解释

亮点与洞察

  • 提出信息范围作为语义之外的正交可解释性维度,弥补了现有SAE分析的盲区
  • CDS指标巧妙地利用SCC隔离上下文因素,设计精妙且物理意义明确
  • 建立了SAE特征→outlier token→全局/局部信息的清晰链条

局限与展望

  • CDS计算需要对每个特征选取top-k图像并做双向推理,计算成本随字典规模增长
  • 仅分析了CLIP模型,DINOv2等自监督ViT的信息范围特性待探索
  • 二分法(局部vs全局)可能过于粗糙,连续谱上的更细粒度分析有价值
  • 未探索CDS引导的特征选择在实际下游任务中的应用

相关工作与启发

  • 与ViT outlier token研究(Darcet et al.)形成互补:从现象描述深入到特征级机理
  • CDS思想可推广到NLP中分析LLM的SAE特征(局部token vs 全局上下文)
  • 为SAE特征的"质量控制"(哪些特征值得信任)提供了量化工具

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 信息范围维度和CDS指标均为全新贡献,视角独特
  • 实验充分度: ⭐⭐⭐⭐ 三个CLIP模型、三个下游任务,但缺少非CLIP模型验证
  • 写作质量: ⭐⭐⭐⭐⭐ 从现象→假说→指标→验证,逻辑链极为清晰
  • 价值: ⭐⭐⭐⭐ 为模型可解释性研究开辟新方向,但实际应用场景还需探索