跳转至

Zero-Ablation Overstates Register Content Dependence in DINO Vision Transformers

会议: CVPR 2026 (HOW Workshop)
arXiv: 2604.14433
代码: 无
领域: 自监督学习
关键词: register tokens, vision transformers, zero-ablation, DINO, interpretability

一句话总结

通过三种替换控制实验(均值替换、噪声替换、跨图像洗牌)证明 DINO 系列 ViT 中零消融方法夸大了对 register token 精确内容的依赖性——模型实际只需"合理的 register-like 激活"而非图像特定值。

研究背景与动机

零消融(将 token 激活替换为零向量)是探测 ViT 中 token 功能的常用方法。在 DINOv2+registers 和 DINOv3 中,清零 register token 导致分类下降高达 36.6pp、分割下降 30.9pp,表面上表明 register 不可或缺。然而零向量相对于原生 register 激活是不合理的分布外输入,可能夸大了真实的内容依赖性。这类似于神经科学中的损毁研究混淆——损伤通过互联回路级联传播产生过度定位的假象。

方法详解

整体框架

对 DINOv2、DINOv2+registers、DINOv3 三个模型系列(ViT-S 和 ViT-B)应用 hook-based 消融,在每个 block 输出后替换 [CLS] 或 register 隐藏状态。在分类、检索、对应和分割四个下游任务上对比零消融与三种替换控制。

关键设计

  1. 三种替换控制实验: (1) 均值替换:使用 5000 张 ImageNet 图像校准的逐层数据集均值激活;(2) 噪声替换:均值和方差匹配的逐层高斯噪声;(3) 跨图像 register 洗牌:在批次内随机排列 register 激活,保留真实激活结构但打破图像特定内容。

  2. 分布内验证: 通过逐 patch 余弦相似度分析确认三种替换确实扰动了内部表示(余弦相似度 0.95-0.999),排除了"替换未改变特征"的可能性。同时通过 JS 散度量化零消融造成的分布偏移是替换控制的数十到数百倍。

  3. 有效秩分析与注意力流: Register 压缩了 patch 几何(有效秩从 13.5 降至 4.0),DINOv3 压缩最显著。注意力流分析显示 register 注意力从中间层逐渐积累,但分类依赖性在第 10-11 层突然出现。

损失函数 / 训练策略

本文为分析性工作,不涉及训练。所有评估在冻结特征上进行。

实验关键数据

主实验

条件 DINOv2+R 分类 DINOv3 分类 DINOv2+R 分割 DINOv3 分割
Full 67.3% 62.0% 基线 基线
Zero registers -18.9pp -36.6pp -9.6pp -30.9pp
Mean-sub ≤1pp变化 ≤1pp变化 ≤1pp变化 ≤1pp变化
Noise-sub ≤1pp变化 ≤1pp变化 ≤1pp变化 ≤1pp变化
Shuffle ≤1pp变化 ≤1pp变化 ≤1pp变化 ≤1pp变化

关键发现

  • 仅零消融产生性能下降,三种合理替换均保持所有任务的性能
  • Register 缓冲了密集特征对 [CLS] 的依赖(分割下降 37pp vs <1pp)
  • 结果在 ViT-B 规模上完全复现

亮点与洞察

  • 优雅地揭示了零消融的方法论缺陷——注入分布外输入而非移除功能
  • 与神经科学中的损毁研究类比恰当且有教育意义
  • 结论清晰:register 功能如预期的"上下文通道",精确内容非必需

局限与展望

  • 仅在冻结特征评估上测试,微调后的模型可能表现不同
  • 仅测试了 DINO 系列模型,其他自监督 ViT 的行为可能不同
  • Workshop 论文篇幅有限,部分分析深度受限

相关工作与启发

  • 为所有使用零消融进行功能探测的工作提供了重要方法论警示
  • 激活替换的"分布内控制"思想可推广到 NLP 中的机制可解释性
  • Register token 的"结构性通道"角色为 ViT 设计提供指导

评分

7/10 — 方法论贡献清晰且重要,但作为 Workshop 论文规模有限。