Align Once to Explain: Feature Alignment for Scalable B-cosification of Foundational Vision Transformers¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/rmaser/aloe
领域: 可解释性 / 视觉基础模型
关键词: B-cos网络, 特征对齐, 内在可解释性, 视觉基础模型, 无标签蒸馏

一句话总结¶

ALOE 用一次性、无标签的"师生特征对齐"把冻结的 ViT 基础模型（监督 / DINOv3 / SigLIP2）转成内在可解释的 B-cos 版本，对齐一次即可作为骨干 drop-in 复用到分类、零样本、稠密预测等任务，比原始 B-cosification 在 ViT 上提升 >4.9 个百分点的精度，同时给出忠实且定位准确的解释，数据效率高 100–1000×。

研究背景与动机¶

领域现状：DINOv3、CLIP、SigLIP2 这类大规模视觉基础模型是当今迁移学习和零样本任务的默认骨干，但它们的决策过程几乎是黑箱。要解释它们，主流是事后归因（post-hoc，如 Integrated Gradients、AttnLRP、Grad-CAM 系），但事后解释往往噪声大、对被解释模型不一定忠实（faithful）。

现有痛点：另一条路是"内在可解释架构"——通过架构约束让模型的解释天然忠实，其中 B-cos 网络很有代表性：它把线性层换成无偏置、动态线性的 B-cos 变换，整网最终等价于一个输入相关的动态线性映射 $y(\mathbf{x})=\mathbf{W}(\mathbf{x})\,\mathbf{x}$，于是 $\mathbf{W}(\mathbf{x})$ 本身就是模型计算的精确、可视化的"解释"。但从头训 B-cos 太贵；于是 B-cosification（[4]）提出把现成模型事后改造成 B-cos 变体。问题在于：B-cosification 的配方是为监督 CNN 设计的，迁到 ViT 上效果很差，有时甚至打不过从头训，而现代基础模型几乎都是 ViT，这就让它实用价值大打折扣。

核心矛盾：B-cosification 依赖"在原任务上做有监督微调"来恢复性能，但对 ViT 这套监督微调既需要标签、又恢复不出基础模型那种通用特征几何，导致下游迁移、零样本能力大幅退化——可解释和"保住基础模型的本事"之间出现了割裂。

本文目标 / 切入角度：作者把问题重新框成"特征对齐"而非"任务微调"——既然要的是让 B-cos 学生保留教师的通用表征，那就直接在表征空间上让学生逼近冻结的教师，而不依赖任何标签或具体下游任务。

核心 idea：把冻结基础模型当教师，把它的 B-cos 化版本当学生，用无标签的多层 cosine 特征对齐让学生在嵌入几何上对齐教师；只对齐一次，得到的 B-cos 骨干就能 drop-in 复用到所有下游任务，把可解释性的成本一次性摊销掉（Align Once to Explain）。

方法详解¶

整体框架¶

ALOE 是一条三步流水线：(1) 转 B-cos → (2) 对齐一次 → (3) 部署复用。输入是一个冻结的 ViT 基础模型教师 $\mathcal{T}$（可以是监督、自监督 DINOv3、或视觉-语言 SigLIP2 任一范式）；先用保结构的转换把它复制成一个无偏置、动态线性的 B-cos 学生 $\mathcal{S}$；然后在无标签网络图像上，用 cosine 目标让学生的全局嵌入和逐层 token 特征对齐教师；对齐完成后冻结学生骨干，线性探针 / 零样本 / 稠密预测都直接接在它上面，而解释天然来自 $\mathbf{W}(\mathbf{x})$，无需任何针对任务的可解释性调参。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["冻结 ViT 基础模型<br/>教师 T（监督/DINOv3/SigLIP2）"] --> B["B-cos 转换 + 特殊 token 保活<br/>无偏置·动态线性学生 S"]
    B --> C["多深度无标签特征对齐<br/>global + 逐层 cosine"]
    C --> D["权重范数正则<br/>只对齐方向不对齐幅度"]
    D -->|对齐一次后冻结| E["Drop-in 骨干<br/>线性探针 / 零样本 / 稠密预测"]
    E --> F["解释直接来自 W(x)<br/>忠实且定位准确"]

关键设计¶

1. B-cos 转换 + 特殊 token 保活：把基础模型改成动态线性又不破坏 ViT 的计算路由

B-cos 变换是整套可解释性的根基。它把每个线性单元替换成无偏置的 $$\mathrm{B\text{-}cos}(\mathbf{x};\mathbf{w}) = \Big(\big|\cos(\mathbf{x},\mathbf{w})\big|^{\,B-1}\times \widehat{\mathbf{w}}\Big)^{\!\top}\mathbf{x} = \mathbf{w}(\mathbf{x})^{\top}\mathbf{x},$$ 其中 $\widehat{\mathbf{w}}=\mathbf{w}/\lVert\mathbf{w}\rVert_2$，$B$ 控制对齐强度。$\big|\cos(\mathbf{x},\mathbf{w})\big|^{B-1}$ 这个余弦幂项既提供学习所需的非线性，又把权重往输入方向"压"——$B>1$ 时促使权重-输入对齐，使逐层堆叠后的整网等价动态线性映射 $\mathbf{W}(\mathbf{x})$ 更聚焦于任务相关区域，从而 $\mathbf{W}(\mathbf{x})\mathbf{x}$ 就是一张忠实的解释图。具体转换沿用 [4] 的保结构配方：patch embedding、MLP 块、投影头里的线性层换成 B-cos 层（固定 $B=2$），去掉所有偏置（含归一化层的偏置）、用非中心化归一化；自注意力本身已是动态线性、连同位置编码一并保持不动；3 通道输入扩成 6 通道 $(r,g,b,1-r,1-g,1-b)$ 以支持彩色解释。

ViT 特有的难点是 [CLS] 和 register token（如 DINOv3）对性能至关重要。作者的做法是让这些特殊 token 的通路与教师保持完全一致，这样后续对齐能做到 token 一对一匹配、保住基础模型原本的计算路由——这是 ViT 上 B-cos 解释能忠实的前提（SigLIP2 的图像编码器不用 [CLS]/register，则对应改用注意力池化输出）。学生在宽度、深度、tokenization 上都镜像教师，因此对齐时无需任何投影头。

2. 多深度无标签特征对齐：global + 逐层 cosine，既保嵌入几何又稳优化

这是 ALOE 取代"有监督微调"的核心。痛点是 B-cosification 靠任务标签微调，既退化通用特征又依赖标签；ALOE 改成在无标签图像上直接对齐表征。目标分两部分：一个全局项保最终嵌入空间的几何（下游分类、稠密、零样本都靠它），一个逐层 token 项保中间计算、并稳定优化。总损失为 $$\mathcal{L} = \lambda_{\mathrm{g}}\,\mathcal{L}_{\mathrm{global}} + \lambda_{\mathrm{l}}\,\mathcal{L}_{\mathrm{layers}} + \mathcal{L}_{\mathrm{reg}}.$$ 全局项是末层图像表征的 cosine 距离 $\mathcal{L}_{\mathrm{global}} = \frac{1}{|\mathcal{B}|}\sum_{\mathbf{x}}\big(1-\cos(E_{\mathcal{S}}(\mathbf{x}),E_{\mathcal{T}}(\mathbf{x}))\big)$；逐层项在选定深度 $\ell$ 上对每个 token $t$ 算 cosine 距离 $\mathcal{L}_{\mathrm{layers}} = \frac{1}{|\mathcal{B}|}\sum_{\ell}\frac{1}{|\mathcal{T}^{\ell}_{\mathrm{tok}}|}\sum_{t}\big(1-\cos(h^{\ell}_{\mathcal{S},t},h^{\ell}_{\mathcal{T},t})\big)$。监督深度取 $\mathcal{L}_{\mathrm{depth}}=\{\lfloor L/3\rfloor,\lfloor 2L/3\rfloor,L\}$ 三个等距层（1/3、2/3、全深度），并且精确对齐每个教师真正承载语义的 token（DINOv3 对 [CLS]+register，SigLIP2 对注意力池化嵌入），保证一对一路由。消融显示精度随对齐深度增加到 2/3 处持续上升、对齐全部层反而不再有增益，故选三个等距深度，$(\lambda_{\mathrm{g}},\lambda_{\mathrm{l}})=(1,1)$ 在所有模型上都好用。

3. 权重范数正则：只对齐方向不对齐幅度，防长训练时权重范数爆炸

长训练中 B-cos 学生的权重范数容易发散，破坏对齐。作者加一项把学生和教师共享层权重矩阵的 Frobenius 范数耦合起来： $$\mathcal{L}_{\mathrm{reg}} = \alpha\sum_{\ell\in\mathcal{P}}\big(\lVert\mathbf{W}^{(T)}_\ell\rVert_F - \lVert\mathbf{W}^{(S)}_\ell\rVert_F\big)^2.$$ 它鼓励学生只在方向上对齐教师、而把幅度约束住，从而避免权重范数爆炸导致的发散。这点配合 cosine 的尺度不变性，让训练在大模型上也稳。

4. cosine 作为默认对齐目标：尺度不变、跨范式跨规模最稳

为什么用 cosine 而不是 MSE / InfoNCE / SigLIP？因为不同教师、不同 token 的特征尺度差异很大。cosine 尺度不变，直接优化角度一致性，而角度一致正是 DINOv3、SigLIP 这类模型预训练时本来就在优化的目标，因此对齐起来最自然。相比之下，MSE 对绝对尺度敏感；InfoNCE / SigLIP 这类对比目标引入了 batch 负样本，可能扭曲教师的局部几何。消融里 cosine 和 SigLIP 在各模型上最一致，但 cosine 更简单，故定为默认。

损失函数 / 训练策略¶

对齐数据用无标签网络图像集 CC3M / CC12M / YFCC15M（主结果用 YFCC15M），分辨率随教师默认（通常 224×224），增广只用随机裁剪和水平翻转以保特征几何。教师冻结，学生用 AdamW + cosine 学习率调度、混合精度，固定 $B=2$、偏置保持为 0、不显式做权重归一化；梯度范数裁剪到 1.0、不用 weight decay 以稳大模型；在 30k held-out 子集上按对齐损失早停，学习率在 $\{3\text{e-}3,1\text{e-}3,5\text{e-}4\}$ 中扫，batch size 1024。

实验关键数据¶

主实验¶

在 ViT-B/16 上跨监督 / SigLIP2 / DINOv3 三种范式做 10 数据集线性探针，ALOE 全面碾压 vanilla B-cosification，并逼近原始基础模型（教师灰色行）：

教师范式 (ViT-B/16)	指标	B-cosification	ALOE	教师	ALOE vs B-cosif.
监督 [20]	IN1k LP top-1	71.76	81.00	80.74	+9.24 p.p.
监督 [20]	10 数据集均值	66.99	80.23	79.13	+13.24 p.p.
SigLIP2	10 数据集均值	80.86	88.48	89.63	+7.62 p.p.
DINOv3	10 数据集均值	73.68	89.50	90.25	+15.82 p.p.
DINOv3	k-NN IN1k	71.03	81.39	82.27	+10.36 p.p.
SigLIP2	零样本 IN1k@1	61.01	77.20	78.07	+16.19 p.p.

稠密预测（NYUv2 单目深度，ViT-B/16 线性探针）上 ALOE 也明显优于 B-cosification：相对 $\delta_1$ 从 0.83 提到 0.94、RMSE 从 0.46 降到 0.30，逼近 DINOv3 教师（0.97 / 0.24）。可解释性上，SigLIP2 教师的 GridPG 定位分 ALOE 达 84.2% 对教师 AttnLRP 的 54.4%，且解释天然来自 $\mathbf{W}(\mathbf{x})$、无需事后方法。

消融实验¶

配置	关键指标	说明
仅 Pool（global-only）	75.51	SigLIP2 平均 LP 精度，只对齐全局嵌入
+$L$	77.85	加末层逐层对齐
+$\{2/3,L\}$	85.24	加 2/3 深度，大跳
+$\{1/3,2/3,L\}$	85.42	三等距深度（最终配置）
+All（所有层）	84.93	对齐全部层反而略降

数据效率：用 YFCC15M 把对齐数据从 100% 缩到 1%（约 150k 图）时，SigLIP2 的 IN1k 线性探针精度几乎持平（83.80% → 83.33%），相当于只用 SigLIP2 那 ~10B 预训练语料的约 0.0015%；在 B-cosification 的数据预算下，ALOE 仍领先 +8.4 p.p.。对齐目标消融中 cosine 与 SigLIP 最稳，MSE / InfoNCE 不一致。

关键发现¶

深度对齐贡献最大：从仅全局（75.51）加到 2/3 深度（85.24）是最大跳变，说明保住中间层 token 计算对 ViT 的迁移性能至关重要；但对齐到全部层反而轻微掉点，三等距深度是甜点。
数据效率极高：100–1000× 更少图像就能恢复教师大部分泛化能力，1% 数据即饱和——核心原因是"对齐已训好的几何"比"从头学几何"省太多。
跨范式 / 跨规模一致：监督、自监督、视觉-语言三种教师都受益，且模型越大越逼近教师，DINOv3 上提升尤其夸张（均值 +15.82 p.p.）。

亮点与洞察¶

把"可解释化"重写成"特征对齐"：最巧的一步是不再用任务标签微调、而是直接在表征空间对齐冻结教师。这既绕开了标签依赖，又把"保住基础模型本事"和"获得内在解释"统一进同一个 cosine 目标里——这是 ALOE 能在 ViT 上同时拿到高精度 + 高定位的根因。
"对齐一次、处处解释"的摊销思想：可解释性成本只付一次，之后骨干 drop-in 到任意下游，解释天然来自 $\mathbf{W}(\mathbf{x})$ 不需逐任务调参——这个"一次性内在可解释骨干"的工程范式可迁移到任何想要忠实解释的视觉系统。
特殊 token 保活是 ViT 上成败的关键细节：保持 [CLS]/register 通路与教师一致以实现 token 一对一路由，正是之前 CNN 版 B-cosification 迁到 ViT 失败的盲点。
延伸到 VLM/MLLM：对齐后的 B-cos SigLIP2 还能给零样本 VLM 出 token 级视觉解释，甚至接进 LLaVA-style Gemma-9B 做生成 token 的视觉 grounding，展示了内在可解释视觉骨干的多模态潜力。

局限与展望¶

MLLM 端到端尚未闭环：当前把解释传过语言模型仍依赖事后的 AttnLRP，真正端到端内在可解释的 MLLM 留作未来工作。
依赖高质量教师：ALOE 是"对齐教师"，性能天花板由教师决定，弱教师下能否还原解释忠实度未充分验证。⚠️
解释质量主要用 GridPG / 像素删除 + 人评衡量，这些代理指标与真实"人类可理解性"之间仍有 gap；论文也承认完整的忠实度评测放在附录。
改进思路：把权重范数正则推广到更激进的范式（如纯生成式骨干）、或探索把对齐目标与下游任务联合的轻量自适应，可能进一步缩小与教师的最后一点差距。

评分¶

新颖性: ⭐⭐⭐⭐ 把可解释化重构成无标签特征对齐、解决 ViT 上 B-cosification 的老大难，思路清晰但属在 B-cos 框架内的有力推进
实验充分度: ⭐⭐⭐⭐⭐ 三种预训练范式 × 多规模 × 10 数据集，线性探针/k-NN/零样本/稠密/解释全覆盖，消融到位
写作质量: ⭐⭐⭐⭐ 动机与设计交代清楚，图表丰富；部分细节（完整忠实度评测、MLLM）放附录
价值: ⭐⭐⭐⭐⭐ 给"基础模型规模的内在可解释骨干"提供了实用且高数据效率的落地路径，对安全敏感场景意义大