Exploring Interpretability for Visual Prompt Tuning with Cross-layer Concepts¶

会议: ICLR 2026
arXiv: 2503.06084
代码: github.com/ThomasWangY/IVPT
领域: 可解释性
关键词: Visual Prompt Tuning, 可解释性, 概念原型, 跨层融合, 细粒度分类

一句话总结¶

提出IVPT（Interpretable Visual Prompt Tuning），通过跨层类别无关概念原型将抽象visual prompt关联到人类可理解的语义区域，在保持参数高效微调优势的同时，首次实现了visual prompt的可解释性，在CUB-200等细粒度分类基准上同时提升解释一致性（+8.4%）和准确率。

研究背景与动机¶

领域现状：Visual Prompt Tuning（VPT）已成为适配预训练视觉模型到下游任务的主流方法，通过在Transformer输入层插入少量可学习token实现参数高效微调。现有方法如VPT-Deep、E2VPT、Gated Prompt Tuning表现优异但prompt是黑盒向量。

现有痛点：这些prompt是不受约束的抽象嵌入，无法提供人类可理解的决策解释。在医疗诊断、自动驾驶等安全关键领域，缺乏可解释性严重限制了AI系统的可信赖性。现有可解释方法（如ProtoPNet、TesNet）只关注最后一层特征，无法解释多层prompt。

核心矛盾：VPT方法的prompt在多个Transformer层学习，但现有原型方法只能解释单层特征；已有方法学习类别特定原型，无法分析跨类别共享概念。

本文目标 - 将抽象prompt嵌入关联到人类可理解的视觉概念 - 在多个网络层实现prompt的跨层可解释性 - 学习类别无关的共享概念原型

切入角度：将每个prompt定义为图像中某个语义区域的聚合特征（而非任意向量），该区域由概念原型通过注意力机制发现，在浅层用更多原型捕获细粒度特征，深层用更少原型捕获粗粒度语义。

核心 idea：用跨层类别无关概念原型替代黑盒prompt向量，每个prompt通过概念区域发现和区域内特征聚合机制，绑定到图像中的可解释语义区域。

方法详解¶

整体框架¶

IVPT 想解决的问题很具体：VPT 在 Transformer 各层插入的 prompt 是一堆不受约束的抽象向量，没法告诉人它到底"看"了图像的哪一块。IVPT 的思路是冻结预训练 ViT，在每一层用一组跨层概念原型把 prompt 重新"接地"——先由概念原型在图像上发现各自负责的语义区域（CRD），再把区域内的 patch 特征聚合成对应的 prompt 嵌入（IFA），并把浅层细粒度 prompt 逐步融合成深层粗粒度 prompt。最终每个概念给出一个条件类别得分，取平均作为预测，于是每条 prompt 都对应到一块可视化的语义区域，解释性内建在 prompt 的构造过程里而非事后补打。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IMG["输入图像<br/>（冻结 ViT 各层 patch 嵌入）"] --> CRD["概念区域发现（CRD）<br/>类别无关原型按负欧氏距离注意力<br/>在图像上圈出各自的语义区域"]
    CRD --> IFA["区域内特征聚合（IFA）<br/>区域概率加权聚合区域内 patch 特征<br/>得到可解释的 prompt 嵌入"]
    IFA --> FUSE["跨层概念原型与细→粗融合<br/>浅层多原型抓纹理颜色、深层少原型抓部件语义<br/>可学习分组 + 区域一致性损失对齐"]
    FUSE --> OUT["各概念条件类别得分取平均<br/>→ 类别预测"]

关键设计¶

1. 概念区域发现（Concept Region Discovery, CRD）：把抽象 prompt 锚定到图像里的一块语义区域

VPT 原本的 prompt 是黑盒向量，无从解释。CRD 让每个概念原型 \(\mathbf{q}_k\) 去图像上"圈地"：计算原型与各 patch 嵌入之间的负欧氏距离注意力，经 Softmax 归一化后再加一个可学习空间偏置 \(b_{k,ij}\)，得到该原型的概念注意力图 \(\mathbf{A}\)：

\[a_{k,ij} = \frac{\exp(-\|\mathbf{e}_{ij} - \mathbf{q}_k\|^2)}{\sum_l \exp(-\|\mathbf{e}_{ij} - \mathbf{q}_l\|^2)} + b_{k,ij}\]

每个 patch 被分配给注意力最高的那个概念，从而拼出区域图 \(\mathbf{R}\)。这里的原型是类别无关的，所以它捕获的是跨类别共享的语义概念（如不同鸟类的"翅膀"、不同车的"车轮"），比类别特定原型更能揭示模型对通用视觉概念的学习，也让同一个概念区域在不同图像间可比。

2. 区域内特征聚合（Intra-region Feature Aggregation, IFA）：让 prompt 成为某块区域的"代表"而非任意向量

有了区域图后，IFA 把落在该概念区域里的 patch 特征聚合起来，作为这个概念对应的 prompt 嵌入——用区域概率加权的 patch 特征均值：

\[\mathbf{p}_k = \frac{\sum_{i,j} \mathbf{z}_{k,ij}}{\sum_{i,j} r_{k,ij}}\]

这样得到的 prompt 不再是优化器自由学出的任意向量，而是图像中某块语义区域的特征汇总，天然可解释；后续实验也显示这种区域条件化的特征比全局特征更具判别力。

3. 跨层概念原型与细→粗融合：模拟人类从局部到全局的视觉推理

现有原型方法只解释最后一层，而 VPT 的 prompt 分布在多层。IVPT 在不同 Transformer 层放不同数量的原型——浅层多（如 17 个）、深层少（如 8 个），浅层用更多原型抓纹理、颜色这类低级、细粒度属性，深层用更少原型抓部件、整体这类高级语义。层与层之间通过一个可学习分组层（线性层 + Gumbel-Softmax）把细粒度 prompt 分组，组内取均值再过 MLP 得到深层 prompt。为保证"局部组合"确实对应"全局区域"，引入概念区域一致性损失 \(\mathcal{L}_{con}\)（KL 散度），约束细粒度区域的组合与粗粒度区域对齐。这条细→粗的路径正是消融里增益最大的部分。

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \lambda_{cls}\mathcal{L}_{cls} + \lambda_{ps}\mathcal{L}_{ps} + \lambda_{con}\mathcal{L}_{con}\)
\(\mathcal{L}_{cls}\)：分类交叉熵（每个概念条件得分的平均）
\(\mathcal{L}_{ps}\)：部件塑形损失（确保区域不重叠、前景覆盖、连通性等）
\(\mathcal{L}_{con}\)：跨层区域一致性损失（KL散度）
所有 \(\lambda\) 均设为1，Backbone冻结仅训练prompt相关参数

实验关键数据¶

主实验（CUB-200-2011，DinoV2-B backbone）¶

方法	一致性(Con.)	稳定性(Sta.)	准确率(Acc.)
ProtoPNet	27.6	57.0	85.8
Huang et al.	68.6	71.4	89.9
VPT-Deep	14.6	39.5	89.1
VPT-Deep (w/ Proto.)	70.2	72.5	90.3
IVPT	75.3	75.9	90.8

IVPT在所有三个维度（可解释性+准确率）上均为最优。

消融实验（DinoV2-B, CUB-200）¶

配置	Con.	Sta.	Acc.
Baseline（仅最后一层，全局注意力）	62.7	64.3	88.4
+ 空间偏置图	63.5	66.7	88.7
+ 区域内特征聚合（IFA）	65.4	68.3	89.8
+ 跨层原型	70.4	70.9	90.5
+ 细到粗prompt融合	75.3	75.9	90.8

关键发现¶

跨层结构贡献最大：加入跨层原型+融合后一致性从65.4→75.3（+9.9），是所有组件中增益最大的
IFA对准确率贡献最大：只加IFA后准确率从88.7→89.8（+1.1%），说明区域条件化的特征比全局特征更有判别力
在PartImageNet和PASCAL-Part上泛化良好：IVPT分别达63.2/72.6的一致性分，大幅超越ProtoPool和Huang et al.
人类评估：20人评估，97.5%概念标注准确率，细节保留4.7/5，语义抽象4.8/5，过渡自然度4.8/5
医学影像适用性：在Gleason-2019前列腺癌分级数据集上，IVPT能有效识别腺腔、病变腺泡等关键分级特征

亮点与洞察¶

首次为VPT建立可解释范式：将prompt从"黑盒向量"转变为"图像区域的语义代表"，这个思路优雅且实用。以前VPT的可解释性只能靠后验分析（如attention map），IVPT将解释性内建到prompt构造过程中
类别无关原型的优势：跨类别共享概念（如不同鸟类的"翅膀"、不同飞机的"尾翼"）不仅提升了解释一致性，还能发现跨域通用的视觉概念，这对AI辅助知识发现有重要价值
跨层细→粗融合模拟人类认知：浅层捕获纹理/颜色，深层捕获部件/整体，通过可学习分组建立层间关系，这与人类从细节到整体的视觉推理过程一致

局限与展望¶

概念原型依赖领域内学习，迁移到差异较大的新领域时需要重新训练
在DinoV2-S这样的小backbone上，一致性略低于Huang et al.（-2.2%），说明小模型容量不足以同时维持可解释性和准确率
每层固定原型数（17/14/11/8）是手动设定的超参，自动确定最优原型数可能进一步提升效果
可改进方向：将IVPT扩展到文本-视觉多模态prompt（如CLIP），利用文本语义辅助概念发现

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将可解释性内建到VPT框架中，概念原型→prompt的设计思路全新
实验充分度: ⭐⭐⭐⭐ 多backbone、多数据集、消融、人类评估覆盖全面，但主要集中在细粒度分类，通用分类场景验证不足
写作质量: ⭐⭐⭐⭐ 方法描述清晰，公式推导完整，可视化丰富
价值: ⭐⭐⭐⭐ 为VPT可解释性开辟新方向，对安全关键领域的AI应用有实际意义