Beyond Words: Augmenting Discriminative Richness via Diffusions in Unsupervised Prompt Learning¶
会议: CVPR 2025
arXiv: 2504.11930
作者: Hairui Ren, Fan Tang, He Zhao, et al.
机构: Jilin University, Chinese Academy of Sciences (CAS), CSIRO
领域: 多模态VLM
关键词: VLM, unsupervised prompt learning, diffusion model, pseudo-label, auxiliary classifier
一句话总结¶
提出AiR(Augmenting discriminative Richness)方法,利用LoRA微调的Stable Diffusion生成合成图像构建辅助分类器,与文本分类器互补融合,将无监督prompt learning中的文本-图像匹配扩展为图像-图像匹配,显著提升细粒度/遥感等困难数据集上的分类准确率。
研究背景与动机¶
领域现状:CLIP等视觉语言模型通过文本-图像对齐实现了强大的零样本分类能力,但在特定下游任务上仍有明显性能差距。Prompt learning(如CoOp、CoCoOp)通过学习连续prompt来适配下游任务,但大多需要标注数据。无监督prompt learning(如UPL、CPL)利用伪标签避免标注,但伪标签的噪声会严重影响学习质量。
现有痛点:(1) 纯文本prompt的表达能力有限,难以捕捉视觉细节的细粒度语义差异(如不同花卉品种、遥感地物类型);(2) 伪标签依赖CLIP的初始文本分类器,而该分类器在困难数据集上本身准确率就不高,形成"鸡蛋悖论";(3) 现有方法仍然局限在文本-图像的匹配范式中,忽略了图像-图像相似性可能提供的判别信息。
核心矛盾:文本描述与视觉特征之间存在固有的模态鸿沟——同一类别的文本描述是唯一确定的,但视觉表现却高度多样化。仅依赖文本prompt无法充分表达类内多样性和类间差异性。
本文解决什么? 如何在无标注数据的情况下,利用生成模型的"先验知识"来增强分类器的判别能力,弥补纯文本prompt在视觉判别上的不足。
切入角度:将扩散模型作为"视觉知识库",通过生成类别代表性样本来构建辅助的图像-图像分类器,与原始文本分类器加权融合。
核心 idea:用扩散模型生成的合成图像作为每个类别的"视觉原型",将分类从文本-图像匹配扩展为文本+图像到图像的联合匹配。
方法详解¶
整体框架¶
AiR方法包含三个核心模块:(1) LoRA微调的Stable Diffusion生成器,用于生成高质量的类别代表性合成图像;(2) ACG(Auxiliary Classifier Generation)模块,从合成图像中选择代表性样本构建辅助分类器;(3) PLG(Pseudo-Label Generation)模块,融合文本分类器和辅助分类器生成更准确的伪标签。
关键设计¶
-
LoRA微调的扩散模型:
- 功能:对Stable Diffusion进行领域自适应,使生成图像更贴合目标数据集的视觉分布
- 核心思路:使用目标数据集的无标注图像,通过LoRA对Stable Diffusion的U-Net进行轻量微调。LoRA仅更新低秩分解矩阵,参数量极小(约0.1%的原始参数)
- 设计动机:预训练的Stable Diffusion在通用场景图像上表现良好,但在遥感、医学等专业领域的生成质量不足。LoRA微调可以以极低成本适配目标域分布,生成更具判别性的合成样本
- 效果:LoRA微调带来+3.4%~+8%的跨数据集准确率提升
-
ACG模块——辅助分类器构建:
- 功能:为每个类别生成 \(M\) 张合成图像,并从中选择最具代表性的样本作为类别原型
- 核心思路:使用类别名称作为文本prompt(如"a photo of a residential area")生成 \(M\) 张图像。通过CLIP视觉编码器提取特征,计算每张合成图像与该类别所有合成图像均值特征的余弦相似度,选择相似度最高的 \(K\) 张作为代表样本。辅助分类器的预测为:\(\hat{p}_c = \frac{1}{K}\sum_{k=1}^{K} \text{sim}(f_{\text{img}}, f_{\text{syn},k}^c)\)
- 设计动机:直接使用所有合成图像会引入噪声(部分生成图像质量差或偏离类别语义),选择最接近类别中心的样本可以提升辅助分类器的可靠性。实验发现约120张/类是最优数量
-
PLG模块——伪标签融合:
- 功能:融合文本分类器和辅助分类器的预测,生成更准确的伪标签
- 核心思路:最终预测为加权融合 \(p_c^* = p_c + \lambda \hat{p}_c\),其中 \(p_c\) 是CLIP文本分类器的预测概率,\(\hat{p}_c\) 是辅助分类器的预测概率,\(\lambda\) 控制辅助分类器的权重
- 设计动机:两个分类器提供互补的判别信息——文本分类器擅长捕捉语义级别的类别特征,辅助分类器擅长捕捉视觉纹理和结构级别的差异。加权融合可以取长补短
-
训练损失:
- 总训练损失 \(L = L_r + \beta L_s\)
- \(L_r\) 是基于融合伪标签的交叉熵损失,用于学习连续prompt
- \(L_s\) 是辅助的自监督正则化损失,通过augmented view的一致性约束防止过拟合伪标签中的噪声
- \(\beta\) 控制正则化强度
实验关键数据¶
主实验:与SOTA方法的准确率对比¶
| 方法 | RESISC45 | Flowers102 | EuroSAT | DTD | 平均 |
|---|---|---|---|---|---|
| CLIP零样本 | 60.2% | 66.1% | 42.0% | 43.8% | 53.0% |
| UPL | 72.4% | 65.8% | 48.3% | 55.2% | 60.4% |
| CPL | 77.3% | 69.2% | 52.1% | 57.9% | 64.1% |
| AiR (本文) | 79.9% | 71.4% | 55.7% | 60.1% | 66.8% |
| vs CPL提升 | +2.6% | +2.2% | +3.6% | +2.2% | +2.7% |
消融实验¶
| 组件配置 | RESISC45 | 说明 |
|---|---|---|
| Baseline (CPL) | 70.6% | 无辅助分类器 |
| + \(\hat{p}_c\) (辅助分类器) | 72.3% | +1.7%,证明图像-图像匹配有效 |
| + \(L_s\) (正则化损失) | 72.9% | +2.3%,正则化减少伪标签噪声 |
| + \(\hat{p}_c\) + \(L_s\) | 73.6% | +3.0%,两者互补 |
| + LoRA微调 | 76.5% → 79.9% | LoRA额外带来+3.4%~+6.3%提升 |
| 无LoRA vs 有LoRA | 76.5% vs 79.9% | LoRA微调是关键组件 |
合成样本数量的影响¶
| 每类合成样本数 | RESISC45 | Flowers102 | EuroSAT |
|---|---|---|---|
| 20 | 77.1% | 68.9% | 52.8% |
| 60 | 78.4% | 70.1% | 54.2% |
| 120 | 79.9% | 71.4% | 55.7% |
| 200 | 79.6% | 71.1% | 55.3% |
| 300 | 79.2% | 70.8% | 54.9% |
关键发现¶
- 辅助分类器的互补性:通过辅助分类器 \(\hat{p}_c\) 的加入,在RESISC45上提升1.7%,验证了图像-图像匹配相比文本-图像匹配能捕捉更丰富的视觉判别信息
- LoRA微调至关重要:LoRA微调在所有数据集上带来+3.4%~+8%的提升,说明领域自适应对合成图像质量的影响是决定性的
- 最优合成样本数约120张/类:过少样本(<60)不足以覆盖类内多样性,过多样本(>200)引入噪声反而降低性能
- 在困难数据集上提升更大:EuroSAT(+3.6%)和DTD(+2.2%)是文本描述难以精确区分的细粒度/遥感数据集,辅助分类器的优势更加明显
- \(L_s\) 正则化独立有效:即使不加辅助分类器,仅加正则化损失也能提升2.3%,说明自监督一致性约束有效缓解了伪标签噪声
亮点与洞察¶
- 将生成模型作为"视觉知识库":不同于传统的"生成→增强训练数据"范式,AiR将合成图像直接作为分类器的一部分(类别原型),避免了将合成数据与真实数据混合训练导致的域差距问题
- 文本+视觉双通道分类:融合文本-图像匹配和图像-图像匹配的思路,可以看作是在CLIP的特征空间中同时利用了语言和视觉两种"锚点"进行分类
- LoRA微调的成本效益比极高:仅微调约0.1%的参数就带来显著提升,且不需要标注数据(使用目标域无标注图像即可),在实际应用中非常实用
- 与伪标签方法正交:AiR的辅助分类器理论上可与任何基于伪标签的无监督方法结合,具有良好的可扩展性
局限与展望¶
- 合成图像生成需要额外的计算开销(LoRA微调+图像生成),在资源受限场景下可能不实用
- 辅助分类器的有效性依赖于扩散模型对目标域的覆盖能力,在极端域外奇异类别上可能失效
- \(\lambda\) 和 \(\beta\) 等超参数需要在验证集上调优,而无监督设置下验证集的构建本身也是挑战
- 仅在CLIP的视觉编码器上验证,是否适用于其他VLM(如BLIP-2、SigLIP)尚待验证
- 未探索使用更先进的扩散模型(如SDXL、Flux)是否能进一步提升合成图像质量和最终分类性能