VT-FSL: Bridging Vision and Text with LLMs for Few-Shot Learning¶
会议: NeurIPS 2025
arXiv: 2509.25033
作者: Wenhao Li, Qiangchang Wang, Xianjing Meng, Zhibin Wu, Yilong Yin (山东大学, 深圳Loop Area研究院, 山东财经大学)
代码: GitHub
领域: 多模态VLM
关键词: 少样本学习, 大语言模型, 跨模态对齐, 文本提示, 视觉合成, 对比学习
一句话总结¶
提出VT-FSL框架,通过跨模态迭代提示(CIP)联合利用类名和支持图像驱动LLM生成精确文本描述并零样本合成语义一致图像,再通过核化体积对比学习(CGA)实现全局非线性跨模态对齐,在10个少样本学习基准上平均提升4.2%分类准确率。
研究背景与动机¶
问题背景¶
少样本学习(FSL)旨在仅用少量标注样本识别新类别。度量学习方法通过构建类原型进行最近邻分类,但有限样本导致原型偏离真实类中心。引入文本模态的语义信息是改进原型表示的重要思路。
已有工作的不足¶
- 类名信息不足:AM3、SP等方法仅利用类名,提供的上下文信息极其有限
- 语义幻觉问题:SemFew、ECER等方法虽利用LLM生成更丰富的描述,但仅以类名为条件,忽略了支持图像的视觉模式,导致生成文本与实际视觉证据不一致,需要额外的人工或算法矫正
- 朴素提示策略:现有方法对LLM使用简单输入提示,未充分发挥LLM的推理和生成能力
- 对齐方式局限:CLIP风格的成对对比学习仅将每个表示对齐到单一锚点,忽略多模态间的全局结构关系
核心动机¶
同时利用类名和支持图像生成视觉接地的文本描述,消除语义幻觉;生成互补的文本和视觉提示,分别提供高层类语义和低层类内多样性;通过几何感知对齐实现全特征的一致性融合。
方法详解¶
整体框架¶
VT-FSL由两个核心模块组成:跨模态迭代提示(CIP)和跨模态几何对齐(CGA)。CIP负责生成文本和视觉提示,CGA负责将所有模态表示进行全局对齐。
跨模态迭代提示(CIP)¶
CIP联合利用类标签和\(K\)-shot支持图像,通过结构化推理生成精确且视觉接地的类描述。受Chain-of-Thought启发,将生成过程分解为四个阶段:
- 策略(Strategy):概述问题,明确需要从支持图像中提取的关键视觉属性
- 感知(Perception):解读支持图像中的视觉模式,提取共享的类别特征
- 精化(Refinement):逐步推理,消除不一致信息,优化文本描述质量
- 结论(Conclusion):生成最终的精确类描述
每个阶段使用结构化标签标记,整个过程在单次推理中完成,无需多轮交互,降低延迟和人工成本。
生成的描述随后输入文本到图像模型(Janus-Pro),零样本合成语义一致的图像。通过LLM成对比较策略,选择与文本描述最匹配的top-\(K\)张图像,构建扩充的\(N\)-way \((K+K)\)-shot支持集。
跨模态融合¶
利用CLIP编码的文本特征\(Z_t\)与支持特征\(z_s\)进行融合: - 通道维度:通过两层MLP生成调制向量\(\beta\),沿通道维度增强支持特征 - 空间维度:将\(Z_t\)和\(z_s\)沿空间维度拼接,通过Transformer的多头自注意力捕获token间的语义关联,得到增强的支持嵌入\(Z_s\)
跨模态几何对齐(CGA)——核化体积对比学习¶
不同于传统成对对比学习,CGA通过测量多向量张成的\(k\)维平行多面体的体积来度量对齐程度:
其中\(\kappa\)为RBF核函数,将对齐扩展到再生核Hilbert空间(RKHS),捕获非线性关系。以文本模态为锚,定义双向对比损失\(\mathcal{L}_{\text{D2A}}\)和\(\mathcal{L}_{\text{A2D}}\),最终总损失为:
推理阶段¶
分别计算文本增强原型\(c_t\)和视觉扩充原型\(c_v\),通过凸组合得到最终分类原型:\(C=uc_t+(1-u)c_v\),融合因子\(u\)在验证集上网格搜索确定。
实验关键数据¶
实验1:标准少样本分类(miniImageNet & tieredImageNet)¶
| 方法 | Backbone | miniImageNet 1-shot | miniImageNet 5-shot | tieredImageNet 1-shot | tieredImageNet 5-shot |
|---|---|---|---|---|---|
| ProtoNet | ResNet-12 | 62.39 | 80.53 | 68.23 | 84.03 |
| SemFew (CVPR'24) | Swin-T (29M) | 78.94 | 86.49 | 82.37 | 89.89 |
| UAP (NeurIPS'24) | ResNet-12 | 81.63 | 79.05 | 79.68 | 76.78 |
| ECER (AAAI'25) | Visformer-T | 81.14 | - | 81.81 | - |
| VT-FSL | Visformer-T (10M) | 83.66 | 88.38 | 88.02 | 91.71 |
VT-FSL使用轻量Visformer-T骨干(10M参数),超越所有使用更大骨干(ViT-S 22M、Swin-T 29M、WRN28-10 36.5M)的方法。相比SemFew在1-shot上提升3.7%-5.7%。
实验2:细粒度与跨域少样本分类¶
| 场景 | 数据集 | 次优方法 1-shot | VT-FSL 1-shot | 提升 |
|---|---|---|---|---|
| 细粒度 | CUB-200 | 86.02 (SUITED) | 91.08 | +5.06 |
| 细粒度 | Stanford-Dogs | 76.55 (SUITED) | 86.58 | +10.03 |
| 细粒度 | Stanford-Cars | 89.97 (SUITED) | 92.95 | +2.98 |
| 跨域 | mini→CUB | 51.55 (MEFP) | 66.86 | +15.31 |
| 跨域 | mini→Places | 59.07 (SVasP) | 73.68 | +14.61 |
| 跨域 | mini→Plantae | 41.55 (MEFP) | 45.90 | +4.35 |
跨域1-shot场景提升尤为显著(最高15.31%),证明跨模态语义的迁移能力。
消融实验核心发现¶
| 文本提示 | 视觉提示 | 对齐损失 | miniImageNet 1-shot | CIFAR-FS 1-shot |
|---|---|---|---|---|
| ✗ | ✗ | ✗ | 68.47 | 76.43 |
| ✓ | ✗ | ✗ | 78.82 | 84.76 |
| ✓ | ✓ | ✗ | 82.08 | 87.72 |
| ✓ | ✓ | ✓ | 83.66 | 88.67 |
三个组件均持续带来增益,文本提示贡献最大(+10.35),视觉提示进一步补充(+3.26),对齐损失锦上添花(+1.58)。
效率对比¶
| 方法 | 提示生成(h) | 训练时间(min) | 推理时间(ms) | 准确率(%) |
|---|---|---|---|---|
| SP | - | 1.7 | 78 | 72.31 |
| SemFew | 1.5 | 2.3 | 105 | 78.94 |
| ECER | 0.7 | 3.0 | 119 | 81.14 |
| VT-FSL | 0.7 | 1.1 | 76 | 83.66 |
VT-FSL训练最快、推理最快、精度最高,因为跨模态提示通过一次性离线生成,下游模型无额外开销。
亮点¶
- 视觉接地的文本生成:首次联合利用类名+支持图像条件化LLM,消除纯文本驱动方法的语义幻觉问题,四阶段结构化推理在单次推理中完成
- 互补跨模态提示设计:文本提示提供高层类语义,合成图像提供低层类内多样性,二者形成互补;插件式设计使提示可被任意下游FSL模型直接使用
- 核化体积对比学习:首次将基于体积的对比学习引入FSL,通过RKHS中的核Gram矩阵行列式捕获全局非线性跨模态关系,超越InfoNCE和线性体积方法
- 全面SOTA:在10个基准(标准/细粒度/跨域)上全面刷新SOTA,平均提升4.2%,且使用最轻量骨干
局限与展望¶
- 依赖LLM和生成模型质量:CIP依赖Qwen2.5-VL-32B的视觉理解和推理能力,合成图像依赖Janus-Pro的生成质量,对更弱的模型效果未知
- 离线生成开销:虽然提示生成是一次性的,但对于大规模数据集仍需0.7小时,且需要GPU资源运行大模型
- 融合因子手动搜索:推理时的融合因子\(u\)需要在验证集上网格搜索,不够自动化
- 合成图像数量敏感:超过\(K\)张合成图像后性能下降甚至退化,说明生成质量仍有上限
- 仅验证图像分类:未在检测、分割等更复杂的少样本任务上验证泛化性
- 计算资源要求:需要NVIDIA RTX 6000 Ada级别GPU,对资源受限场景不友好
与相关工作的对比¶
- AM3 (NeurIPS'19):仅利用类名的语义特征与视觉原型自适应融合,信息量有限;VT-FSL生成丰富的视觉接地描述
- CaFo (CVPR'22):基于类名生成合成图像扩充数据,但文本描述缺乏视觉接地;VT-FSL从支持图像提取视觉线索消除幻觉
- SemFew (CVPR'24):用LLM基于类名生成连贯描述增强原型,但朴素提示限制了语义质量,且需4.3M参数的融合模块;VT-FSL仅需0.7M参数的两层MLP
- ECER (AAAI'25):提取属性级文本信息,仅以类名为条件;VT-FSL联合类名和图像,结构化推理生成更精确描述
- InfoNCE对比学习:成对对齐忽略多模态间全局结构关系;VT-FSL的核化体积损失同时考虑三模态的全局几何关系
- SUITED (AAAI'25):细粒度FSL次优方法;VT-FSL在1-shot上超越3.0%-10.3%
评分¶
- 新颖性: ⭐⭐⭐⭐ — 核化体积对比学习和视觉接地CIP设计新颖,但整体框架为已有组件的巧妙组合
- 实验充分度: ⭐⭐⭐⭐⭐ — 10个基准、三种场景、详细消融、效率对比、可视化分析,实验极为充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机明确,图表丰富,数学推导完整
- 价值: ⭐⭐⭐⭐⭐ — 全面刷新SOTA且方法实用,插件式设计便于落地,代码已开源