跳转至

DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning

会议: ICLR 2026
arXiv: 2602.00795
代码: 无
领域: 强化学习
关键词: 少样本学习, 视觉-语言对齐, 强化学习门控, 双层语义, 跨模态融合

一句话总结

提出 DVLA-RL 框架,通过双层语义构建(DSC)生成互补的低层属性和高层描述,并以 RL 门控注意力(RLA)动态平衡自注意力和交叉注意力在不同网络层的贡献,实现从低层到高层的层次化视觉-语言对齐,在 9 个少样本学习基准上达到 SOTA。

研究背景与动机

少样本学习(FSL)旨在仅用少量样本泛化到新类别。当前基于语义的 FSL 方法利用 LLM 生成的文本语义来增强视觉表征,但存在两个关键不足:

单层语义局限:现有方法要么只用高层描述(如 SemFew 生成类别描述),要么只用低层属性(如 ECER 生成具体实体),无法同时提供细粒度区分和整体类别理解

静态融合模块:现有方法使用固定的 MLP 融合跨模态信息,无法在不同网络深度自适应地调整视觉-语言对齐策略——浅层应关注局部细节、深层应强调全局语义

核心创新:(1) 构建互补的双层语义(属性 + 描述);(2) 首次将 RL 引入 FSL 的视觉-语言对齐,动态门控跨模态融合。

方法详解

整体框架

DVLA-RL 包含两个核心模块:

  1. Dual-level Semantic Construction (DSC):生成低层属性 + 高层描述的双层语义
  2. RL-gated Attention (RLA):以 RL 策略动态平衡跨模态注意力

关键设计一:双层语义构建(DSC)

步骤 1:视觉属性提取

以类别名和支持样本为条件,查询 LLM(Qwen2.5-VL-32B):"What are the key distinguishing attributes of the CLASS in the given image? List concise attributes",得到候选属性集 \(A^{C^i_{sup}} = \{a_1, \dots, a_s\}\)

步骤 2:渐进式 Top-k 选择

通过 CLIP 文本编码器对每个属性编码,与当前模板嵌入计算余弦相似度 \(s_j = \cos(T^{(i)}, a_j)\),初始模板为 "A photo of a {CLASS}"。每步选择最相关属性并更新模板,迭代 \(k\) 次保留最具区分性的属性,抑制 LLM 生成的幻觉和冗余属性。每个选中属性嵌入模板 "A photo of a {CLASS}, which has {attribute}" 用于低层对齐。

步骤 3:属性描述综合

将选中属性通过 LLM 综合为流畅的科学描述 \(D_i\),提供与局部属性互补的整体语义。例如 "The Komondor is a … dog with massive size and uniquely corded white coat"。

关键设计二:RL 门控注意力(RLA)

给定视觉 token \(H_{\mathrm{img}}\) 和文本语义 \(H_{\mathrm{text}}\),RLA 执行两条对偶注意力路径:

  • 图像引导路径(交叉注意力):\(\hat{H} = \mathrm{Attn}(W^q_\text{text}\bar{H}_\text{text}, W^k_\text{img}\bar{H}_\text{img}, W^v_\text{img}\bar{H}_\text{img})\)
  • 文本引导路径(自注意力):\(\tilde{H} = \mathrm{Attn}(W^q_\text{text}\bar{H}_\text{text}, W^k_\text{text}\bar{H}_\text{text}, W^v_\text{text}\bar{H}_\text{text})\)

通过随机门控融合:\(H = \alpha \hat{H} + (1-\alpha) \tilde{H}\),其中 \(\alpha \sim \pi_\theta(\cdot|s)\)

状态表示\(s = \phi([\mathrm{GAP}(\bar{H}_\text{img}) \| \mathrm{GAP}(\bar{H}_\text{text}) \| \cos(\mathrm{GAP}(\bar{H}_\text{img}), \mathrm{GAP}(\bar{H}_\text{text}))])\)

策略分布\(\pi_\theta(\alpha|s) = \mathrm{Beta}(\kappa p_\theta(s), \kappa(1 - p_\theta(s)))\),其中 \(\kappa\) 控制探索与确定性的平衡。

损失函数 / 训练策略

RL 奖励\(R_t = \lambda_\text{sim} \cdot \cos(U \cdot \mathrm{GAP}(H), \mathbf{t}^\star) + \lambda_\text{imp} \cdot (\mathrm{Acc}_t - \mathrm{Acc}_{t-1})\)

  • 第一项促进视觉-文本对齐(与 CLIP ground-truth 文本嵌入的余弦相似度)
  • 第二项衡量 episode 内准确率提升

策略梯度\(\nabla_\theta \mathcal{J} = \mathbb{E}[(R_t - b_t) \nabla_\theta \log \pi_\theta(\alpha|s)] + \tau \nabla_\theta \mathsf{H}(\pi_\theta(\cdot|s))\)

包含熵正则化防止策略过早坍缩,使用指数移动平均基线减少方差。

总损失\(\mathcal{L}_\text{total} = \mathcal{L}_\text{sup} + \lambda \mathcal{L}_\text{RL}\),其中 \(\mathcal{L}_\text{sup}\) 是基于原型分类器的交叉熵损失。

训练流程:两阶段——(1) 大规模预训练 300-800 epoch;(2) 100 epoch episode 式元调优。RL 超参 \(\kappa=10\), \(\lambda_\text{sim}=0.5\), \(\lambda_\text{imp}=1.0\), \(\lambda=0.1\), \(\tau=0.2\)

实验关键数据

主实验:通用少样本分类

方法 miniImageNet 1-shot miniImageNet 5-shot tieredImageNet 1-shot CIFAR-FS 1-shot
SemFew (CVPR'24) 78.94 86.49 82.37 84.34
ECER (AAAI'25) 81.14 - 81.81 86.01
CPL (TPAMI'25) 72.82 87.93 78.05 78.82
DVLA-RL 81.69 88.25 83.02 87.18

主实验:细粒度少样本分类

方法 CUB 1-shot CUB 5-shot Dogs 1-shot Cars 1-shot
SUITED (AAAI'25) 86.02 94.13 76.55 89.97
BSFA (TCSVT'23) 86.00 92.53 69.58 88.93
DVLA-RL 91.93 95.06 89.64 92.95

在细粒度任务上超过次优方法 5.4%-15.3%(1-shot),表明双层语义对捕捉细微类间差异尤为有效。

跨域少样本分类

方法 CUB 1-shot Places 1-shot ChestX 1-shot
MEFP (NeurIPS'24) 51.55 52.06 22.82
SVasP (AAAI'25) 49.49 59.07 23.23
DVLA-RL 67.46 69.26 23.47

跨域场景下在 CUB 上超出次优 15.9%,在 Places 上超出 10.2%,展示出极强的域迁移能力。

消融实验

消融实验验证了各组件的必要性:

  • 移除 DSC(仅用类名模板):1-shot 下降 ~3-5%
  • 固定 \(\alpha\)(消除 RL 门控):性能显著下降,表明自适应融合优于静态融合
  • 移除低层属性或高层描述:均导致下降,证明双层语义的互补性
  • 移除 Progressive Top-k:属性质量下降导致性能降低

关键发现

  • 浅层 RLA 倾向于更大的 \(\alpha\)(更多交叉注意力→聚焦属性细节),深层倾向更小的 \(\alpha\)(更多自注意力→整合全局语义)
  • Beta 分布策略在不同 episode 任务中表现出明显的自适应行为

亮点与洞察

  1. 首次将 RL 引入 FSL 的视觉-语言对齐:Beta 分布策略+REINFORCE 算法优雅地实现了层级自适应融合
  2. 双层语义互补:低层属性提供细粒度区分线索,高层描述提供整体类别理解,渐进式 Top-k 有效抑制 LLM 幻觉
  3. 细粒度和跨域场景的大幅度提升(5-16%)说明该方法对域迁移和细微差异的捕捉尤为有效
  4. 设计轻量:RLA 模块仅增加少量参数,RL 训练稳定

局限与展望

  1. 依赖 LLM(Qwen2.5-VL-32B)生成属性,推理时的 LLM 调用增加延迟
  2. 属性和描述可以预计算,但新类别仍需 LLM 推理
  3. ChestX 等极端跨域场景提升有限(<1%),极端域偏移下视觉-语言对齐仍面临挑战
  4. RL 门控的 \(\kappa\) 等超参需要验证集调优

相关工作与启发

  • 相比 SemFew 仅用高层描述和 ECER 仅用低层实体,DSC 的双层设计是自然的统一
  • RL 门控的思路可推广到任何需要自适应跨模态融合的场景(如 VQA、图文检索)
  • Progressive Top-k 选择机制可用于其他需要从 LLM 输出中筛选高质量信息的任务
  • Beta 分布策略相比 Bernoulli 或 Gaussian 更适合 [0,1] 区间的连续门控

评分

  • 新颖性: ⭐⭐⭐⭐ (RL 门控+双层语义是有意义的创新组合)
  • 实验充分度: ⭐⭐⭐⭐⭐ (9 个基准,3 种场景,20+ 基线)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,公式完整)
  • 价值: ⭐⭐⭐⭐ (SOTA 结果显著,方法通用性好)