DVLA-RL: Dual-Level Vision-Language Alignment with Reinforcement Learning Gating for Few-Shot Learning¶

会议: ICLR 2026
arXiv: 2602.00795
代码: 无
领域: 强化学习
关键词: 少样本学习, 视觉-语言对齐, 强化学习门控, 双层语义, 跨模态融合

一句话总结¶

提出 DVLA-RL 框架，通过双层语义构建（DSC）生成互补的低层属性和高层描述，并以 RL 门控注意力（RLA）动态平衡自注意力和交叉注意力在不同网络层的贡献，实现从低层到高层的层次化视觉-语言对齐，在 9 个少样本学习基准上达到 SOTA。

研究背景与动机¶

少样本学习（FSL）旨在仅用少量样本泛化到新类别。当前基于语义的 FSL 方法利用 LLM 生成的文本语义来增强视觉表征，但存在两个关键不足：

单层语义局限：现有方法要么只用高层描述（如 SemFew 生成类别描述），要么只用低层属性（如 ECER 生成具体实体），无法同时提供细粒度区分和整体类别理解

静态融合模块：现有方法使用固定的 MLP 融合跨模态信息，无法在不同网络深度自适应地调整视觉-语言对齐策略——浅层应关注局部细节、深层应强调全局语义

核心创新：(1) 构建互补的双层语义（属性 + 描述）；(2) 首次将 RL 引入 FSL 的视觉-语言对齐，动态门控跨模态融合。

方法详解¶

整体框架¶

DVLA-RL 包含两个核心模块：

Dual-level Semantic Construction (DSC)：生成低层属性 + 高层描述的双层语义
RL-gated Attention (RLA)：以 RL 策略动态平衡跨模态注意力

关键设计一：双层语义构建（DSC）¶

步骤 1：视觉属性提取

以类别名和支持样本为条件，查询 LLM（Qwen2.5-VL-32B）："What are the key distinguishing attributes of the CLASS in the given image? List concise attributes"，得到候选属性集 \(A^{C^i_{sup}} = \{a_1, \dots, a_s\}\)。

步骤 2：渐进式 Top-k 选择

通过 CLIP 文本编码器对每个属性编码，与当前模板嵌入计算余弦相似度 \(s_j = \cos(T^{(i)}, a_j)\)，初始模板为 "A photo of a {CLASS}"。每步选择最相关属性并更新模板，迭代 \(k\) 次保留最具区分性的属性，抑制 LLM 生成的幻觉和冗余属性。每个选中属性嵌入模板 "A photo of a {CLASS}, which has {attribute}" 用于低层对齐。

步骤 3：属性描述综合

将选中属性通过 LLM 综合为流畅的科学描述 \(D_i\)，提供与局部属性互补的整体语义。例如 "The Komondor is a … dog with massive size and uniquely corded white coat"。

关键设计二：RL 门控注意力（RLA）¶

给定视觉 token \(H_{\mathrm{img}}\) 和文本语义 \(H_{\mathrm{text}}\)，RLA 执行两条对偶注意力路径：

图像引导路径（交叉注意力）：\(\hat{H} = \mathrm{Attn}(W^q_\text{text}\bar{H}_\text{text}, W^k_\text{img}\bar{H}_\text{img}, W^v_\text{img}\bar{H}_\text{img})\)
文本引导路径（自注意力）：\(\tilde{H} = \mathrm{Attn}(W^q_\text{text}\bar{H}_\text{text}, W^k_\text{text}\bar{H}_\text{text}, W^v_\text{text}\bar{H}_\text{text})\)

通过随机门控融合：\(H = \alpha \hat{H} + (1-\alpha) \tilde{H}\)，其中 \(\alpha \sim \pi_\theta(\cdot|s)\)。

状态表示：\(s = \phi([\mathrm{GAP}(\bar{H}_\text{img}) \| \mathrm{GAP}(\bar{H}_\text{text}) \| \cos(\mathrm{GAP}(\bar{H}_\text{img}), \mathrm{GAP}(\bar{H}_\text{text}))])\)

策略分布：\(\pi_\theta(\alpha|s) = \mathrm{Beta}(\kappa p_\theta(s), \kappa(1 - p_\theta(s)))\)，其中 \(\kappa\) 控制探索与确定性的平衡。

损失函数 / 训练策略¶

RL 奖励：\(R_t = \lambda_\text{sim} \cdot \cos(U \cdot \mathrm{GAP}(H), \mathbf{t}^\star) + \lambda_\text{imp} \cdot (\mathrm{Acc}_t - \mathrm{Acc}_{t-1})\)

第一项促进视觉-文本对齐（与 CLIP ground-truth 文本嵌入的余弦相似度）
第二项衡量 episode 内准确率提升

策略梯度：\(\nabla_\theta \mathcal{J} = \mathbb{E}[(R_t - b_t) \nabla_\theta \log \pi_\theta(\alpha|s)] + \tau \nabla_\theta \mathsf{H}(\pi_\theta(\cdot|s))\)

包含熵正则化防止策略过早坍缩，使用指数移动平均基线减少方差。

总损失：\(\mathcal{L}_\text{total} = \mathcal{L}_\text{sup} + \lambda \mathcal{L}_\text{RL}\)，其中 \(\mathcal{L}_\text{sup}\) 是基于原型分类器的交叉熵损失。

训练流程：两阶段——(1) 大规模预训练 300-800 epoch；(2) 100 epoch episode 式元调优。RL 超参 \(\kappa=10\), \(\lambda_\text{sim}=0.5\), \(\lambda_\text{imp}=1.0\), \(\lambda=0.1\), \(\tau=0.2\)。

实验关键数据¶

主实验：通用少样本分类¶

方法	miniImageNet 1-shot	miniImageNet 5-shot	tieredImageNet 1-shot	CIFAR-FS 1-shot
SemFew (CVPR'24)	78.94	86.49	82.37	84.34
ECER (AAAI'25)	81.14	-	81.81	86.01
CPL (TPAMI'25)	72.82	87.93	78.05	78.82
DVLA-RL	81.69	88.25	83.02	87.18

主实验：细粒度少样本分类¶

方法	CUB 1-shot	CUB 5-shot	Dogs 1-shot	Cars 1-shot
SUITED (AAAI'25)	86.02	94.13	76.55	89.97
BSFA (TCSVT'23)	86.00	92.53	69.58	88.93
DVLA-RL	91.93	95.06	89.64	92.95

在细粒度任务上超过次优方法 5.4%-15.3%（1-shot），表明双层语义对捕捉细微类间差异尤为有效。

跨域少样本分类¶

方法	CUB 1-shot	Places 1-shot	ChestX 1-shot
MEFP (NeurIPS'24)	51.55	52.06	22.82
SVasP (AAAI'25)	49.49	59.07	23.23
DVLA-RL	67.46	69.26	23.47

跨域场景下在 CUB 上超出次优 15.9%，在 Places 上超出 10.2%，展示出极强的域迁移能力。

消融实验¶

消融实验验证了各组件的必要性：

移除 DSC（仅用类名模板）：1-shot 下降 ~3-5%
固定 \(\alpha\)（消除 RL 门控）：性能显著下降，表明自适应融合优于静态融合
移除低层属性或高层描述：均导致下降，证明双层语义的互补性
移除 Progressive Top-k：属性质量下降导致性能降低

关键发现¶

浅层 RLA 倾向于更大的 \(\alpha\)（更多交叉注意力→聚焦属性细节），深层倾向更小的 \(\alpha\)（更多自注意力→整合全局语义）
Beta 分布策略在不同 episode 任务中表现出明显的自适应行为

亮点与洞察¶

首次将 RL 引入 FSL 的视觉-语言对齐：Beta 分布策略+REINFORCE 算法优雅地实现了层级自适应融合
双层语义互补：低层属性提供细粒度区分线索，高层描述提供整体类别理解，渐进式 Top-k 有效抑制 LLM 幻觉
细粒度和跨域场景的大幅度提升（5-16%）说明该方法对域迁移和细微差异的捕捉尤为有效
设计轻量：RLA 模块仅增加少量参数，RL 训练稳定

局限与展望¶

依赖 LLM（Qwen2.5-VL-32B）生成属性，推理时的 LLM 调用增加延迟
属性和描述可以预计算，但新类别仍需 LLM 推理
ChestX 等极端跨域场景提升有限（<1%），极端域偏移下视觉-语言对齐仍面临挑战
RL 门控的 \(\kappa\) 等超参需要验证集调优

评分¶

新颖性: ⭐⭐⭐⭐ (RL 门控+双层语义是有意义的创新组合)
实验充分度: ⭐⭐⭐⭐⭐ (9 个基准，3 种场景，20+ 基线)
写作质量: ⭐⭐⭐⭐ (结构清晰，公式完整)
价值: ⭐⭐⭐⭐ (SOTA 结果显著，方法通用性好)