Exploring Cross-Modal Flows for Few-Shot Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ks6Gg8nd0y
代码: HKUST-LongGroup/FMA
领域: 多模态视觉语言模型 / 少样本学习
关键词: Few-Shot Learning, CLIP, PEFT, Flow Matching, Cross-Modal Alignment, Velocity Field

一句话总结¶

把图像特征向文本特征对齐这件事，从所有 PEFT 方法的"一步到位"重构成 Flow Matching 的"多步迭代修正"，用一个即插即用的速度场（velocity field）把难数据集上纠缠的跨模态分布逐步拉齐，从而显著提升少样本分类。

研究背景与动机¶

领域现状：CLIP、ALIGN 这类预训练 VLM 通过对比学习把图像和文本编码到共享空间，做到了不错的零样本对齐。但内在的模态复杂性使它们无法在所有场景下完美对齐，因此少样本下游任务通常要再微调。由于全量微调代价高，社区发展出三大类参数高效微调（PEFT）方法：Prompt Tuning（CoOp/CoCoOp，移动文本特征）、Adapter-based（CLIP-Adapter，在图像编码器后接 MLP 移动图像特征）、LoRA-based（CLIP-LoRA，在双编码器内插低秩矩阵同时移动图文特征）。

现有痛点：作者首次指出，无论哪一类 PEFT，本质上都是一步调整（one-step adjustment）——推理时只用一次前向传播把输入特征直接映射到目标位置。文中用线性探针（linear probing）作参照基线剥离"数据带来的增益"，并按 CLIP RN50 零样本性能定义"数据集难度"，发现 PEFT 相对线性探针的优势在简单集（OxfordPets）明显，但在难集（FGVCAircraft）几乎消失。

核心矛盾：难数据集上图文分布高度纠缠，需要复杂的非线性变换才能对齐，而一步映射根本建模不了这种复杂变换。

本文目标：让跨模态对齐变成可多步迭代的过程，使每一步只需预测一个局部更新，从而把难分布逐步"修正"到位。

核心 idea：[多步对齐] 借鉴主要用于图像生成的 Flow Matching（FM）理论——它学一个速度场，把源分布沿多步轨迹搬运到目标分布。作者把所有图像特征当源分布、所有类名文本特征当目标分布，训练一个速度场实现"图像特征 → 对应文本特征"的多步搬运，即完成分类。但直接套用 FM 有两个坑：(1) 训练出的速度场不保证类别对应，可能把某类图像搬到别类文本；(2) 生成式 FM 的推理目标是"抵达目标分布"，而分类只需"离正确类比离错误类更近"，目标不一致。FMA 用三个设计逐一化解。

方法详解¶

整体框架¶

FMA（Flow Matching Alignment）分三步：先用预训练 VLM（如 CLIP 零样本，或 CoOp/CLIP-LoRA 等任意 PEFT）把图像编码成源特征 \(x_0\)、把"a photo of {class}"模板编码成目标文本特征 \(z\)；再在共享空间里训练一个速度场 \(u_\theta^t\)，学会把图像特征沿直线轨迹搬向其对应文本特征；推理时用一个"早停求解器"迭代搬运测试图像特征，在它对分类已足够判别时就停下，用中间特征算与各类文本的余弦相似度做预测。整个速度场只吃共享空间里的两组特征、与具体特征提取方法无关，因此是即插即用的多步修正模块。

flowchart LR
    A[图像 I] -->|图像编码器| X0[源特征 x0]
    B["文本 a photo of {class}"] -->|文本编码器| Z[目标文本特征 z]
    X0 --> C[Coupling Enforcement<br/>只配对真实类文本]
    Z --> C
    C --> D[Noise Augmentation<br/>注入时变高斯噪声]
    D --> E["训练速度场 u_theta(x_t)<br/>L_FM 最小二乘回归"]
    E --> F[Early Stopping Solver<br/>迭代 M 步后停]
    F --> G[中间特征 x_T̂ 算余弦相似度→分类]

关键设计¶

1. Coupling Enforcement（耦合强制）：让速度场学会"分类方向"而非"平均方向"。 标准 FM 训练随机配对图像特征 \(x_0\) 和文本特征 \(z\)，沿直线插值 \(x_t = tz + (1-t)x_0\)，回归条件速度 \(v_t(x_t|z) = z - x_0\)，损失为 \(L_{FM}(\theta) = \mathbb{E}_{x_t,t}[\|u_\theta^t(x_t) - (z-x_0)\|^2]\)。问题在于学到的边际速度 \(v_t(x_t)\) 是对所有可能文本 \(z\) 的期望积分，会把图像特征推向所有文本的平均，导致错分。作者的做法是：给定图像特征 \(x_0\)，只采样它真实类别对应的文本特征 \(z_c\) 来配对。由于小数据集在高维流形上稀疏、轨迹近似互不相交，对给定 \(x_t\) 只存在唯一的 \(z\)，于是边际速度恰好退化为条件速度 \(v_t(x_t) = v_t(x_t|z_c)\)（论文 Proposition 1）。这等于偷偷把每个图像特征沿"指向正确类文本"的方向搬运，理论上保证 \(x_1 = z_c\)（Proposition 2），把对齐变成了天然的分类器。

2. Noise Augmentation（噪声增强）：用 Schrödinger 桥式扰动救活被耦合掏空的训练数据。 耦合强制虽优雅，却带来数据稀缺——每张图只配一个目标文本，可用训练对从随机配对的 \(N^2\) 量级骤降到 \(\frac{1}{N}\)，速度场定义域大片采样不到，给不出可靠指引。为此作者向中间特征 \(x_t\) 注入时变高斯噪声，得到增强特征 \(\hat{x}_t \sim \mathcal{N}(\hat{x}_t \mid x_t,\, t(1-t)\sigma^2(x_t))\)，其中 \(\sigma^2(x_t)\) 是 \(x_t\) 各维的标准差。这个 \(t(1-t)\) 形状的方差在轨迹两端为零、中间最大，灵感来自 Schrödinger 桥——给条件概率路径加非零方差能填满轨迹邻域，避免分布塌缩到低维流形（参考 Score-based 思路），从而学到更准、更鲁棒的速度估计。增强后的真值方向相应改为 \(v_t(\hat{x}_t|z_c) = \frac{z_c - \hat{x}_t}{1-t}\)。

3. Early Stopping Solver（早停求解器）：堵住"为对齐而对齐"在分类上的反噬。 推理时香草 FM 用 ODE 求解器（如欧拉法）迭代 \(x_{t+h} = x_t + h\cdot u_\theta^t(x_t)\) 走完整个 \([0,1]\) 得到 \(x_1\) 再分类。但作者观测到一个关键不一致：随 \(t\to 1\)，中间特征到目标文本的距离确实单调变小（越来越"像"文本），可分类准确率却先升后降——因为速度场不可能训得完美，后期反而会把部分特征推向错误类的文本（Figure 5）。既然分类只需特征"足够判别"而非"抵达目标分布"，作者就固定步长 \(h\)、只走常数步 \(M\)，在 \(\hat{T} = h\cdot M\) 处取中间特征 \(x_{\hat{T}}\) 做分类。\(M\) 通过验证集挑性能最高的值确定。这一停既省推理时间，又规避了后期搬错方向的风险。文中也指出"为每个样本找自适应的最优 \(t\)"是更优但留给未来的方向。

实验关键数据¶

主实验（11 数据集，基于 CLIP-LoRA + ViT-B/16）¶

FMA 在 CLIP-LoRA 提取的特征上再训一个速度场（默认 6 个 ResNet block、步长 \(h=0.1\)），不引入额外数据。在 1/4/16-shot 上对比 CoOp、CoCoOp、CLIP-Adapter、Tip-Adapter、PLOT++、KgCoOp、ProGrad、CLIP-LoRA 等 8 个 SOTA，FMA 在多数数据集取得最佳，且难数据集上增益远大于简单数据集，印证"跨模态分布越复杂越需要多步修正"的核心论点。

即插即用泛化（5 种 backbone × 难/易集平均，部分摘录）¶

Backbone	D(Adapt)	+FMA	E(Adapt)	+FMA	D(Harmonic)	+FMA
CLIP	48.9	68.9	78.8	87.6	48.9	57.5
CoOp	71.4	74.0	87.1	87.9	54.8	55.6
CoCoOp	64.1	68.5	85.0	87.3	55.9	58.2
CLIP-Adapter	62.4	67.9	86.6	87.4	53.6	56.0
CLIP-LoRA	76.1	77.8	88.2	88.8	57.1	58.4

挂在任意 backbone 上都涨，零样本 CLIP 上难集 adaptation 从 48.9→68.9（+20.0）最夸张；同时 generalization（跨数据集迁移）列基本不掉，说明 FMA 没牺牲泛化能力。

关键发现¶

难数据集是主战场：难集（Aircraft/EuroSAT/DTD/SUN/Cars）的相对增益普遍大于易集，多步修正对纠缠分布的价值被实证。
早停是必需而非可选：准确率随推理步数先升后降的曲线（Figure 5）直接证明，跑满 FM 全程会把特征搬向错误文本，ESS 的早停同时换来速度和精度。
方法无关性：从零样本 CLIP 到各类 PEFT 都能叠加增益，验证了"只需共享空间两组特征"的即插即用设计。

亮点与洞察¶

一针见血的统一视角：把 Prompt/Adapter/LoRA 三类看似不同的 PEFT 统一抽象为"一步特征移动"，并据此定位它们在难数据集上的失效根因，这个 framing 本身就很有解释力。
跨界迁移用得巧：Flow Matching 几乎只在生成领域用，作者把"多步比一步容易学"的核心直觉迁到判别式分类，并诚实地揪出生成与分类目标不一致这个隐患，再用早停补上。
理论与策略咬合：Coupling Enforcement 不只是工程技巧，而是通过定义 Dirac 形式的条件概率路径让边际速度=条件速度，从数学上保证了"搬到正确类"，两条 Proposition 把直觉落到了实处。

局限与展望¶

早停步数 \(M\) 靠验证集网格搜索，是全局常数而非样本自适应；作者也承认"为每个样本找最优 \(t\)"才是更优解，但留作未来工作。
耦合强制的非交叉假设依赖小数据：论证"轨迹互不相交→边际=条件"建立在高维稀疏、数据量小的前提上，数据量增大或类别极多时这一假设是否仍成立存疑。
额外训练成本：FMA 是在已训好的 PEFT 特征之上再训一个速度网络（6 个 ResNet block），相比纯一步 PEFT 多了一段训练与多步推理开销，论文虽用早停缓解但仍非零成本。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 PEFT 统一为"一步方法"并首次将 Flow Matching 引入少样本判别任务，视角与方法都新。
实验充分度: ⭐⭐⭐⭐ 11 数据集 × 多 shot × 5 backbone 的即插即用验证扎实，难/易分组对比有说服力；若有更多推理开销与自适应早停的分析会更完整。
写作质量: ⭐⭐⭐⭐ 动机递进清晰（一步→失效→多步→两坑→三设计），图示与两条 Proposition 配合到位。
价值: ⭐⭐⭐⭐ 即插即用、方法无关，对难数据集增益明显，对跨模态对齐的范式有启发意义。