Graph Attention Prototypical Network for Robust Few-Shot Classification¶

会议: CVPR 2026
论文: CVF Open Access
代码: 未开源（论文未提供代码链接）
领域: 少样本学习 / 图神经网络
关键词: 少样本分类, 标签噪声, 原型网络, 图注意力, 鲁棒学习

一句话总结¶

针对原型网络在支持集含错误标签时"原型漂移"导致精度骤降的问题，GAPNet 用"全局+局部双特征 → 伪标签引导建图 → 边感知图注意力 → 自适应抗噪原型生成"四步流水线显式建模类内/类间关系并动态压低噪声样本权重，在 4 个数据集 5-way 5-shot 任务上比 SOTA 高 3%~8%，且在 40% 标签噪声下衰减明显更慢。

研究背景与动机¶

领域现状：少样本学习（FSL）里基于度量的方法是强 baseline，其中原型网络（ProtoNet）的做法最直接——把每个类的支持样本特征取平均得到"类原型"，查询样本按到各原型的距离来分类。

现有痛点：这套做法对支持集里的标签噪声极度敏感。FSL 每类只有 K 个样本（如 5-shot 只有 5 个），只要混进一个被错标的样本，类原型就会被拉向错误类的特征中心——论文称之为"原型漂移"（prototype shift）。原型一漂，决策边界跟着扭曲，查询样本就被分错。噪声比例越高问题越严重：40% 噪声意味着每类 5 个里有 2 个标错。

核心矛盾：现有抗噪方法大多面向大规模数据集，靠样本多来"洗"掉噪声，在每类仅几样本的 FSL 场景失效；而基于图的 FSL 虽然能用样本间流形结构（比标签更可靠）来缓解，却普遍用名义标签或固定 k-NN 规则建图，结果是把噪声样本错连到它的名义类（错误边）、又把同名义类里距离很远的样本硬连（冗余边），反而把真实的类内/类间关系建坏了。

本文目标：在支持集有标签噪声的前提下，让模型既能从少量样本提取够用的判别特征，又能建出"只保留真正相似样本之间连接"的可靠关系图，还能在生成原型时主动把噪声样本的贡献压下去。

切入角度：作者的观察是——特征嵌入里"同类样本距离更小、噪声样本远离其名义类的干净样本"这一性质，比标签本身更可信。于是与其相信标签，不如相信特征相似度去建图、去加权。

核心 idea：用"伪标签引导的类感知图 + 边可靠性打分 + 距离自适应的原型加权"三件套，把噪声样本在关系建模和原型生成两个环节同时削弱，从根上阻止原型漂移。

方法详解¶

整体框架¶

GAPNet（Graph Attention Prototypical Network）整体是一条串行流水线，输入是一个 episode 的支持集 \(S\) 与查询集 \(Q\) 图像，输出是查询样本的类别预测。它由三大核心模块串起来：先做特征提取（CNN+SE 抽局部判别特征，GABL 抽全局特征，注意力融合），再做动态类感知关系建模（PLGC 伪标签引导建图 + EAGAT 边感知图注意力，分类内/类间两路），最后用 ANRPG 从图精炼后的特征生成抗噪原型，按查询样本到各原型的负欧氏距离 softmax 出类别。三个模块分别从"特征—关系—原型"三个层次抑制噪声，环环相扣。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["支持集 + 查询集图像"] --> B["GABL 全局特征<br/>BLS 随机映射 + 组注意力<br/>与 CNN+SE 局部特征融合"]
    B --> C["PLGC 伪标签引导建图<br/>top-k 类内/类间边 + 边注意力打分"]
    C --> D["EAGAT 边感知图注意力<br/>类内/类间双分支消息传递"]
    D --> E["ANRPG 抗噪原型生成<br/>距离加权 + 类内注意力 + PCR 损失"]
    E --> F["查询样本按最近原型分类"]

关键设计¶

1. GABL：用"广度学习 + 组注意力"补一路抗噪的全局特征

在标签噪声下，单靠 ConvNet-4 抽的局部特征容易"特征稀疏"、判别力不够，噪声一来更不稳。GABL（Group Attention Broad Learning）的作用是再补一路全局特征。它基于广度学习系统（BLS）——一个结构扁平、参数少的网络：先把展平的局部特征 \(\mathbf{F}_{\text{local}}\) 经随机初始化并固定的权重映射成 \(p\) 组"特征映射节点" \(\mathbf{Z}_i = \varphi_i(\mathbf{F}_{\text{local}}\mathbf{W}_f^i + \beta_f^i)\)，再扩展成 \(q\) 组"增强节点" \(\mathbf{H}_j = \phi_j(\mathbf{Z}\mathbf{W}_e^j + \beta_e^j)\)，拼接后投影出全局特征。作者在两处做了改动让它适配 FSL：一是把部分变换权重设为可训练、部分固定（固定比例由 \(\gamma\) 控制），在"表达能力"与"过拟合风险"间取平衡（消融显示去掉 GABL 后干净场景反而跌 >10%，正是过拟合所致）；二是加了组级注意力 \(\mathbf{a}_f^i = \mathcal{F}_{GA}(\mathbf{Z}_i)\)，对每组节点动态放大有用、压制噪声，使全局特征写成 \(\mathbf{F}_{\text{global}} = [\mathbf{a}_f^1\mathbf{Z}_1, \cdots, \mathbf{a}_e^q\mathbf{H}_q]\mathbf{W}_{\text{bls}}\)。局部与全局特征最后用一个 softmax 注意力的融合模块按可靠性加权拼成 \(\mathbf{F}_{\text{ff}}\)。

2. PLGC：用伪标签 + top-k + 边注意力建"只连真相似"的类内/类间图

关系建模在标签噪声下的核心难点是"区分名义类关系与真实类关系"。PLGC（Pseudo-Label Guided Graph Constructor）不直接信标签。由于查询样本无标签，它先按到初始支持原型的距离给查询样本打伪标签 \(\hat{y}_q^i = \arg\max_c \mathcal{A}(\mathbf{f}_q^i, \mathbf{p}_c)\)（相似度 \(\mathcal{A}(x,y)=x^\top y\)，\(\mathbf{p}_c\) 为类 \(c\) 支持特征均值），从而能做"类感知"的连边。为避免把噪声样本乱连，它只对最相似的 top-k 个样本建边（类内、类间各取 \(\eta_{\text{intra}}=\eta_{\text{inter}}=5\)），得到类内、类间邻接矩阵 \(\mathbf{R}_{\text{intra}}\)、\(\mathbf{R}_{\text{inter}}\)，从源头滤掉错误边与冗余边。再进一步，一个边注意力模块对每条边算可靠性：以边两端特征拼接 \(\mathbf{E}_f^t = [\mathbf{F}_{\text{ff}}(I_{\text{src}}^t) \mid \mathbf{F}_{\text{ff}}(I_{\text{tgt}}^t)]\) 加上边类型嵌入（类内=0、类间=1），过两层 FC + sigmoid 得 \(\alpha^t = \mathcal{F}_{EA}(\mathbf{E}_f^t, \mathbf{E}_t^t)\)——\(\alpha\) 高表示特征距离小、关系可靠，\(\alpha\) 低则大概率是噪声边。

3. EAGAT：把"边类型 + 可靠性"喂进图注意力，双分支分别传播

普通 GAT 对所有边一视同仁，忽略了"类内边该强调一致性/平滑、类间边该强调判别性/边界"这一本质差异，在噪声场景尤其吃亏。EAGAT（Edge-Aware Graph Attention）把 PLGC 给出的边可靠性 \(\alpha_t\) 和类内/类间邻接矩阵 \(\mathbf{R}_t\) 注入标准 GAT，并用两路并行分支分别处理类内图和类间图，让可靠边主导消息传递、噪声边被忽略：\(\mathbf{F}_{\text{gf}}^t = \text{ReLU}(\text{LN}(\text{GAT}(\mathbf{F}_{\text{ff}}, \mathbf{R}_t, \alpha_t) + \mathbf{F}_{\text{ff}}))\)（残差 + LayerNorm 稳训练）。两分支输出再用与第 1 步同款的注意力融合模块动态加权，平衡"类内相似"与"类间不相似"两种信号。消融里去掉 PLGC+EAGAT 掉点最猛（CIFAR-FS 干净从 75.71→65.96），说明显式建可靠类内/类间关系是 GAPNet 抗噪的最关键一环。

4. ANRPG：距离加权 + 类内注意力 + 对比正则，三招防原型漂移

即便特征和关系都处理过，简单平均生成原型仍会被残留噪声带偏。ANRPG（Adaptive Noise-Robust Prototype Generator）三管齐下。其一距离自适应加权：先用类内均值算初始原型 \(\mathbf{p}_c^{\text{init}}\)，量每个样本到类心的欧氏距离 \(d_i = \|\mathbf{f}_i - \mathbf{p}_c^{\text{init}}\|_2\)，用指数函数 \(\varpi_i = \exp(-\kappa d_i / d_{\max})\) 给近类心的样本更高权重（\(\kappa\) 控制衰减速度，离群的噪声样本距离大、权重被压低）。其二类内注意力聚合：把每个样本特征按类内相似度对邻居加权重组 \(\dot{\mathbf{f}}_i = \sum_{\mathbf{f}_j \in \mathcal{S}_c} \text{Softmax}(\mathcal{A}(\mathbf{f}_i, \mathbf{f}_j))\,\mathbf{f}_j\)，让干净样本进一步主导原型，精炼后取均值得 \(\mathbf{p}_c^*\)。其三原型对比正则（PCR）损失：鼓励不同类原型互相可分

\[\mathcal{L}_{\text{PCR}} = -\frac{1}{C}\sum_{c=1}^C \log \frac{\exp(\mathcal{A}(\mathbf{p}_c^*, \mathbf{p}_c^*)/\tau)}{\sum_{k=1}^C \exp(\mathcal{A}(\mathbf{p}_c^*, \mathbf{p}_k^*)/\tau)}\]

（⚠️ 分子写成原型自相似 \(\mathcal{A}(\mathbf{p}_c^*,\mathbf{p}_c^*)\)，形式以原文为准；直觉是 InfoNCE 式地把同类原型当正、其他原型当负来拉开类间距离。）即便标签有噪声，这一项也能强化原型的语义区分度。

损失函数 / 训练策略¶

总损失为交叉熵加上原型对比正则：\(\mathcal{L} = \mathcal{L}_{\text{CE}} + \lambda \mathcal{L}_{\text{PCR}}\)，\(\lambda=0.01\)。优化器 AdamW（weight decay 0.02，初始学习率 \(10^{-4}\)），训 300 epoch、每 epoch 200 个随机 episode，统一在 5-way 5-shot、15 query 设置下、单张 RTX 3070 Ti 训练。关键超参：GABL 固定节点率 \(\gamma=0.5\)、输出维 \(u=200\)；PLGC 类内/类间近邻数均为 5；ANRPG 衰减因子 \(\kappa=5\)。论文还把标签噪声细分为三类：IE（同 episode 不同类的错标）、OOE（同数据集不同 episode）、OOD（来自外部数据集），分布漂移依次加重，分别在训练与评估阶段以 20%/40% 比例注入。

实验关键数据¶

主实验¶

4 个基准（CIFAR-FS、miniImageNet、tieredImageNet、CUB-200-2011）、5-way 5-shot、对比 8 个方法，每个精度由 10000 个随机 episode 平均。干净数据集结果（Acc.%）：

数据集	ProtoNet	APPN（次优梯队）	BiFRN	GAPNet	对次优提升
CIFAR-FS	68.62	71.21	70.56	75.71	+4.5%
miniImageNet	60.01	58.45	63.15	65.16	+1.99%
tieredImageNet	63.62	66.82	67.58	69.22	+2.4%
CUB-200-2011	71.51	76.67	80.02	80.63	+0.41%

标签噪声下（5-way 5-shot，部分代表值 Acc.%）：

噪声设置	ProtoNet	APPN	GAPNet
CIFAR-FS · IE-40%	44.76	50.49	58.04
miniImageNet · IE-40%	40.57	43.73	47.33
CUB-200-2011 · IE-40%	48.80	52.96	64.26
CIFAR-FS · OOE-40%	56.24	60.08	67.91
CIFAR-FS · OOD-40%	59.36	66.24	70.26

在 CIFAR-FS 40% IE 噪声下 GAPNet 比 ProtoNet 高 13.28 个百分点（58.04 vs 44.76）；用鲁棒性分数 \(\zeta(R)=\text{Acc}(R)/\text{Acc}(0)\) 衡量，CIFAR-FS 20% IE 时 GAPNet 95.15% vs ProtoNet 91.90%、APPN 92.53%，CUB 40% IE 时 GAPNet 79.70% vs ProtoNet 68.24%、APPN 69.08%，衰减明显更慢。（⚠️ 原文正文一处把这 13.28% 提升记到 miniImageNet 名下，但按表 2 数值实为 CIFAR-FS，此处以表格为准。）

消融实验¶

CIFAR-FS 上去掉各模块（Acc.%，clean / IE-20%；映射依原文表 5 与描述对应，个别行归属为近似）：

配置	clean	IE-20%	说明
Full model	75.71	72.04	完整模型
w/o SE	74.26	72.04	SE 仅辅助，波动轻微
w/o GABL	62.98	69.37	干净场景暴跌 >12%（过拟合）
w/o ANRPG	75.57	70.92	噪声场景约掉 1%
w/o PLGC+EAGAT	65.96	61.84	掉点最猛，关系建模最关键

关键发现¶

关系建模是抗噪主力：去掉 PLGC+EAGAT 在所有数据集掉点最大，作者结论是"显式建可靠的类内/类间关系"是 GAPNet 的核心。
GABL 主要防过拟合：去掉它噪声场景掉得不多，干净场景却跌 >10%，说明全局特征是在缓解 FSL 的特征稀疏与过拟合。
三类噪声破坏力 IE > OOE > OOD：IE 噪声与目标共享域、上下文与特征分布，最容易误导决策边界；OOD 来自完全不同域、纹理差异大，几乎不影响原型，破坏最小；噪声比例升到 40% 时这种趋势进一步放大。
超参敏感性：\(\lambda\) 在 0.01 最优，>0.1 会因过度约束原型对比关系而骤降；固定节点率 \(\gamma>0.5\) 后精度更明显下滑；类内/类间近邻数取 5 最优。

亮点与洞察¶

"不信标签、信特征相似度"贯穿全程：从 PLGC 用 top-k 相似度建边、到 ANRPG 用到类心距离加权，整套设计的统一哲学是把标签当弱信号、把特征几何当强信号，这正切中 FSL 标签噪声的命门。
类内/类间边分两路处理很巧妙：类内边求平滑一致、类间边求判别边界，本就该用不同的注意力对待，EAGAT 把这点显式化，比一刀切的标准 GAT 更契合任务结构。
把噪声压制拆到三个层次（特征 GABL / 关系 PLGC+EAGAT / 原型 ANRPG）是可迁移的设计范式：任何"对脏样本敏感"的度量学习任务，都可以照此在多个环节冗余地削弱噪声，而非寄望单点解决。
细分三类标签噪声（IE/OOE/OOD）并给出破坏力排序，为后续抗噪 FSL 提供了更细的评测协议。

局限与展望¶

骨干较弱：固定用 ConvNet-4 以便公平对比，未验证在 ResNet 等更强骨干或大模型特征下，这套图+原型抗噪机制是否仍有同等增益。
模块偏重、超参偏多：GABL、PLGC、EAGAT、ANRPG 串起来引入 \(\gamma\)、\(\kappa\)、\(\eta\)、\(\lambda\)、\(\tau\) 等多个超参，论文也显示对 \(\lambda\)、\(\gamma\) 较敏感，实际部署调参成本不低；论文未报告推理/训练开销。
仅验证 5-way 5-shot：1-shot（无法做类内加权/类内注意力，因每类仅 1 样本）等更极端低样本设置未覆盖，PCR 损失的自相似分子写法也值得核实。
PCR 损失形式存疑：分子 \(\mathcal{A}(\mathbf{p}_c^*,\mathbf{p}_c^*)\) 为原型自相似，与常见对比损失的"正样本对"写法不同，建议对照原文公式确认（⚠️ 以原文为准）。

评分¶

新颖性: ⭐⭐⭐⭐ 把伪标签引导建图、边可靠性打分与距离自适应原型加权三件套系统组合，专攻 FSL 标签噪声，组合创新清晰。
实验充分度: ⭐⭐⭐⭐ 4 数据集 × 3 类噪声 × 2 比例 + 消融 + 超参敏感性，覆盖全面；但仅 ConvNet-4 / 5-way 5-shot，缺更强骨干与 1-shot。
写作质量: ⭐⭐⭐⭐ 动机与模块职责讲得清楚；个别数值归属（13.28% 记错数据集）与 PCR 公式写法需读者核对。
价值: ⭐⭐⭐⭐ 抗噪 FSL 是实用刚需，三层抗噪范式可迁移，鲁棒性提升明显。