Low-Rank Few-Shot Node Classification by Node-Level Graph Diffusion¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kXhh2lToaR
代码: https://github.com/Statistical-Deep-Learning/LR-FGDM
领域: 图学习 / 少样本节点分类 / 图扩散生成
关键词: Few-Shot Node Classification, Graph Diffusion Model, Latent Diffusion, Low-Rank Regularization, Transductive Classifier
一句话总结¶
用一个节点级图扩散模型 FGDM 合成"以假乱真"的支持集节点与它们的连边来扩充 few-shot 任务,再配上一个由低频特性(LFP)启发、有泛化界保证的低秩转导分类器来抵抗扩散噪声,把少样本节点分类做到了 SOTA。
研究背景与动机¶
- 领域现状:少样本节点分类(FSNC)要在每个新类只有 k 个标注节点的情况下做分类,主流做法是 meta-learning(ProtoNet/G-Meta/TENT)或自监督图对比学习(COSMIC、COLA),后者即使只用无标注数据也能取得最好成绩。
- 现有痛点:所有方法都被有限的支持集大小卡住。mix-up、随机扰动这类增广只能带来边际提升,且给合成节点配边时往往是"借用真实节点的邻居",造不出忠实的图结构;而扩散模型虽强,却几乎只做图级(graph-level)生成,不支持节点/边级的结构化合成;用 GAN 做节点增广又有训练不稳、分布对不齐的老问题。
- 核心矛盾:(1) 想用扩散模型补支持集,但扩散过程天然带噪——图 1 显示合成节点超过 \(3|V_{sup}|\) 后精度反而暴跌;(2) 想做条件生成,但 FSNC 的测试类与训练类不相交,像 DoG 那样用类标签做条件根本拿不到测试期标签,退而用伪标签又会语义漂移。
- 本文目标:造一个能在节点级忠实合成"支持节点 + 连边"的图扩散生成器,并设计一个对生成噪声鲁棒、还能给出理论保证的 few-shot 分类器。
- 核心 idea:生成 + 去噪两手抓——用 FGDM(层次图自编码器 HGAE + 隐扩散 LDM,以原型而非类标签做条件)合成增广图;再用 低秩转导分类器(截断核范数正则)只保留节点表征的低频/低秩部分,把扩散引入的高秩噪声滤掉,并用泛化界证明"降核复杂度 ⇒ 更紧测试损失上界"。
方法详解¶
整体框架¶
LR-FGDM 是一个即插即用模块,套在现有 FSNC 方法(COSMIC、COLA)外面,分三步走:先在原图上训练 FGDM(HGAE 学隐空间 + LDM 学生成),再用它生成合成支持节点及连边、注入原图得到增广图,最后在增广支持集上训练一个低秩转导分类器出结果。
flowchart LR
A[原图 G<br/>节点+边] --> B[HGAE 编码<br/>+原型正则]
B --> C[LDM 隐扩散<br/>以原型为条件]
C --> D[生成合成支持节点<br/>+层次重建连边]
D --> E[增广图 G_aug]
E --> F[FSNC 编码器<br/>COSMIC/COLA]
F --> G[低秩转导分类器<br/>截断核范数正则]
G --> H[可选 LRA 层<br/>进一步降核复杂度]
H --> I[少样本分类结果]
关键设计¶
1. 层次图自编码器 HGAE:把节点和边一起压进语义化隐空间。 要让 LDM 学的是"特征与结构的真实联合分布",前提是有一个好的隐空间。HGAE 先用 MLP 把节点属性编成 \(f(X_i)\),再给邻居加位置嵌入 \(X'_j = X_j + \mathrm{pos}(j)\)、用两层 GAT 聚合成 \(Z'_i\),拼接后投到低维隐空间 \(Z_i = f'(Z'_i \| f(X_i))\)。重点在于为它加了一个原型正则 \(L_{proto} = \sum_i \|Z_i - p_{\pi(i)}\|^2\),其中 \(p_{\pi(i)}\) 是节点 \(v_i\) 所属簇的原型(由半监督 K-means 得到,既用标注节点引导聚类又纳入无标注节点提升泛化)。这一项逼着同簇节点向共享原型靠拢,让隐空间有清晰的类内紧凑/类间可分结构——这正是后面用原型做条件能成立的根基。
2. 层次化边重建:绕开 GAE 重建边的二次复杂度。 常规 GAE 解码邻接矩阵是 \(O(N'^2)\),对全图不可行。本文借助原型聚类做两级解码:先用一个 MLP 重建节点的簇间邻居图 \(\hat{C}_i\)(\(C_{ik}=1\) 表示 \(v_i\) 与簇 \(k\) 有连接),再把命中的簇索引经 Classifier-Free Guidance 式的类条件嵌入 \(g(k)\) 与 \(Z_i\) 拼接,解码簇内邻居图 \(\hat{M}_{ik} = g'(Z_i \| g(k))\)。因为同原型簇的节点隐特征相近、本就倾向互连,这种"先定簇、再定簇内具体邻居"的分层解码既高效又结构合理。HGAE 总损失把三项加在一起: $\(L_{HGAE} = \underbrace{\|X-\hat{X}\|_2^2}_{\text{节点重建}} + \underbrace{\|C-\hat{C}\|_2^2 + \|M-\hat{M}\|_2^2}_{\text{层次边重建}} + L_{proto}\)$
3. 以原型为条件的隐扩散 LDM:避开"测试类标签不可见"的死结。 传统类条件扩散(含 DoG)拿类标签做条件,但 FSNC 里测试类是训练时没见过的新类,扩散模型在测试期无法用这些标签。本文的解法是:既然 HGAE 已经把每个节点的隐表征聚到了原型周围,那就直接用原型表征(簇内隐表征均值)作为连续的、语义有意义的条件信号,在 CFG 框架下喂给 LDM。生成时取支持节点的簇标签 → 拿对应原型 → 条件生成合成节点 \(X_{syn}\) 及连边 \(A_{syn}\),拼回原图得到增广邻接 \(A_{aug} = \begin{bmatrix} A & A_{syn} \\ A_{syn}^\top & 0 \end{bmatrix}\),对每个真实支持节点生成 \(q\) 个合成节点(\(q\) 由交叉验证选)。这样既做了条件生成、又完全不碰类标签。
4. 低秩转导分类器:用 LFP 把扩散噪声从表征里"切"掉。 扩散是随机过程,合成节点难免有语义错配的噪声。作者观察到低频特性(LFP):真值标签的投影主要集中在特征 Gram 矩阵 \(K = H_{FS}H_{FS}^\top/N\) 的前几个特征向量上。于是在转导分类器损失里显式加截断核范数 \(\|K\|_{r_0} = \sum_{i=r_0+1}^N \hat{\lambda}_i\) 当低秩正则: $\(\min_W \frac{1}{m}\sum_{i:v'_i\in V_L} \mathrm{KL}(y_i, [\mathrm{softmax}(H_{FS}W)]_i) + \tau\|K\|_{r_0}\)$ 它逼着分类只用表征的低秩(低频)部分,把高秩部分的噪声丢弃,从而对合成结构的噪声鲁棒。理论上(Theorem A.1)这等价于降低核复杂度(KC),进而收紧测试损失上界——给"低秩=更好泛化"提供了 FSNC 转导设定下的泛化界证明。
5. LRA 层:用低秩自注意力把核复杂度再压一档。 受定理启发,作者再加一个 LR-Attention 层:\(F = BH_{FS}\),注意力矩阵 \(B = K/\hat{\lambda}_1\)。由于 \(d=256 \ll N\),\(B\) 天然低秩,\(BH_{FS} = H_{FS}H_{FS}^\top H_{FS}/\hat{\lambda}_1\) 可先算 \(d\times d\) 的 \(H_{FS}^\top H_{FS}\) 再相乘,复杂度只要 \(O(Nd^2)\),不必显式构造 \(N\times N\) 稠密注意力。新表征的 Gram 矩阵 \(K_F = K^3/\hat{\lambda}_1^2\),其特征值 \(\lambda_i = \hat{\lambda}_i^3/\hat{\lambda}_1^2 \le \hat{\lambda}_i\),所以 KC 必然不增、上界更紧——在 \(F\) 上再训一个同款低秩分类器即为 LRA-LR-FGDM,性能稳超 LR-FGDM。
实验关键数据¶
主实验表格¶
8 个数据集(CoraFull/ogbn-arxiv/Coauthor-CS/DBLP/Roman-Empire/Amazon-Computers/Amazon-Photo/Citeseer),把 LR-FGDM/LRA-LR-FGDM 套在 COSMIC、COLA 上,20 次独立运行均值。节选 5-way 5-shot:
| 方法 | CoraFull | ogbn-arxiv | Coauthor-CS | DBLP |
|---|---|---|---|---|
| STAR (Liu 2025a) | 87.31 | 66.98 | 87.60 | 87.10 |
| DoG (Wang 2025b) | 86.47 | 65.69 | 87.35 | 87.59 |
| COLA (baseline) | 87.83 | 67.52 | 87.54 | 87.23 |
| COLA (LR-FGDM) | 89.66 | 69.63 | 89.83 | 89.51 |
| COLA (LRA-LR-FGDM) | 90.32 | 70.22 | 90.39 | 90.07 |
LR-FGDM 在所有数据集都稳定提升 COSMIC/COLA(如 Coauthor-CS 5-way 5-shot 比 COLA 提升 2.29%),LRA 变体再进一步,全面超过现有 SOTA 与扩散基线 DoG。
消融实验表格¶
5-way 5-shot 下拆 COLA (LR-FGDM) 的两个正则项:
| 变体 | CoraFull | ogbn-arxiv | Coauthor-CS | DBLP |
|---|---|---|---|---|
| COLA (baseline) | 87.83 | 67.52 | 87.54 | 87.23 |
| 去掉低秩+原型正则 | 88.12 | 67.91 | 87.93 | 87.55 |
| 去掉低秩正则 | 88.74 | 68.60 | 88.72 | 88.28 |
| 去掉原型正则 | 88.79 | 68.45 | 89.02 | 88.64 |
| LR-FGDM(全) | 89.66 | 69.63 | 89.83 | 89.51 |
| LRA-LR-FGDM | 90.32 | 70.22 | 90.39 | 90.07 |
关键发现¶
- 只加合成节点不够、要配低秩去噪:图 1 显示合成节点 \(\le 3|V_{sup}|\) 时有增益,超过则因扩散噪声暴跌;加了低秩正则后即便合成节点很多也能持续受益。
- 两个正则都有用且互补:单独去掉低秩或原型正则都掉点,去掉两者退化到接近 baseline,说明"造得准(原型条件)"和"用得稳(低秩)"缺一不可。
- KC 与上界可量化验证:附录 Table 9 显示 LR-FGDM 比无正则基线的核复杂度和测试损失上界都更低,LRA-LR-FGDM 再降一档,理论预测与实测一致。
- 生成忠实度可度量:提出 Frechet Node Distance(FND)/ Frechet Edge Distance(FED)验证合成节点与连边的真实性,优于现有 shot 增广方法。
亮点与洞察¶
- 把"扩散增广"和"去噪正则"耦合成一个闭环:扩散必然带噪是公认难题,本文不回避而是用 LFP/低秩在分类侧主动切除噪声,并给出泛化界——生成模型与统计学习理论难得地咬合在一起。
- 原型条件巧解 FSNC 的"标签不相交"死结:用 HGAE 联合学的连续原型替代离散类标签做扩散条件,既能条件生成又天然适配未见新类,比 DoG 的伪标签方案干净得多。
- 层次边重建把 GAE 的 \(O(N^2)\) 降下来,让节点级图扩散在真实大图上变得可行,是工程上的关键一步。
- LRA 层几乎零成本再收紧上界:\(K_F = K^3/\hat{\lambda}_1^2\) 这个简洁的代数关系直接保证 KC 单调不增,理论优雅且 \(O(Nd^2)\) 高效。
局限与展望¶
- 多阶段管线偏重:HGAE → LDM → 生成 → 转导分类器四段式训练,超参(\(q\)、\(r_0\)、\(K\)、\(\tau\))多且依赖交叉验证,落地调参成本不低。
- 依赖底座 FSNC 方法:作为 plug-in,增益建立在 COSMIC/COLA 之上,换个弱底座能涨多少未充分探讨。
- 同质图为主:仅在 Roman-Empire 一个异质图上验证,原型聚类假设"同簇节点倾向互连"在强异质图上可能不成立。
- 扩散生成开销:虽有层次边重建提效,但在更大规模图(百万级节点)上的端到端可扩展性仍待检验。
相关工作与启发¶
- FSNC:从 meta-learning(ProtoNet、Meta-GNN、G-Meta、TENT)到图对比学习(COSMIC、COLA、STAR),本文沿着"无标签训练编码器更利于泛化到新类"这条线,并补上"支持集太小"这块短板。
- 图扩散与生成增广:相对 GDSS/DiGress/SaGess 等图级生成、以及 GAN 系的节点增广,FGDM 是少数把扩散用于 FSNC 节点级结构合成的工作;与 DoG 最像但用原型条件 + 新原型正则区分开。
- 低频特性与低秩:把 LFP/截断核范数从一般深度学习引到 FSNC 转导分类,并配套泛化界,给"生成增广必须搭配去噪正则"提供了一个可迁移的范式——任何用合成数据补训练集的场景都可借鉴这种"低秩切噪 + 泛化界"思路。
评分¶
- 新颖性: ⭐⭐⭐⭐ 节点级图扩散 + 原型条件 + 低秩去噪三者组合是新颖的,尤其原型条件解 FSNC 标签不相交、LFP 引入转导分类有理论支撑。
- 实验充分度: ⭐⭐⭐⭐ 8 数据集 × 4 设定 × 20 次运行,消融、KC 验证、FND/FED 忠实度、异质图、t-SNE、敏感性分析齐全,附录详实。
- 写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法的逻辑链清晰,图 1 用一张曲线点出"加节点会崩、低秩能救"很有说服力;公式与符号略密集。
- 价值: ⭐⭐⭐⭐ 把"扩散增广 + 低秩去噪"做成可即插即用模块且有理论保证,对少样本图学习与更广义的生成数据增广都有借鉴意义。