Low-Rank Few-Shot Node Classification by Node-Level Graph Diffusion¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kXhh2lToaR
代码: https://github.com/Statistical-Deep-Learning/LR-FGDM
领域: 图学习 / 少样本节点分类 / 图扩散生成
关键词: Few-Shot Node Classification, Graph Diffusion Model, Latent Diffusion, Low-Rank Regularization, Transductive Classifier

一句话总结¶

用一个节点级图扩散模型 FGDM 合成"以假乱真"的支持集节点与它们的连边来扩充 few-shot 任务，再配上一个由低频特性（LFP）启发、有泛化界保证的低秩转导分类器来抵抗扩散噪声，把少样本节点分类做到了 SOTA。

研究背景与动机¶

领域现状：少样本节点分类（FSNC）要在每个新类只有 k 个标注节点的情况下做分类，主流做法是 meta-learning（ProtoNet/G-Meta/TENT）或自监督图对比学习（COSMIC、COLA），后者即使只用无标注数据也能取得最好成绩。
现有痛点：所有方法都被有限的支持集大小卡住。mix-up、随机扰动这类增广只能带来边际提升，且给合成节点配边时往往是"借用真实节点的邻居"，造不出忠实的图结构；而扩散模型虽强，却几乎只做图级（graph-level）生成，不支持节点/边级的结构化合成；用 GAN 做节点增广又有训练不稳、分布对不齐的老问题。
核心矛盾：(1) 想用扩散模型补支持集，但扩散过程天然带噪——图 1 显示合成节点超过 $3|V_{sup}|$ 后精度反而暴跌；(2) 想做条件生成，但 FSNC 的测试类与训练类不相交，像 DoG 那样用类标签做条件根本拿不到测试期标签，退而用伪标签又会语义漂移。
本文目标：造一个能在节点级忠实合成"支持节点 + 连边"的图扩散生成器，并设计一个对生成噪声鲁棒、还能给出理论保证的 few-shot 分类器。
核心 idea：生成 + 去噪两手抓——用 FGDM（层次图自编码器 HGAE + 隐扩散 LDM，以原型而非类标签做条件）合成增广图；再用 低秩转导分类器（截断核范数正则）只保留节点表征的低频/低秩部分，把扩散引入的高秩噪声滤掉，并用泛化界证明"降核复杂度 ⇒ 更紧测试损失上界"。

方法详解¶

整体框架¶

LR-FGDM 是一个即插即用模块，套在现有 FSNC 方法（COSMIC、COLA）外面，分三步走：先在原图上训练 FGDM（HGAE 学隐空间 + LDM 学生成），再用它生成合成支持节点及连边、注入原图得到增广图，最后在增广支持集上训练一个低秩转导分类器出结果。

flowchart LR
    A[原图 G<br/>节点+边] --> B[HGAE 编码<br/>+原型正则]
    B --> C[LDM 隐扩散<br/>以原型为条件]
    C --> D[生成合成支持节点<br/>+层次重建连边]
    D --> E[增广图 G_aug]
    E --> F[FSNC 编码器<br/>COSMIC/COLA]
    F --> G[低秩转导分类器<br/>截断核范数正则]
    G --> H[可选 LRA 层<br/>进一步降核复杂度]
    H --> I[少样本分类结果]

关键设计¶

1. 层次图自编码器 HGAE：把节点和边一起压进语义化隐空间。 要让 LDM 学的是"特征与结构的真实联合分布"，前提是有一个好的隐空间。HGAE 先用 MLP 把节点属性编成 $f(X_i)$，再给邻居加位置嵌入 $X'_j = X_j + \mathrm{pos}(j)$、用两层 GAT 聚合成 $Z'_i$，拼接后投到低维隐空间 $Z_i = f'(Z'_i \| f(X_i))$。重点在于为它加了一个原型正则 $L_{proto} = \sum_i \|Z_i - p_{\pi(i)}\|^2$，其中 $p_{\pi(i)}$ 是节点 $v_i$ 所属簇的原型（由半监督 K-means 得到，既用标注节点引导聚类又纳入无标注节点提升泛化）。这一项逼着同簇节点向共享原型靠拢，让隐空间有清晰的类内紧凑/类间可分结构——这正是后面用原型做条件能成立的根基。

2. 层次化边重建：绕开 GAE 重建边的二次复杂度。 常规 GAE 解码邻接矩阵是 $O(N'^2)$，对全图不可行。本文借助原型聚类做两级解码：先用一个 MLP 重建节点的簇间邻居图 $\hat{C}_i$（$C_{ik}=1$ 表示 $v_i$ 与簇 $k$ 有连接），再把命中的簇索引经 Classifier-Free Guidance 式的类条件嵌入 $g(k)$ 与 $Z_i$ 拼接，解码簇内邻居图 $\hat{M}_{ik} = g'(Z_i \| g(k))$。因为同原型簇的节点隐特征相近、本就倾向互连，这种"先定簇、再定簇内具体邻居"的分层解码既高效又结构合理。HGAE 总损失把三项加在一起： $$L_{HGAE} = \underbrace{\|X-\hat{X}\|_2^2}_{\text{节点重建}} + \underbrace{\|C-\hat{C}\|_2^2 + \|M-\hat{M}\|_2^2}_{\text{层次边重建}} + L_{proto}$$

3. 以原型为条件的隐扩散 LDM：避开"测试类标签不可见"的死结。 传统类条件扩散（含 DoG）拿类标签做条件，但 FSNC 里测试类是训练时没见过的新类，扩散模型在测试期无法用这些标签。本文的解法是：既然 HGAE 已经把每个节点的隐表征聚到了原型周围，那就直接用原型表征（簇内隐表征均值）作为连续的、语义有意义的条件信号，在 CFG 框架下喂给 LDM。生成时取支持节点的簇标签 → 拿对应原型 → 条件生成合成节点 $X_{syn}$ 及连边 $A_{syn}$，拼回原图得到增广邻接 $A_{aug} = \begin{bmatrix} A & A_{syn} \\ A_{syn}^\top & 0 \end{bmatrix}$，对每个真实支持节点生成 $q$ 个合成节点（$q$ 由交叉验证选）。这样既做了条件生成、又完全不碰类标签。

4. 低秩转导分类器：用 LFP 把扩散噪声从表征里"切"掉。 扩散是随机过程，合成节点难免有语义错配的噪声。作者观察到低频特性（LFP）：真值标签的投影主要集中在特征 Gram 矩阵 $K = H_{FS}H_{FS}^\top/N$ 的前几个特征向量上。于是在转导分类器损失里显式加截断核范数 $\|K\|_{r_0} = \sum_{i=r_0+1}^N \hat{\lambda}_i$ 当低秩正则： $$\min_W \frac{1}{m}\sum_{i:v'_i\in V_L} \mathrm{KL}(y_i, [\mathrm{softmax}(H_{FS}W)]_i) + \tau\|K\|_{r_0}$$ 它逼着分类只用表征的低秩（低频）部分，把高秩部分的噪声丢弃，从而对合成结构的噪声鲁棒。理论上（Theorem A.1）这等价于降低核复杂度（KC），进而收紧测试损失上界——给"低秩=更好泛化"提供了 FSNC 转导设定下的泛化界证明。

5. LRA 层：用低秩自注意力把核复杂度再压一档。 受定理启发，作者再加一个 LR-Attention 层：$F = BH_{FS}$，注意力矩阵 $B = K/\hat{\lambda}_1$。由于 $d=256 \ll N$，$B$ 天然低秩，$BH_{FS} = H_{FS}H_{FS}^\top H_{FS}/\hat{\lambda}_1$ 可先算 $d\times d$ 的 $H_{FS}^\top H_{FS}$ 再相乘，复杂度只要 $O(Nd^2)$，不必显式构造 $N\times N$ 稠密注意力。新表征的 Gram 矩阵 $K_F = K^3/\hat{\lambda}_1^2$，其特征值 $\lambda_i = \hat{\lambda}_i^3/\hat{\lambda}_1^2 \le \hat{\lambda}_i$，所以 KC 必然不增、上界更紧——在 $F$ 上再训一个同款低秩分类器即为 LRA-LR-FGDM，性能稳超 LR-FGDM。

实验关键数据¶

主实验表格¶

8 个数据集（CoraFull/ogbn-arxiv/Coauthor-CS/DBLP/Roman-Empire/Amazon-Computers/Amazon-Photo/Citeseer），把 LR-FGDM/LRA-LR-FGDM 套在 COSMIC、COLA 上，20 次独立运行均值。节选 5-way 5-shot：

方法	CoraFull	ogbn-arxiv	Coauthor-CS	DBLP
STAR (Liu 2025a)	87.31	66.98	87.60	87.10
DoG (Wang 2025b)	86.47	65.69	87.35	87.59
COLA (baseline)	87.83	67.52	87.54	87.23
COLA (LR-FGDM)	89.66	69.63	89.83	89.51
COLA (LRA-LR-FGDM)	90.32	70.22	90.39	90.07

LR-FGDM 在所有数据集都稳定提升 COSMIC/COLA（如 Coauthor-CS 5-way 5-shot 比 COLA 提升 2.29%），LRA 变体再进一步，全面超过现有 SOTA 与扩散基线 DoG。

消融实验表格¶

5-way 5-shot 下拆 COLA (LR-FGDM) 的两个正则项：

变体	CoraFull	ogbn-arxiv	Coauthor-CS	DBLP
COLA (baseline)	87.83	67.52	87.54	87.23
去掉低秩+原型正则	88.12	67.91	87.93	87.55
去掉低秩正则	88.74	68.60	88.72	88.28
去掉原型正则	88.79	68.45	89.02	88.64
LR-FGDM（全）	89.66	69.63	89.83	89.51
LRA-LR-FGDM	90.32	70.22	90.39	90.07

关键发现¶

只加合成节点不够、要配低秩去噪：图 1 显示合成节点 $\le 3|V_{sup}|$ 时有增益，超过则因扩散噪声暴跌；加了低秩正则后即便合成节点很多也能持续受益。
两个正则都有用且互补：单独去掉低秩或原型正则都掉点，去掉两者退化到接近 baseline，说明"造得准（原型条件）"和"用得稳（低秩）"缺一不可。
KC 与上界可量化验证：附录 Table 9 显示 LR-FGDM 比无正则基线的核复杂度和测试损失上界都更低，LRA-LR-FGDM 再降一档，理论预测与实测一致。
生成忠实度可度量：提出 Frechet Node Distance（FND）/ Frechet Edge Distance（FED）验证合成节点与连边的真实性，优于现有 shot 增广方法。

亮点与洞察¶

把"扩散增广"和"去噪正则"耦合成一个闭环：扩散必然带噪是公认难题，本文不回避而是用 LFP/低秩在分类侧主动切除噪声，并给出泛化界——生成模型与统计学习理论难得地咬合在一起。
原型条件巧解 FSNC 的"标签不相交"死结：用 HGAE 联合学的连续原型替代离散类标签做扩散条件，既能条件生成又天然适配未见新类，比 DoG 的伪标签方案干净得多。
层次边重建把 GAE 的 $O(N^2)$ 降下来，让节点级图扩散在真实大图上变得可行，是工程上的关键一步。
LRA 层几乎零成本再收紧上界：$K_F = K^3/\hat{\lambda}_1^2$ 这个简洁的代数关系直接保证 KC 单调不增，理论优雅且 $O(Nd^2)$ 高效。

局限与展望¶

多阶段管线偏重：HGAE → LDM → 生成 → 转导分类器四段式训练，超参（$q$、$r_0$、$K$、$\tau$）多且依赖交叉验证，落地调参成本不低。
依赖底座 FSNC 方法：作为 plug-in，增益建立在 COSMIC/COLA 之上，换个弱底座能涨多少未充分探讨。
同质图为主：仅在 Roman-Empire 一个异质图上验证，原型聚类假设"同簇节点倾向互连"在强异质图上可能不成立。
扩散生成开销：虽有层次边重建提效，但在更大规模图（百万级节点）上的端到端可扩展性仍待检验。

评分¶

新颖性: ⭐⭐⭐⭐ 节点级图扩散 + 原型条件 + 低秩去噪三者组合是新颖的，尤其原型条件解 FSNC 标签不相交、LFP 引入转导分类有理论支撑。
实验充分度: ⭐⭐⭐⭐ 8 数据集 × 4 设定 × 20 次运行，消融、KC 验证、FND/FED 忠实度、异质图、t-SNE、敏感性分析齐全，附录详实。
写作质量: ⭐⭐⭐⭐ 动机—矛盾—方法的逻辑链清晰，图 1 用一张曲线点出"加节点会崩、低秩能救"很有说服力；公式与符号略密集。
价值: ⭐⭐⭐⭐ 把"扩散增广 + 低秩去噪"做成可即插即用模块且有理论保证，对少样本图学习与更广义的生成数据增广都有借鉴意义。