跳转至

FSD-CAP: Fractional Subgraph Diffusion with Class-Aware Propagation for Graph Feature Imputation

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=LAr64ymrMJ
代码: https://github.com/ssjcode/FSD-CAP
领域: 图学习 / 图特征补全 (Graph Feature Imputation)
关键词: 缺失特征补全, 扩散传播, 分数阶扩散, 子图扩展, 类感知传播, GNN

一句话总结

针对图节点特征极端稀疏(缺失率高达 99.5%)的补全问题,FSD-CAP 用一个可调"锐度"的分数阶扩散算子做局部自适应传播、用从已观测节点逐层向外扩张的渐进式子图扩散抑制误差累积,再用伪标签 + 邻域熵驱动的类感知传播注入语义结构,让补全后的特征在节点分类和链路预测上逼近甚至超过用完整特征训练的 GCN。

研究背景与动机

领域现状:GNN 默认节点特征是完整观测的,才能有效地从邻居聚合信息。但现实中由于隐私约束、传感器失效、采集不全,节点属性经常大面积缺失,高缺失率会直接破坏消息传递、显著拖垮模型性能。

现有痛点:补全缺失特征的主流路线有两类,但在极端稀疏下都失效——

  • 隐空间 / 生成式方法(如 ITR、ASD-VAE、SAT):依赖特征与结构的相关性建模分布,在中等缺失率下还行,但缺失率一升高就崩,甚至跌破"全填零""填均值"这种朴素 baseline;而且在大图上容易爆显存(OOM)。
  • 扩散类方法(如 FP、PCFI):轻量、无参、对高缺失率更鲁棒,但对所有节点施加均匀传播,不区分局部结构和传播顺序——近处可靠的信号没被充分利用,远处不可靠信号又被一视同仁地混进来,导致过平滑、判别力下降。

核心矛盾:扩散方法的鲁棒性来自"无脑全图平滑",但正是这种均匀、全局、无顺序的传播,既浪费了近邻可靠信号、又会把误差跨全图扩散,并抹平类别边界。

本文目标:设计一个在极端稀疏(mr=0.995,只剩 0.5% 特征)下依然稳健的两阶段补全框架,让传播能自适应局部结构、控制传播顺序、并保留类别判别力。

核心 idea: - 可调锐度的分数阶扩散:给标准归一化邻接矩阵引入一个指数 \(\gamma\),在"均匀平均"和"只选最强邻居"之间连续插值,按局部结构调节传播的锐利程度。 - 从观测点向外的渐进式子图扩散:先在已观测节点上传播、再按最短路距离逐层吸纳缺失节点,让"容易补的先补好",限制早期误差扩散。 - 类感知精修:用伪标签 + 邻域熵给每个类构造一个虚拟锚节点,在类内子图里传播,增强类内一致、类间分离。

方法详解

整体框架

FSD-CAP 是一个先扩散补全、再类感知精修的两阶段流水线(imputation-then-training)。给定图 \(G\) 和部分观测的特征矩阵 \(X\):第一阶段 FSD 从观测节点出发,逐步扩大子图半径,用分数阶扩散算子 \(A^{\gamma,0}, A^{\gamma,1}, A^{\gamma,2}\) 做渐进式传播,得到初步补全的 \(\hat{X}\);第二阶段 CAP 在初步补全的特征上用分类器打伪标签、按类构造类图(每类对应一个锚特征 \(x^*_{(c)}\) 和权重矩阵 \(W_{(c)}\)),在类图内传播后输出最终 \(\hat{X}\),再喂给下游 GNN。

flowchart LR
    A["图 G + 缺失特征 X<br/>(掩码 M)"] --> B["分数阶扩散算子 A^γ<br/>锐度参数 γ 调节传播"]
    B --> C["渐进式子图扩散<br/>按最短路逐层扩张<br/>+ 保留机制 λ"]
    C --> D["初步补全 X̂"]
    D --> E["GCN 打伪标签 ỹ<br/>+ 邻域熵 S_i 算可信度"]
    E --> F["按类构造类图 G^(c)<br/>虚拟锚节点 x*_(c)"]
    F --> G["类内传播 X̂^(c)=W^(c)X^(c)"]
    G --> H["最终补全 X̂ → 下游 GNN"]

关键设计

1. 分数阶扩散算子:用一个指数把"平滑↔锐化"装进同一个旋钮。 传统扩散补全都用对称归一化邻接矩阵 \(\bar{A}=D^{-1/2}AD^{-1/2}\) 定义的惰性随机游走,它假设邻居均匀混合,无法体现节点分布差异,容易过平滑。FSD-CAP 引入锐度参数 \(\gamma>0\),对邻接矩阵逐元素取幂再行归一化:\(A^{\gamma}_{ij}:=(\bar{A}_{ij})^{\gamma}/\sum_{k}(\bar{A}_{ik})^{\gamma}\)。这个变换保持了行随机性,但按边强度重新加权邻居贡献——\(\gamma<1\) 时弱边被放大、传播更平滑均匀;\(\gamma>1\) 时强边被强调、传播更锐利局部;\(\gamma=1\) 恰好退回标准归一化扩散。论文用 Proposition 1 / Theorem 1 给出极限行为:\(\gamma\to0^+\) 时退化为对邻居做无差别平均 \(\frac{1}{|N(i)|}\sum_{j\in N(i)}X_{[j,:]}\)\(\gamma\to\infty\) 时退化为确定性路由 \(X_{[j^\star,:]}\)(把质量全部转给最强邻居 \(j^\star\))。换句话说,\(\gamma\) 就是一个"局部性"旋钮,让扩散能按局部连通度自适应,既强调可靠信号又缓解过平滑。

2. 渐进式子图扩散:让容易补的先补、按距离逐层扩张以堵住误差累积。 基于"图上越近的节点特征越相似"这一先验,方法不再做全图一次性扩散,而是按特征维度逐通道地从观测区向缺失区分层推进。对每个特征 \(\ell\),先用观测节点集 \(V^\ell_+\) 构成初始子图 \(G^{(0)}\)(通常是多个不连通分量);再按到 \(V^\ell_+\) 的最短路距离把缺失节点逐层并入,第 \(m\) 层子图 \(G^{(m)}\) 包含半径 \(m\) 邻域内的所有节点和边,\(m\) 等于图直径时恢复全图。每层在各连通分量上独立施加分数阶扩散更新 \(x^{(m)}_i(t)=\sum_{v_j\in N^{(m)}(i)}A^{\gamma,m}_{ij}\cdot x^{(m)}_j(t-1)\)。为防止外层吸纳进来的远处噪声污染前几层已补好的特征,引入保留机制 + 边界条件\(x^{(m)}_i(t)=x^{(m)}_i(0)\odot M_i+\big(x^{(m)}_i(t)+\lambda x^{(m-1)}_i(K)\big)\odot(1-M_i)\)——观测特征(掩码 \(M_i=1\))始终被钉死不变,缺失值则混合当前估计与上一层收敛结果(保留系数 \(\lambda\) 加权)。论文用 Theorem 2/3 证明:每层迭代收敛到唯一不动点,且随着 \(m\to M_{\max}\)\(G^{(m)}\to G\),逐层精修的结果会收敛到对全图一次性扩散的稳态解——也就是说"一系列一致的局部操作"在极限下等价于全局行为,但过程中误差被逐层钳住。

3. 类感知特征精修:用伪标签 + 邻域熵给每类立一个锚,把语义注回补全特征。 扩散本身会模糊判别性模式,尤其当语义边界本就微弱时。CAP 先用一个半监督 GCN 给无标签节点打伪标签 \(\tilde{y}\)(保留真标签),再为每个类 \(c\) 构造类图。关键是用邻域标签熵衡量伪标签可信度\(S_i=-\big(1/\log|\hat{N}_i|\big)\sum_{c}P_i(c)\log P_i(c)\),其中 \(P_i(c)\) 是节点 \(i\) 扩展邻域里预测为类 \(c\) 的比例;\(S_i\) 越小说明邻域标签越一致、该节点越能代表其类。于是给每个节点赋可信权重 \(1-S_i\),按加权平均算出类锚特征 \(x^*_{(c)}=\big(\sum_{\tilde{y}_i=c}(1-S_i)x_i\big)/\big(\sum_{\tilde{y}_i=c}(1-S_i)\big)\)。然后为每类建虚拟锚节点 \(v_{(c)}\) 并构造类图 \(G^{(c)}\):锚节点指向所有伪标签为 \(c\) 的缺失节点。传播权重用温度缩放 softmax 后的类概率 \(\hat{y}_i\)——节点自环权重设为 \(\hat{y}_i\)、来自锚节点的入边权重设为 \(1-\hat{y}_i\)(越不确定的节点越多地吸收类级信息)。单步传播 \(\hat{X}^{(c)}=W^{(c)}X^{(c)}\) 即完成精修,再映射回原节点索引、恢复观测特征得到最终 \(\hat{X}\)。这一步在保持类间区分度的同时提升类内一致性,缓解了跨类边界的过平滑。

实验关键数据

主实验表格

五个基准数据集(Cora / CiteSeer / PubMed / Photo / Computers),固定 mr=0.995(极端缺失),节点分类准确率(%):

设置 方法 Cora CiteSeer PubMed Photo Computers 平均
结构缺失 Full Features (上界) 82.72 70.00 77.46 91.63 84.72 81.31
结构缺失 Zero (填零 baseline) 43.50 31.29 46.14 79.04 71.71 54.34
结构缺失 FP 72.71 57.98 74.18 86.34 77.19 73.68
结构缺失 PCFI (最强 baseline) 75.36 66.06 74.44 87.38 78.71 76.39
结构缺失 FSD-CAP 80.56 71.94 76.98 89.18 81.64 80.06
均匀缺失 PCFI 78.55 69.11 76.01 88.55 81.64 78.77
均匀缺失 FSD-CAP 81.49 73.15 77.46 89.40 83.57 81.01

链路预测(mr=0.995,平均 AUC / AP %):FSD-CAP 结构缺失 AUC 91.65、均匀缺失 AUC 92.41,均优于 FP(86.76/87.92)和 PCFI(PCFI 各数据集均被超过),全图上界为 95.06。

消融实验表格

结构缺失 mr=0.995 下逐组件移除(节点分类准确率 %,括号为相对掉点):

变体 Cora CiteSeer PubMed Photo Computers 平均
FSD-CAP (完整) 80.56 71.94 76.98 89.18 81.64 80.06
w/o 分数阶算子 79.95 71.82 75.54 86.27 76.60 78.04 (-2.02)
w/o 渐进子图扩散 79.34 70.84 75.97 88.07 79.14 78.67 (-1.39)
w/o 类感知精修 76.43 68.65 75.52 88.10 78.06 77.35 (-2.71)

关键发现

  • 极端稀疏下逼近/超过全特征上界:均匀缺失只剩 0.5% 特征时,FSD-CAP 平均准确率(81.01)已接近全特征 GCN(81.31);在 CiteSeer 上甚至反超全特征训练的 GCN(73.15 vs 70.00)。
  • 相对最强 baseline 一致领先:结构缺失下相对 PCFI 在 Cora/CiteSeer/PubMed/Photo/Computers 分别提升 6.90%/8.90%/3.41%/2.06%/3.72%。
  • 三组件互补:类感知精修对节点分类影响最大(平均 -2.71,对 Cora 7 类/CiteSeer 6 类等稀疏多类图尤甚);分数阶算子对链路预测影响最大(平均 AUC -5.60),在稠密的 Photo/Computers 上掉点更明显(节点分类 -2.91/-5.04)。
  • 可扩展性:ASD-VAE、ITR 在大图(Photo/Computers)上 OOM,深度方法 GRAFENNE/ASD-VAE 在极端缺失时甚至不如填零 baseline;FSD-CAP 在大规模与异配图上同样保持竞争力。

亮点与洞察

  • "一个指数旋钮统一平滑与锐化"很优雅:分数阶指数 \(\gamma\) 把"均匀平均"和"最强邻居路由"放进一条连续谱,并有干净的极限定理支撑,物理意义清晰、几乎零额外参数。
  • "渐进子图扩散 ≈ 课程学习"的思路对极端稀疏特别对症:先补容易的(靠近观测点)、再补难的(远处不确定区),用保留机制 + 边界条件把误差逐层钳住,并有"局部一致操作收敛到全图稳态"的理论保证,既稳又有解释力。
  • 用邻域熵给伪标签打折扣是把"半监督打标签可能出错"显式建模进权重的好做法,避免错误伪标签污染类锚特征。
  • 整体是 imputation-then-training 范式,无需端到端联合训练,轻量、可直接接任意下游 GNN。

局限与展望

  • 强依赖同配性先验:渐进子图扩散基于"近邻特征更相似"假设,虽然论文称在异配图上仍具竞争力,但其增益机制在强异配场景下的稳健性仍需更系统验证。
  • 伪标签质量是 CAP 的命门:类感知精修依赖 GCN 伪标签 + 邻域熵,标签噪声大或类别极不平衡时,类锚特征可能被带偏,邻域熵也只是局部一致性的代理。
  • 超参较多:锐度 \(\gamma\)、保留系数 \(\lambda\)、温度 \(T\)、迭代步数 \(K\)、子图扩张层数等都需网格搜索,实际部署时调参成本不低。
  • 逐特征通道 / 逐类构图的开销:渐进子图扩散按特征维度逐通道做、CAP 按类逐图传播,超大规模图或高维特征下的计算/内存代价未充分讨论。

相关工作与启发

  • 扩散类补全:FP(Feature Propagation,用归一化邻接做直接传播)、PCFI(置信度感知扩散,引入跨节点/跨通道相关性)是本文最直接的对比与改进对象,FSD-CAP 在其上加了"可调锐度 + 渐进顺序 + 类语义"。
  • 隐空间 / 生成式补全:SAT、ITR、ASD-VAE 等对齐观测特征与隐嵌入或建模属性-结构分布,在中等缺失率有效但极端稀疏下崩溃、且易 OOM,反衬出无参扩散路线的鲁棒性。
  • 端到端 GNN-on-incomplete:PaGCN(部分图卷积只聚合观测特征)、GRAFENNE(三阶段消息传递动态获取特征)走联合学习路线,但需更多训练数据与算力、可扩展性受限。
  • 启发:分数阶/锐度可调的传播算子可推广到一般 GNN 聚合(缓解过平滑);"渐进子图 + 保留机制"的课程式传播思路对其他需要从可靠区向不可靠区扩展的图任务(如图上半监督、标签传播)有借鉴价值。

评分

  • 新颖性: ⭐⭐⭐⭐ — 分数阶扩散算子(连续插值平滑/锐化)+ 渐进子图扩散(课程式、带收敛理论)+ 类感知熵加权精修,三者组合在图特征补全里较新颖,且有干净的极限/收敛定理支撑;单个组件有前作影子但整合与理论化到位。
  • 实验充分度: ⭐⭐⭐⭐ — 覆盖 5 数据集 × 2 缺失模式 × 多缺失率(0.6→0.995)、节点分类 + 链路预测双任务、完整三组件消融,并补充大规模与异配数据集;不足是 baseline 偏经典、超参敏感性分析可更系统。
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,方法分三块层层递进,定理/命题/极限行为交代充分,Figure 1 流水线图直观;公式较密但配有直觉解释。
  • 价值: ⭐⭐⭐⭐ — 极端稀疏(99.5% 缺失)下逼近甚至超过全特征上界,轻量无参可直接接下游 GNN,对隐私/传感器失效等真实缺失场景实用价值高。