A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random¶

会议: NeurIPS 2025
arXiv: 2505.19093
代码: 无
领域: 统计学习 / 聚类 / 缺失数据处理
关键词: 模型聚类, 变量选择, MNAR缺失, 高斯混合模型, LASSO惩罚, BIC一致性

一句话总结¶

在高斯混合模型的聚类框架中，统一解决变量选择（区分信号变量、冗余变量和噪声变量）与MNAR缺失数据建模，通过两阶段策略（LASSO惩罚排序加BIC角色分配）和谱距离自适应惩罚权重实现高维场景下的高效推理，并证明了可辨识性和渐近选择一致性。

研究背景与动机¶

领域现状：基于模型的聚类（model-based clustering）通过假设数据来自有限混合模型来进行概率聚类，高斯混合模型（GMM）是经典实例。在高维数据中，许多变量可能与聚类结构无关或冗余，需要变量选择来提升聚类性能和可解释性。Maugis等人提出的SRUW模型将变量分为四种角色：聚类相关（S）、可由S线性解释的冗余（U）、与S有线性关系的回归集（R）、独立噪声（W）。

现有痛点：(1) 现有变量选择方法（如Clustvarsel、Selvar）都假设数据完整或仅处理MAR缺失，但在转录组学等实际场景中，缺失机制往往是MNAR（缺失与未观测值相关），直接忽略导致聚类和变量选择双重失误。(2) 之前的工作要么只处理变量选择不处理缺失，要么只处理缺失不做变量选择——没有统一框架。(3) Celeux等人的两阶段排序方法虽然高效，但缺乏理论保证。

核心矛盾：MNAR缺失破坏了标准EM的ignorability假设，而变量选择又依赖准确的参数估计——两个问题相互纠缠，必须联合解决。

本文目标 在MNAR缺失数据存在的情况下，同时完成变量角色识别（S/R/U/W）和聚类参数估计，并给出理论保证。

切入角度：利用MNARz机制（缺失概率仅依赖于潜在类别成员身份而非观测值本身），可以将MNAR问题重新转化为在augmented数据（原始数据+缺失指示矩阵）上的MAR问题，从而保留EM算法的可行性。

核心 idea：将SRUW变量选择框架与MNARz缺失机制联合建模，通过谱距离自适应惩罚的两阶段策略实现高效推理，并证明渐近选择一致性。

方法详解¶

整体框架¶

输入是含缺失值的数据矩阵 \(\mathbf{Y} \in \mathbb{R}^{N \times D}\) 和缺失掩码 \(\mathbf{C}\)。流程分两个阶段：Stage A（排序）在快速填补后的数据上用LASSO惩罚GMM对变量排序；Stage B（角色分配）在原始不完整数据上沿排名顺序逐步用BIC判断每个变量的角色（S/U/W），同时使用MNARz机制的EM算法估计参数。输出是变量分区 \((\hat{\mathbb{S}}, \hat{\mathbb{R}}, \hat{\mathbb{U}}, \hat{\mathbb{W}})\)、聚类数 \(\hat{K}\) 和参数估计。

关键设计¶

SRUW-MNARz联合模型:
- 功能：统一建模变量角色和缺失机制
- 核心思路：完整数据密度分解为三部分的乘积——聚类分量 \(f_{\text{clust}}(\mathbf{y}^{\mathbb{S}}|\alpha_k)\)、回归分量 \(f_{\text{reg}}(\mathbf{y}^{\mathbb{U}}|\mathbf{y}^{\mathbb{R}})\) 和独立分量 \(f_{\text{indep}}(\mathbf{y}^{\mathbb{W}})\)，再乘以MNARz缺失分量 \(f_{\text{MNARz}}(\mathbf{c}_n|z_{nk}=1;\psi_k)\)。MNARz假设缺失概率仅依赖类别标签 \(k\)，因此缺失项可以从积分中提出来，保持ignorability
- 设计动机：MNARz机制的关键优势是将MNAR转化为augmented data上的MAR——在\((Y, C)\)上做推断等价于MAR。这避免了一般MNAR的不可识别性问题，同时允许缺失模式本身携带聚类信息
谱距离自适应惩罚权重:
- 功能：替代传统的逆偏相关系数来构建惩罚矩阵 \(\mathbf{P}_k\)
- 核心思路：从初始精度矩阵 \(\hat{\Psi}_k^{(0)}\) 构建无向图 \(\mathcal{G}^{(k)}\)，计算对称归一化Laplacian \(\mathbf{L}_{sym}^{(k)}\)，目标是将 \(\Psi_k\) 收缩至对角矩阵（空图），谱距离 \(D_{\text{LS}} = \|\text{spec}(\mathbf{L}_{sym}^k)\|_2\)，自适应权重 \(\mathbf{P}_{k,ij} = (D_{\text{LS}} + \epsilon)^{-1}\)
- 设计动机：谱距离提供了图结构复杂度的全局度量，比逐元素的偏相关系数更稳定，尤其在高维小样本且有缺失的情况下
两阶段选择策略:
- 功能：高效完成变量排序和角色分配
- 核心思路：Stage A对快速填补后的数据沿 \((\lambda, \rho)\) 正则化路径拟合惩罚GMM，根据每个变量的均值被压为零的频率计算排序分数 \(\mathcal{O}_K(d)\)。Stage B沿排名列表单次遍历，每加入一个新变量就在原始不完整数据上拟合无惩罚的SRUW-MNARz并用BIC判断角色
- 设计动机：Stage A用快速填补加惩罚模型实现低成本排序（避免组合爆炸），Stage B在原始数据上做精确推断（避免填补误差传播）。两阶段解耦使得计算复杂度从指数降为线性

损失函数 / 训练策略¶

Stage A使用惩罚对数似然（含ℓ1均值惩罚和adaptive glasso精度矩阵惩罚），沿数据驱动的几何路径搜索 \((\lambda, \rho)\)。Stage B使用标准EM算法最大化SRUW-MNARz的BIC准则。初始化采用K-means++/层次聚类+软E-step估计缺失率。

实验关键数据¶

主实验（合成数据，MNAR 50%缺失率）¶

模型	平均ARI	标准差	vs SelvarMNARz	p值
SelvarMNARz	0.511	0.052	—	—
Clustvarsel	0.363	0.088	显著差于	<0.001
Selvar	0.348	0.108	显著差于	<0.001
VarSelLCM	0.344	0.101	显著差于	<0.001

消融实验¶

缺失率	缺失类型	SelvarMNARz ARI	基线最佳ARI	说明
5%	MAR	~0.85	~0.82	低缺失率差异小
20%	MAR	~0.75	~0.60	基线开始退化
50%	MNAR	0.511	0.363	基线严重退化，本文稳健
50%	MAR	~0.55	~0.40	MNAR更具挑战但本文仍最优

关键发现¶

SelvarMNARz在所有缺失率和缺失机制下都最优，且随缺失率增加性能下降最温和——50% MNAR下ARI仍有0.51，而基线方法降到0.34-0.36
变量选择准确性：SelvarMNARz在所有配置下正确恢复聚类变量集和聚类数 \(K\)，而填补后聚类的流水线方法在缺失率大于20%时开始误判变量角色
转录组学实验：在1267基因的拟南芥数据上，SelvarMNARz识别出18个聚类，将P6/P7从之前分析的"信号变量"重分类为"冗余变量"（可被P1-P4解释），揭示了正确处理缺失机制如何改变生物学结论

亮点与洞察¶

统一框架的必要性论证令人信服：不是简单地把变量选择和缺失处理"拼起来"，而是理论上证明了两者必须联合解决——分开处理会导致选择不一致
MNARz到MAR的转化是关键理论贡献：通过将缺失指示矩阵纳入augmented data，将MNAR的不可处理性转化为标准MAR推断。这个trick对任何涉及潜变量+MNAR的问题都有参考价值
选择一致性定理（Theorem 3）的证明策略（RSC条件到排序一致到BIC一致）为惩罚似然方法在混合模型中的理论分析提供了新工具

局限与展望¶

目前仅限于连续数据的高斯混合模型，无法处理分类或混合类型变量——作者承认扩展到离散数据（如latent class模型）是自然的下一步
MNARz假设（缺失仅依赖类别）虽然比一般MNAR容易处理，但在某些实际场景中可能过强——例如基因表达值极低时更可能缺失，这属于一般MNAR
两阶段策略中Stage A的快速填补可能在高缺失率下引入偏差，虽然Stage B在原始数据上修正，但排序的初始偏差可能导致次优结果
计算复杂度分析不够详细，在真正的大规模高维场景（D > 10000）下的可扩展性不清楚

评分¶

新颖性: ⭐⭐⭐⭐ 统一框架的构建和理论保证有扎实贡献，但各组成部分（SRUW、MNARz、两阶段策略）都已有前人工作
实验充分度: ⭐⭐⭐⭐ 合成数据系统性强（多缺失率多机制加统计检验），真实转录组数据有生物学解读
写作质量: ⭐⭐⭐ 数学符号体系较重，理论定理的非正式版本有助理解但技术细节需查补充材料
价值: ⭐⭐⭐⭐ 对组学等高维缺失数据聚类场景有直接实用价值，理论保证增强了方法的可信度