scCBGM: Interpretable Single-Cell Counterfactual Editing¶

会议: ICML 2026
arXiv: 2606.07760
代码: 无（论文未提供开源链接）
领域: 计算生物学 / 单细胞 / 反事实生成
关键词: 单细胞, 概念瓶颈, 反事实编辑, 流匹配, 可解释性

一句话总结¶

本文提出单细胞概念瓶颈生成模型 scCBGM，把"概念瓶颈"架构搬到单细胞 RNA 测序数据上，通过解码器跳连和交叉协方差解耦惩罚，实现对单个细胞做"如果改变某个生物概念会怎样"的可解释、可控反事实编辑，并能挂到流匹配模型上提升生成质量。

研究背景与动机¶

领域现状：单细胞 RNA 测序（scRNA-seq）能在细胞分辨率上刻画细胞状态、轨迹与疾病机制，但"细胞群 × 条件（药物、剂量、暴露）"的组合空间太大，不可能靠实验穷举。于是大家用计算模型来预测细胞在未见条件下的响应。

现有痛点：理想的"细胞编辑"模型需要同时满足两点——既能给出单个细胞的反事实（这个 T 细胞用了 anti-PD-1 会变成什么样），又能在生物学可解释的概念（基因程序、细胞类型、通路活性）上做干预，而不是操纵一堆不透明的隐变量。但现有方法各顾一头：早期方法（scGen、scVIDR 等）只建模条件分布、给出群体平均效应，拿不到单细胞反事实；较新的细胞级反事实方法又缺乏显式可解释控制；而现有可解释性方法只是"描述性"的——能解释相关性，却不能模拟或编辑细胞响应。

核心矛盾：编辑（editing）和条件生成（conditional generation）本质不同——后者问"给定条件下任意一个细胞长什么样"，前者问"这个特定细胞在改变条件后长什么样，其余一切不变"。要做到后者，必须保留细胞自身的身份（外生噪声 \(U\)），只改被干预的概念，这恰恰是条件生成模型做不到的。

本文目标：在单细胞这种高异质、强技术噪声、概念标注不可靠的模态上，实现细胞级、概念可控、身份保持的反事实编辑。

切入角度：作者借用 Pearl 的结构因果模型把细胞表达拆成"可观测概念 \(C\) + 不可观测残差因子 \(U\)"，把编辑形式化为 abduction-action-prediction 三步反事实推理；并把概念瓶颈生成模型（CBGM）改造成适配单细胞的版本。

核心 idea：用概念瓶颈把可解释概念显式分离出来当"控制旋钮"，用解码器跳连和交叉协方差惩罚保证概念与残差因子解耦，从而对单个细胞做"只拧某个概念旋钮、其余不动"的反事实编辑。

方法详解¶

整体框架¶

scCBGM 是一个带概念瓶颈的编码器-解码器（VAE）生成模型。输入是单细胞基因表达 \(\mathbf{x}\in\mathbb{R}^d\) 与一组 \(K\) 个生物概念 \(\mathbf{c}\)（可二值如细胞类型/刺激状态，也可连续如药物剂量/通路活性分数）；输出是反事实表达 \(\hat{\mathbf{x}}'\)——同一个细胞在概念被改成 \(\mathbf{c}'\) 后的样子。

编码器 \(E(\cdot)\) 把 \(\mathbf{x}\) 映成隐变量 \(\mathbf{z}\)，再分解成两部分：概念网络 \(f_c\) 产出可解释的已知因子 \(\hat{\mathbf{c}}=f_c(\mathbf{z})\)，另一支 \(f_u\) 产出未知因子 \(\mathbf{u}=f_u(\mathbf{z})\)（捕捉概念之外的变异，如批次、细胞身份）；两者拼接后送进解码器 \(D(\cdot)\) 重建 \(\mathbf{x}\)。编辑时走 abduction-action-prediction：先编码拿到 \((\hat{\mathbf{c}},\mathbf{u})\)，再只改要干预的概念维度得到 \(\hat{\mathbf{c}}'\)，最后解码 \([\mathbf{u},\hat{\mathbf{c}}']\) 得反事实。该框架还能进一步给流匹配（flow matching）模型当条件，兼顾可解释控制与高生成质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单细胞表达 x"] --> B["编码器 E<br/>x → 隐变量 z"]
    B --> C["概念瓶颈 + 解码器跳连<br/>z 拆成已知概念 ĉ 与未知因子 u"]
    C -->|交叉协方差惩罚解耦 ĉ⊥u| D["反事实编辑：溯因-行动-预测<br/>只改目标概念 ĉ→ĉ′，u 不动"]
    D --> E["解码 D([u, ĉ′])<br/>得反事实表达 x̂′"]
    D -->|可选挂接| F["流匹配条件生成<br/>scCBGM-FM (decode/edit)"]
    F --> E

关键设计¶

1. 概念瓶颈 + 解码器跳连：在噪声标注下维持持续概念条件

单细胞数据的概念标注常常含噪（错标、无关、缺失、冗余），如果只在解码器输入端注入一次概念，下游层很容易"忘掉"或绕过它。本文一是改用标准概念瓶颈模型（CBM，瓶颈把输入映到与可解释概念一一对应的标量预测），而非原 CBGM 用的把每个概念映成高维表示的概念嵌入模型（CEM）；二是给解码器加跳连——在每一层 \(\ell>1\) 都把上一层隐状态与已知概念 \(\hat{\mathbf{c}}\) 拼起来再喂入：

\[\mathbf{h}_\ell = D_\ell\big([\mathbf{h}_{\ell-1},\,\hat{\mathbf{c}}]\big),\quad \hat{\mathbf{x}}=D_{\text{final}}(\mathbf{h}_L)\]

这样概念信号在整个解码路径上被反复强制条件化，比只在输入端注入一次显著更稳健，尤其在概念标注含噪时——消融显示这是抗噪的关键来源之一。

2. 交叉协方差解耦惩罚：不限维度地把概念和残差因子拆开

要保证编辑"只改概念、不动身份"，必须让已知概念 \(C\) 与未知因子 \(U\) 解耦，否则改概念会连带改身份。原 CBGM 用余弦相似度损失做正交，但它要求两个嵌入维度相同（\(K=d_u\)），在单细胞场景下很受限。本文改用交叉协方差惩罚：对一个大小为 \(B\) 的 minibatch，惩罚预测概念 \(\hat{C}\in\mathbb{R}^{B\times K}\) 与未知因子 \(U\in\mathbb{R}^{B\times d_u}\) 之间经验交叉协方差的 Frobenius 范数平方：

\[\mathcal{L}_{\text{cc}}=\Big\|\tfrac{1}{B-1}(\hat{C}-\mathbf{1}\bm{\mu}_{\hat c}^\top)^\top(U-\mathbf{1}\bm{\mu}_u^\top)\Big\|_F^2\]

它允许 \(K\neq d_u\)（任意嵌入维度），并通过对 \(U\) 加 ReLU、对 \(\hat{C}\) 由概念损失隐式定标来避免"未知因子塌缩成近零值"的退化解。效果是把批次、细胞类型等非概念变异推进 \(\mathbf{u}\)，让 \(\hat{\mathbf{c}}\) 只承载被监督的概念语义。整体训练目标在 \(\beta\)-VAE 的 ELBO（重建 + 概念监督 \(\mathcal{L}_{\text{concept}}\) + KL）之上再加该惩罚：\(\mathcal{L}=\mathcal{L}_{\text{VAE}}+\lambda_{\text{cc}}\mathcal{L}_{\text{cc}}\)。其中概念损失对二值概念用 BCE、连续概念用 MSE，并用二值掩码 \(\mathbf{m}\) 处理缺失标注。

3. 溯因-行动-预测的反事实编辑：只拧目标旋钮、保住细胞身份

本文把单细胞编辑严格落到 Pearl 的反事实三步上。给定一个观测细胞 \(\mathbf{x}\)，反事实编辑定义为后验期望

\[\mu_{\mathbf{x},\mathbf{c}'}:=\mathbb{E}_U\big[f_X(\mathbf{c}',U)\,\big|\,X=\mathbf{x}\big]\]

落到模型即三步：溯因——编码 \(\mathbf{z}=E_\mu(\mathbf{x})\) 并分解出 \((\hat{\mathbf{c}},\mathbf{u})\)，其中 \(\mathbf{u}\) 锁住了细胞身份（外生因子）；行动——只对 \(\hat{\mathbf{c}}\) 与目标 \(\mathbf{c}'\) 不同的维度赋值（\(\hat{\mathbf{c}}'_k\leftarrow\mathbf{c}'_k,\ \forall k:\mathbf{c}'_k\neq\mathbf{c}_k\)），其余维度原封不动；预测——解码 \(\hat{\mathbf{x}}'=D([\mathbf{u},\hat{\mathbf{c}}'])\)。这正好对应"编辑 = 改条件、其余不变"的语义，与只看群体平均的条件生成形成对比。作者在附录给出了该估计器一致性的证明。

4. 流匹配扩展：把可解释控制接到高质量生成器上

scCBGM 本身可独立用，但其 VAE 解码生成质量有限。本文把训练好的 scCBGM 嵌入当条件，去训一个流匹配模型，学条件向量场 \(v_\theta(\mathbf{x}_t,t;[\mathbf{u},\hat{\mathbf{c}}])\)，从而把 SOTA 生成器的质量和概念瓶颈的可解释/可控性合到一起（扩散模型同理）。它支持两种反事实策略：decode——从噪声 \(\mathbf{x}_0\sim\mathcal{N}(0,I)\) 出发、按编辑后概念 \(\hat{\mathbf{c}}'\) 走条件流 \(\hat{\mathbf{x}}'=\varphi_1(\mathbf{x}_0,[\mathbf{u},\hat{\mathbf{c}}'])\)，适合多样化采样；edit——更精确，先用原概念 \(\hat{\mathbf{c}}\) 把 \(\mathbf{x}\) 反向映回噪声 \(\mathbf{x}_0=\varphi_1^{-1}(\mathbf{x},[\mathbf{u},\hat{\mathbf{c}}])\)（溯因），再用编辑后概念 \(\hat{\mathbf{c}}'\) 正向解码（行动+预测），把 Pearl 三步直接搬进流匹配。

损失函数 / 训练策略¶

总目标为 \(\mathcal{L}=\mathcal{L}_{\text{VAE}}+\lambda_{\text{cc}}\mathcal{L}_{\text{cc}}\)，其中 \(\mathcal{L}_{\text{VAE}}\) 含重建项、\(\lambda_c\mathcal{L}_{\text{concept}}\) 概念监督项、\(\beta\)-KL 正则；\(\mathcal{L}_{\text{concept}}\) 对二值/连续概念分别用 BCE/MSE 并按掩码归一化。流匹配版本另用条件流匹配损失 \(\mathcal{L}_{\text{FM}}\) 训练向量场。

实验关键数据¶

主实验¶

在 Kang et al. (2017) PBMC 数据集（IFN-\(\beta\) 刺激 vs 对照）上预测刺激响应，用 rMMD 比较（<1 表示优于"映射到最相似已有群体"的平凡基线，越低越好）。下表为各免疫细胞亚群 rMMD（节选代表性列）：

模型	B cells	T cells (CD4)	T cells (CD8)	Dendritic	NK cells
scCBGM	0.112	0.169	0.171	0.375	1.167
scCBGM-FM (decode)	0.106	0.162	0.138	0.288	0.093
scCBGM-FM (edit)	0.093	0.156	0.119	0.231	0.084
CBGM (原版)	0.902	2.228	1.914	1.503	1.270
Vanilla-FM (edit)	0.492	0.487	0.364	1.307	0.082
biolord	2.622	5.514	4.829	3.904	2.355
CINEMA-OT	2.259	7.042	5.362	1.367	3.707
scGen	1.830	5.117	4.748	1.133	2.436

scCBGM/scCBGM-FM 在 7 个实验中的 5 个上显著优于现有条件生成方法，且 scCBGM-FM (edit) 通常最佳。

消融实验¶

在三个合成数据集（5 类干预 × 2 seed × 多噪声设置）上消融三个组件——解码器类型（跳连 vs 直连）、概念头（CBM vs CEM）、正交损失（交叉协方差 vs 余弦）：

配置	结论
CBM vs CEM	在单细胞这类数据上概念瓶颈（CBM）优于概念嵌入（CEM）
+ 交叉协方差损失	在 CBM 家族内进一步提升性能
+ 跳连解码器	仅当同时配齐交叉协方差损失与 CBM 时才增益

关键发现¶

三个组件存在协同效应：跳连解码器并非单独有用，只有和交叉协方差损失 + 概念瓶颈一起上才生效，说明"持续概念条件 + 解耦"是配套的，单拆一个不灵。
流匹配扩展真正受益于结构化隐空间：为验证 scCBGM-FM 的优势来自 scCBGM 的结构化隐空间而非流匹配本身，作者额外比了 CVAE-FM、biolord-FM，scCBGM-FM 仍领先，说明可解释概念瓶颈才是关键。
零样本组合泛化：在 Kang 数据上把"被刺激的 Naive CD4 T 细胞"整类留出（训练时从未见），scCBGM 仍能从对照 Naive CD4 T 准确预测其刺激态，展示出明显优于 Vanilla-FM、CINEMA-OT 的零样本泛化。

亮点与洞察¶

把"编辑"和"条件生成"在因果语义上彻底分开：用 \(U\) 锁身份、只动概念维度，落实 Pearl 三步——这是它能做单细胞反事实而非群体平均的根本，思路可迁移到任何"保身份改属性"的可控生成任务。
交叉协方差惩罚解除维度约束：相比余弦正交要求 \(K=d_u\)，Frobenius 范数版交叉协方差允许任意嵌入维度，还用 ReLU + 概念损失隐式定标防塌缩，是个轻量好用的解耦 trick。
自建带真值反事实的合成基准：单细胞无法在同一细胞上重复测量，真值反事实天然缺失；作者用分层过散布 Poisson 过程把外生噪声与条件分离，造出可控的真值反事实，还能注入四类标注噪声，为该领域补上了严格评测的缺口。
概念瓶颈当"可解释控制层"挂到流匹配/扩散上：把可解释性和 SOTA 生成质量解耦再组合，是个通用的"控制层 + 生成器"范式。

局限与展望¶

真实数据只能用代理指标：真实数据无法控制外生噪声，作者只能把细胞亚型当作隐藏的 \(U\)、用 rMMD 这类群体级代理来近似反事实评测，细胞级精确度仍主要依赖合成数据验证，sim-to-real gap 未完全打消。
依赖概念标注质量与因果假设：方法建立在"\(U\perp U_C\)、概念可被监督学出"的假设上，若关键概念缺失或标注系统性偏差，编辑可信度会下降。
部分亚群方差很大：如 Monocytes (FCGR3A) 上各方法 rMMD 都偏高且方差大（scCBGM 1.845±1.776），说明在某些稀有/噪声大的亚群上编辑仍不稳。
改进方向：把更多机制性先验（通路拓扑、剂量响应曲线）写进概念结构，以及在真实数据上发展更接近细胞级真值的评测协议。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把概念瓶颈 + Pearl 反事实落到单细胞编辑、并扩到流匹配的框架。
实验充分度: ⭐⭐⭐⭐ 合成真值 + 三个真实数据集 + 充分消融，但真实评测只能用代理指标。
写作质量: ⭐⭐⭐⭐ 因果形式化清晰、动机层层递进，公式与架构对应明确。
价值: ⭐⭐⭐⭐⭐ 为可解释、可控的单细胞反事实推理提供了可落地的范式与基准。