Spatially Informed Autoencoders for Interpretable Visual Representation Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=09YSBymX6O
代码: https://git.mpi-cbg.de/mosaic/software/machine-learning/si-vae
领域: 自监督表示学习 / 可解释性 / 空间统计 / 生物显微成像
关键词: 变分自编码器, 空间点过程, Papangelou 条件强度, 伪似然, 可解释表示

一句话总结¶

本文提出 SI-VAE（空间信息变分自编码器），用空间点过程的伪似然作为自监督目标去监督 VAE 的隐空间，让模型不再只学像素强度、而是学到"物体之间空间排布关系"的统计可解释表示，在合成数据上把点模式分类准确率从 48%（普通 VAE）拉到 80%–90%，并能从单张图像零样本条件模拟点过程、应用到人类细胞蛋白定位分析。

研究背景与动机¶

领域现状：在很多科学成像场景里（卫星图中的林火/物种分布、荧光显微镜下细胞里的蛋白/病毒分布），图像的语义不在于物体的外观或纹理，而在于这些"离散点状物体"在空间里怎么排布——是聚集、是排斥、还是完全随机。要从这类图像中学到有用的表示，主流做法是自监督深度学习：对比学习、掩码自编码器（MAE）、以及各类 VAE。

现有痛点：这些方法的自监督信号几乎都建立在像素强度/像素相似性上。对比学习比较同一图像的增广视图，本质是鼓励像素层面的相似；MAE 被指出主要靠未被遮挡的 patch 重建、解码时忽略被遮挡 token 的空间排布；常用的图像损失指标也被证明更关注图像外观而非空间内容。结果就是：模型能区分"整体强度高低/是否均匀"，却抓不住物体两两之间的二阶相关结构（到底是吸引还是排斥）。即便是用高斯过程先验的 GP-VAE，编码的也是"图像之间"的相关，而非"图像内物体之间"的相关。

核心矛盾：科学应用真正想要的是对空间组织的机制性、可统计推断的解释（比如"这些蛋白为什么聚在核内"），但纯自监督/判别式表示既不提供这种机制洞察，也缺乏严格下游统计分析所需的概率框架；而且还容易踩"Clever Hans"坑——学到伪相关线索而非真实特征。一句话：缺一个能把"空间相关结构"显式写进自监督目标的先验。

本文目标：(1) 设计一个自监督信号，让 VAE 隐空间显式编码点状物体的空间相互作用；(2) 让学到的表示在空间统计框架下可解释；(3) 顺带获得从图像直接条件模拟点过程的生成能力。

切入角度：空间统计里早有成熟工具——空间点过程（spatial point process），尤其是 Gibbs 点过程，用能量函数显式建模点之间的一阶倾向与二阶相互作用，本身就是可解释、可生成的模型。把它的预测似然当作 VAE 的自监督目标，就能把"空间组织"这件事直接写进损失。

核心 idea：用点过程的 Papangelou 条件强度 + 伪似然作为自监督目标，让 VAE 隐变量 $z$ 充当"预测点过程概率密度"的预测器——即在普通 VAE 上挂一个轻量预测头，把"像素重建"换成/补成"解释观测到的点排布"。

方法详解¶

整体框架¶

SI-VAE 的骨架仍是一个标准 VAE：推断模型 $q_\theta(z|x)$（编码器）从输入图像 $x$ 采样隐码 $z$，解码器负责重建图像 $p_\theta(x|z)$。关键改动是在隐码上接一个预测模型 $\lambda_\xi(X,u|z)$，它把 $z$ 映射成一个 Gibbs 点过程的 Papangelou 条件强度，用来解释这张图里点状物体的空间排布 $X$。训练时，点集 $X$ 通过弱标注（如 spot detection / 阈值分割）从图像中提取，作为自监督信号；推断时只需图像 $x$，点过程组件完全不参与，所以 SI-VAE 对外就是个普通 VAE，可直接替换。

整体损失把三项揉在一起（公式 5）：图像重建项 $\mathbb{E}_q[\log p_\theta(x|z)]$ + 点过程伪似然项 $\mathbb{E}_q[\log p_\xi(X|z)]$ + KL 正则 $\beta\,\mathrm{KL}(q_\theta(z|x)\|p(z))$。作者证明在两条温和假设（$x\perp X\,|\,z$，且后验只依赖图像）下，这个损失正好是"图像 + 点过程"联合生成模型 $p(X,x,z)=p(X|x,z)p(x|z)p(z)$ 的 ELBO。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入图像 x"] --> B["推断模型 qθ(z|x)<br/>编码器采样隐码 z"]
    X0["弱标注点集 X<br/>(spot检测/阈值, 仅训练用)"] -.监督.-> D
    B --> C["解码器重建<br/>pθ(x|z)"]
    B --> D["预测模型: 一阶/二阶Gibbs势<br/>φξ(u,z), ψξ(‖u-v‖,z)"]
    D --> E["Papangelou条件强度<br/>λξ(X,u|z)=exp(-φ-Σψ)"]
    E --> F["伪似然损失 log PL(ξ|z)"]
    C --> G["联合ELBO损失<br/>重建 + 伪似然 - βKL"]
    F --> G
    G -->|训练收敛后| H["可解释表示 z<br/>+ 零样本条件模拟"]

关键设计¶

1. 点过程伪似然自监督目标：把"空间相关"直接写进 loss

这是全文的核心，针对的痛点是"自监督信号只盯像素强度、抓不住物体间二阶相关"。作者不再让模型去重建像素，而是让它去解释观测到的点排布。Gibbs 点过程用能量密度建模点集 $X$： $$p_\xi(X)\propto\exp\Big(-\sum_{u\in X}\phi_\xi(u)-\sum_{\{u,v\}\subseteq X}\psi_\xi(u,v)\Big)$$ 其中 $\phi_\xi$ 是一阶势（控制单点出现倾向）、$\psi_\xi$ 是二阶势（控制点对相互作用，决定吸引/中性/排斥）。但 Gibbs 密度的归一化配分函数不可解，极大似然估计行不通。作者转而建模 Papangelou 条件强度：$\lambda_\xi(X,u)$ 表示"在已知其余所有点的条件下、在 $u$ 处再观测到一个点的概率密度"，对上式恰好化简为 $\lambda_\xi(X,u)=\exp\!\big(-\phi_\xi(u)-\sum_{v\in X}\psi_\xi(u,v)\big)$，绕开了归一化常数。基于它的对数伪似然 $$\log \mathrm{PL}(\xi)=\sum_{u\in X\cap D}\log\lambda_\xi(X,u)-\int_D \lambda_\xi(X,u)\,\mathrm{d}u$$ 被直接当作可微损失（$D=W\ominus R$ 是把域按相互作用距离 $R$ 腐蚀以避免边界效应）。它还可被解释为"逐像素是否有点"的二分类伯努利极限（公式 6），所以预测头本质是个像素级的点存在性分类器。这样隐码 $z$ 被迫去编码能解释点排布的信息，而不是全局亮度。

2. 双浅层 Gibbs 势网络 + 各向同性与距离衰减约束：换来可识别性和可解释性

一阶势 $\phi_\xi$ 和二阶势 $\psi_\xi$ 各用一个以 $z$ 为输入的两层浅网络表示。直接放开 $\psi_\xi$ 的自由度会让模型收敛到不考虑局部相互作用的平凡解（附录 B），因此作者加了两层约束：(a) 令 $\psi_\xi(u,v)=\psi_\xi(\|u-v\|_2)$ 为对称、各向同性函数，使相互作用对整个点模式的平移、旋转不变；(b) 用距离衰减权重 $w_{uv}$ 把作用限制在范围 $L$ 内：$\psi_\xi(u,v)=w_{uv}\psi_\xi(\|u-v\|_2)$。后者很关键——长程相互作用与密度不均匀（inhomogeneity）在数学上无法区分，不加这个正则，非均匀点过程就不可识别。$L$ 是超参（合成数据取 0.25，细胞数据取核半径的一半）。约束之外，这个设计的红利是：训练完的 $\phi_\xi,\psi_\xi$ 可被直接读作"过程的一阶/二阶相互作用结构"——比如蛋白定位实验里读出"短程排斥 + 长程吸引"，给出机制性解释。

3. 混合联合模型视角：一套 loss 同时给出可解释表示 + 零样本条件模拟

SI-VAE 同时建模 $p(X,x)=p(X|x)p(x)$，是一个混合（hybrid）模型而非纯判别模型；已有工作表明混合模型学到的表示更丰富、对离群更鲁棒。这带来两个超出"分类更准"的能力。其一，因为 VAE 可对 $q_\theta(z|x)$ 重采样，模型自带不确定性量化：多采样几个 $z$ 就能给出条件强度估计的波动。其二，由于 $\lambda_\xi(X,u|z)$ 参数化了 $X$ 的分布，它可以塞进 MCMC 采样器，从而仅凭一张查询图像就零样本地条件模拟出点过程——作者称这是首个"基于图像的点过程条件模拟"。判别式表示和纯生成模型都给不了这种"既可解释、又能条件生成"的组合：和 DIGLM 等混合模型相比，SI-VAE 用摊还变分推断估计 $z$，而不是流模型。

损失函数 / 训练策略¶

总目标即公式 5 的联合 ELBO：重建项 + 伪似然项 $-\,\beta$·KL。其中伪似然项用 $\lambda_\xi(X,u|z)$ 代入公式 4 计算。训练用 Adam 优化器在各自 ELBO 上跑到验证集收敛；合成实验中 $\beta=0.1$（在 $0.001\sim1.0$ 三个数量级网格搜索得到），距离权重的相互作用范围 $L=0.25$ 由先验知识确定。评估时把表示取为后验均值 $q_\theta(z|x)$ 的 mean。注意点集 $X$ 仅训练阶段需要，推断阶段不需要。

实验关键数据¶

主实验¶

合成数据：从吸引（Thomas）、排斥（Strauss）、无关（Poisson）三类点过程、各配均匀/非均匀强度，共六类、每类 5000 张噪声图像生成；所有图像期望点数都 $\approx 52$，防止模型靠总像素强度作弊。用线性评估协议（linear probe）测隐空间能否分开这六类。

模型 / 弱标注	SNR	Acc (↑)	F1 (↑)
VAE（整图）	12.8	0.48	0.47
VAE（整图）	9.6	0.48	0.47
mask VAE（完美点位掩码）	∞	0.63	0.62
SI-VAE（GT 点位）	12.8	0.90	0.90
SI-VAE（GT 点位）	9.6	0.88	0.88
SI-VAE（Spotiflow 弱标注）	12.8	0.90	0.90
SI-VAE（Spotiflow 弱标注）	9.6	0.83	0.83
SI-VAE（Otsu 阈值弱标注）	12.8	0.80	0.80
SI-VAE（Otsu 阈值弱标注）	9.6	0.81	0.81

普通 VAE 准确率几乎钉在 0.48，UMAP 显示它只学到全局像素强度（只分得开均匀 vs 非均匀，分不开过程类型）；SI-VAE 全面碾压，即便只用简单 Otsu 阈值做弱标注、在低 SNR 下也有 0.80+。用 SOTA 检测器 Spotiflow 时几乎追平 GT 基线。作者还定义误差敏感度 $S_{F1}=(F^{class}_{1,GT}-F^{class}_{1,method})/(1-F^{spot}_{1,method})$ 量化对检测误差的鲁棒性，所有情况 $S_{F1}\le 1$，说明 SI-VAE 训练时能抑制 spot 检测误差。

泛化与零样本模拟¶

泛化到未见过程：用训练中没出现过的对数高斯 Cox 过程（LGCP，应接近均匀 Thomas）生成 150 张图，复用前面训好的线性分类器。VAE 完全无法泛化；SI-VAE 正确把 LGCP 归到最接近的 Thomas 类（HT），GT 训练版本甚至分类完美。
零样本条件模拟（Table 2，每类 100 张测试图）：用相对强度误差 RIE（一阶）和 K 函数拒绝率 RR（二阶）评估。

过程	RIE (↓)	RR (↓)
Strauss（均匀/非均匀）	0.23 / 0.14	0.13 / 0.14
Poisson（均匀/非均匀）	0.34 / 0.27	0.08 / 0.03
Thomas（均匀/非均匀）	0.62 / 0.49	0.20 / 0.15

Strauss（排斥）模拟最准；Thomas（始终聚集）RIE 最高、需靠模型饱和稳定模拟，提示饱和参数 $s$ 偏大有待改进。RR 整体偏低，说明二阶相互作用结构被很好地捕捉。

真实应用：人类细胞蛋白定位¶

在 OpenCell 数据集（>1000 种人类蛋白的荧光显微图）上，取六种蛋白（四种定位到囊泡：SNX1/SNX12/STAM/STAM2；两种形成核内点状：POLR3E/POLR3F），用 Spotiflow 弱标注训练，687 张测试图上用 GMM（AIC 选 $K=2$）聚类。对比 VAE 与专门的 SOTA 模型 Cytoself（两个 VQ-VAE + 分类头，架构深得多）：

模型	Silhouette (↑)	备注
VAE	0.04	簇松散，仍只分全局强度
SI-VAE	0.29	复杂度远低于 Cytoself，且无需分类标签
Cytoself	0.33	深架构 + 离散隐空间 + 分类监督

SI-VAE 用低得多的模型复杂度逼近 Cytoself，且不需要 ground-truth 分类标签（可无偏发现）。更重要的是它能机制性解释：一阶势显示囊泡蛋白分布更均匀、核蛋白集中在核内；二阶势揭示"短程排斥 + 长程吸引"，且核蛋白排斥范围更小（解释核内更紧的分子堆积）、长程吸引更强（利于在扩散受限条件下高效覆盖核区加速生化反应）。这种"核内约束"并未被人工施加，而是模型从数据里读出来的。

关键发现¶

贡献最大的是点过程自监督目标本身：去掉它（=普通 VAE）准确率从 0.90 直接掉到 0.48。
弱标注质量影响有限：连最朴素的 Otsu 阈值都能撑到 0.80+，且 SI-VAE 还能抑制检测误差（$S_{F1}\le1$）。
各向同性 + 距离衰减约束对可识别性是必需的：放开自由度会收敛到忽略局部相互作用的平凡解。

亮点与洞察¶

把空间统计的严谨性"焊"进自监督：用 Papangelou 条件强度绕开不可解的配分函数，让能量型点过程能以伪似然形式当损失——这是把经典空间统计与深度学习真正缝合的关键一招，可迁移到任何"离散点排布"建模任务。
可解释性不是事后解释而是内生属性：学到的 $\phi_\xi,\psi_\xi$ 直接就是过程的一阶/二阶相互作用结构，能读出"短程排斥+长程吸引"这种机制结论，远比 UMAP 上看簇紧不紧更有科学价值。
drop-in 替换：推断时点过程组件不参与，SI-VAE 对外就是普通 VAE，只在训练加一个小预测头，落地成本极低。
一个 loss 三种能力：可解释表示 + 不确定性量化 + 零样本条件模拟，混合模型的联合密度视角把它们统一在一套 ELBO 下。

局限与展望¶

一/二阶特征解耦不彻底：对 Poisson 过程（理论上 $\psi=0$ 无相互作用），SI-VAE 仍会因隐码 $z$ 对具体点配置敏感而预测出吸引/排斥，说明它难以彻底分离一阶强度与二阶相互作用——这是普遍难题，但会让机制解读被特定点配置带偏。
聚集过程模拟偏多点：Thomas 过程 RIE 最高，模型倾向预测过多点，依赖模型饱和稳定，且饱和参数 $s$ 似乎偏大，需进一步研究。
检测误差的偏置：弱标注主要在稠密区漏点，会系统性地偏置学到的相关结构。
建模假设受限：只建模成对、各向同性、均匀类相互作用；作者展望用 score matching / Deep Sets 估计完整密度以支持非成对相互作用，扩展到各向异性、标记点过程（跨类型点相互作用），以及更表达力的隐变量先验（GP-VAE / VampPrior）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 Papangelou 条件强度 + 伪似然当作 VAE 自监督目标，并实现图像驱动的零样本点过程条件模拟。
实验充分度: ⭐⭐⭐⭐ 合成数据消融充分、有泛化与模拟评估、有真实显微数据落地；但真实数据只测了六种蛋白、规模偏小。
写作质量: ⭐⭐⭐⭐⭐ 概率框架推导严谨，从点过程到 ELBO 的解释清晰，图示到位。
价值: ⭐⭐⭐⭐⭐ 对需要空间统计可解释性的科学成像（生物/遥感）是即插即用、低成本的强工具。