ICLR 2026 因果推理探索性因果推断稀疏自编码器基础模型多重假设检验处理效应发现神经效应搜索

Exploratory Causal Inference in SAEnce¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Ml8t8kQMUP
代码: 待确认
领域: 因果推断 / 可解释性
关键词: 探索性因果推断, 稀疏自编码器, 基础模型, 多重假设检验, 处理效应发现, 神经效应搜索

一句话总结¶

本文提出"探索性因果推断"范式：不再让科学家事先假设要测什么效应，而是用基础模型+稀疏自编码器把高维原始观测（如蚂蚁行为视频）映射成可解释的神经通道，再用一个名为 Neural Effect Search 的递归分层检验算法，从数据里自动发现随机对照试验中被处理（treatment）真正影响的未知结果变量。

研究背景与动机¶

领域现状：随机对照试验（RCT）是科学的支柱，但它依赖人工预设假设——科学家先猜"处理 T 会影响某个结果 Y"，再标注数据、检验差异。与此同时，现代科学正在转向"图谱"模式：全基因组图谱、33 种癌症测序、上千种扰动下的细胞成像等大规模通用数据集，呼唤一种"先看数据再提问"的经验主义视角。

现有痛点：理性主义范式（包括 Cadei 等人的 Prediction-Powered Causal Inference）存在 Matthew effect（马太效应/"富者愈富"）——研究者总被既往成功的研究牵着走，把效应假设收窄到反复研究过的少数行为上，可能漏掉真正重要但没人想到的效应。而数据规模又大到无法"肉眼看出哪里有趣"。

核心矛盾：若改用经验主义方式，直接在神经表征上扫描显著效应，会撞上一个根本性悖论——稀疏自编码器（SAE）很难做到完美解耦，任何与真效应稍有纠缠（entanglement）的神经元，只要检验功效足够（样本量 n 或效应量 τ 增大），都会被判为"显著被处理影响"，即使做了 Bonferroni 校正也救不回来，最终把成百上千个无关神经元全标成显著，使结果无法解释。

本文目标：在不要求科学家预设假设的前提下，从指示性的高维观测（图像、视频）中，统计意义上可靠地发现被处理影响的未知结果变量 Y，并把解释权交还给领域专家。

核心 idea：基础模型→SAE→递归分层检验 三步管线。关键创新标签——用递归分层（progressive stratification），每轮先锁定最强效应对应的"主对齐神经元"，把它当作已发现真实潜变量的代理，在后续检验中控制掉它的泄漏贡献，逐个"剥离"出真正独立的效应因子，从而绕过悖论。

方法详解¶

整体框架¶

管线分四步：(i) 收集 RCT 实验数据（处理 T 随机分配，结果 Y 仅间接体现在高维观测 X 中）；(ii) 用预训练基础模型 \(\phi\) 把原始观测编码为表征 \(h=\phi(x)\)，再训练一个 SAE 把 \(h\) 重参数化为稀疏、可解释的"测量字典"码 \(z\)；(iii) 用 Neural Effect Search 在码空间识别被处理显著影响的通道；(iv) 把显著神经元交给领域专家解释（如对应哪种行为）。SAE 直接在试验数据上训练，避免预训练模型自带偏置污染科学结论。

flowchart LR
    A[实验数据<br/>T 随机分配, X 间接测 Y] --> B[基础模型 φ<br/>h = φ·x]
    B --> C[稀疏自编码器 SAE<br/>z = f·h, 可解释通道]
    C --> D[Neural Effect Search<br/>递归分层检验]
    D --> E[显著神经元<br/>交专家解释]

关键设计¶

1. 从基础模型特征到稀疏测量字典：把不可读的表征变成可检验的通道。 基础模型特征 \(h\in\mathbb{R}^d\) 语义结构丰富但单个坐标不对应人类可读概念，于是用 SAE 把它编码成高维稀疏码并线性重构：\(z=g(E^\top h+b_e),\ \hat{h}=Dz+b_d\)，训练目标是带稀疏惩罚的重构损失 \(\min_{D,z\ge0}\mathbb{E}\|h-Dz-b_d\|_2^2+\lambda S(z)\)。每个输入近似为 \(h\approx b_d+\sum_j z_j d_j\)，于是每个坐标 \(z_j\) 成了某个简单属性的"探测器"——一个近似单义（monosemantic）的测量信道，科学家可事后逐一审视。但作者明确承认 SAE 不可能完美单义，必然存在跨因子泄漏。

2. 泄漏指标与"探索性因果推断悖论"：刻画为什么朴素多重检验会崩溃。 作者用概念 \(Y_k\) 的神经表征 \(v_k:=\mathbb{E}[Z\mid do(Y_k=1)]-\mathbb{E}[Z\mid do(Y_k=0)]\) 定义"被因子 \(Y_k\) 激活"的神经元（\(|(v_k)_j|\ge\varepsilon\)），并定义泄漏集 \(A_\varepsilon=\bigcup_k\{j:|(v_k)_j|\ge\varepsilon\}\) 与泄漏指数 \(\rho_\varepsilon=|A_\varepsilon|/m\)。理想单义下 \(|A_\varepsilon|=r\)（真效应数），但实际泄漏使 \(|A_\varepsilon|=O(m)\gg r\)。作者用两个定理把悖论形式化：定理 3.1——只要有 \(\rho_\varepsilon m\) 个神经元效应非零，当 \(n\to\infty\)，t 统计量的非中心参数以 \(\sqrt{n}\) 增长压过 Bonferroni 临界值（约 \(\sqrt{2\log m}\)），所有 \(A_\varepsilon\) 中的神经元几乎必然全被拒绝；定理 3.2——固定 \(n\) 让效应量 \(s\to\infty\) 时同样全军覆没。直觉是：与真效应纠缠的神经元随着检验功效增强，迟早被误判为独立显著效应，因此多重校正在此无能为力。

3. Neural Effect Search（NES）：递归分层逐个剥离真效应。 NES 是核心算法，思路是"先发现最强效应、再控制它、再找下一个"。每一轮对未选中的神经元 \(j\notin S\) 跑 NeuralEffectTest（在已选集合 \(S\) 上做分层 stratification，并可做 arm-wise 残差化），得到效应估计 \(\hat{\tau}_j\) 与 p 值；用 Bonferroni（\(p_j<\alpha/m\)）筛出显著集 \(R\)，按 \(|\hat{\tau}_j|\) 降序取最强的一个 \(R_1\) 加入 \(S\)，递归调用直到无显著神经元为止。关键在于：把已发现的主对齐神经元 \(Z_1\) 当作其背后真潜变量 \(Y_1\) 的代理来分层，等于控制掉了 \(Y_1\) 中介的所有泄漏，于是剩余神经元的调整后统计量均值归零，下一轮只剩未发现的效应"露头"。定理 4.1 证明在 SAE 近似解耦的假设下，当 \(n\to\infty\)，NES 输出恰好收敛到 \(r\) 个分别主对齐不同 \(Y_k\) 的神经元，且 \(\mathbb{E}[|S_{\text{final}}|]\to r\)。因此 NES 既是对纠缠鲁棒的多重检验校正方法，也是一种"一次剥一个效应因子"的解耦算法。小样本时可放宽 Bonferroni 校正，换取更激进（但可能假阳更多）的探索。

其中内层的 NeuralEffectTest（Algorithm 2）承担"在已发现效应条件下重估每个神经元效应"的职责：它按已选集合 \(S\) 对样本做分层，使得对某神经元 \(j\) 的处理效应估计是在"控制住 \(S\) 对应的真潜变量"的条件下进行的；进一步的 arm-wise residualization（按处理臂用已选神经元残差化）可在不损失一致性的前提下降低方差、提升效率。直觉上，第一轮因纠缠会有多个坐标看起来被影响，但与某真方向 \(v_k\) 最对齐的坐标会最大化处理效应、在 Bonferroni 控制下以概率趋 1 被选中；随后的分层把已发现方向的贡献"减掉"——它在其它神经元上的泄漏在期望意义上被平均掉，而后处理条件化引入的 collider bias 被有界控制——于是逐轮"剥洋葱"直到所有 \(r\) 个主方向被找全、过程自然停机。

实验关键数据¶

主实验（半合成基准 + 真实生态试验）¶

设置	数据/编码器	任务	关键结果
半合成 RCT	CelebA 属性（戴帽/眼镜）+ SigLIP + SAE	已知真值，\(r=2\) 双效应发现	NES 是唯一在 n、τ 增大时 Precision/IoU 不崩的方法
真实生态试验 ISTANT	蚂蚁社会免疫视频 + DINOv2 + SAE（n=44 视频）	无监督发现处理影响的行为	仅返回 2 个神经元，与既往人工标注结论一致

半合成基准（按检验功效扫描）¶

方法	高功效下 Recall	高功效下 Precision/IoU
t-test / FDR / Bonferroni	→1（能找到效应）	大幅下降（落入悖论，假阳泛滥）
top-k 选择	部分	同样被纠缠误导
NES	→1	保持高位（最佳折中）
基线（已知 r）	—	Precision/Recall 均 <0.5（找到最强效应却漏掉第二个）

消融与稳健性（Appendix E）¶

作者在附录补充了三类验证：

消融维度	内容	结论
假设检验	验证一致性定理所需的近似解耦/主对齐等前提	在 SAE 合理单义时假设大体成立
一致性扫描	多种 n、τ、种子下重复 NES	行为稳定，收敛到真效应数 r
额外基线	与更多检验/选择策略对比	NES 在 Precision-Recall 折中上持续领先

此外，SAE 单义性本身先被量化评估（对 CelebA 属性，见原文 Figure 8），据此抽出对应 \(Y\) 的"真值神经元"，再以 Recall/Precision/IoU 度量各方法的发现质量——这套评估流程保证了半合成基准的真值可信。

关键发现¶

悖论被实证复现：所有标准多重检验在 n 或 τ 增大时把弱纠缠通道全标成显著（Precision≪1），仅 NES 免疫。
真实试验双发现：神经元 394 对应 grooming（梳理）行为——正是既往理性主义方法人工标注并验证过的显著效应，且它恰是全部 4608 个 SAE 码中对 grooming 预测力最强的（F1=0.398）；神经元 550 对应背景里的黑色定位标记（F1=0.568），暴露了小样本下处理分配与录制批次的设计偏置。
"发现设计偏置"反被视作优点：第二个神经元虽非生物学效应，但它是真实存在的统计显著信号，方法如实报告、由专家裁决，而非掩盖。
小样本/弱效应不必用 NES：n=30 或 τ=0.1 时悖论尚未显现，朴素 t-test 或 top-k 反而更具探索性（代价是更多假阳）。

亮点与洞察¶

范式层面的贡献：在统计因果框架内首次清晰区分"理性主义"（先假设后验证）与"经验主义"（先发现后解释）两种因果推断路线，并指出二者互补——经验主义不替代理性主义，而是用数据驱动的假设来丰富它，对抗马太效应。
把 SAE 首次系统用于因果推断：作者声称这是稀疏自编码器在科学试验因果分析上的首次成功应用，且与 HypotheSAEs 等只做相关性的工作划清界限——本文给出的是带统计显著性检验的因果发现。
悖论的理论刻画很扎实：用两个定理把"功效越强、假阳越多"这一反直觉现象证明清楚，再用 NES 的一致性定理对症下药，理论闭环完整。
递归分层的巧思：把已发现神经元当作真潜变量的代理来分层控制中介效应，既是多重检验校正又是效应解耦，一举两得。

局限与展望¶

离散结果假设：方法只处理二元/离散结果 Y，因为 SAE 里的连续概念尚未被充分理解，连续效应的扩展留待未来。
依赖 SAE 近似解耦：一致性定理建立在"SAE 码近似解耦真效应"的假设上，若 SAE 严重多义或基础模型本身有偏，发现可能失真；近期关于 SAE 可解释性的负面结果（随机网络上的伪可解释、无法隔离原子概念等）给方法蒙上不确定性。
F1<1 的解释鸿沟：真实试验中主神经元对 grooming 的 F1 仅 0.398，说明仍有其他纠缠效应或更宽的表征，无法在不进一步标注的情况下把"处理对神经元的效应"等同于"处理对该可解释行为的效应"。
小样本下统计保证弱：ISTANT 仅 44 个视频，需放宽 Bonferroni，理论一致性（\(n\to\infty\)）与实践小样本之间存在落差。
解释仍需专家：方法只负责"发现统计显著信号"，哪些有科学意义仍由领域专家判断，自动化止步于假设生成。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 提出"探索性因果推断"新范式，形式化了一个反直觉的统计悖论并给出对症算法，SAE 用于试验因果分析属首次，概念与方法双重原创。
实验充分度: ⭐⭐⭐⭐ 半合成基准（可控真值、多维扫描 n/τ）+ 真实生态试验双管齐下，且真实试验结论与既往人工标注吻合；但真实数据仅一例、样本量极小，外部效度有待更多领域验证。
写作质量: ⭐⭐⭐⭐⭐ 理性/经验主义对照、悖论定理、NES 算法与一致性证明层层递进，图示（Figure 2-6）和定理叙述清晰，标题"SAEnce"双关亦点睛。
价值: ⭐⭐⭐⭐ 为大规模科学数据的数据驱动因果发现提供了带统计保证的可行路径，对实验生态学、细胞成像等领域有直接应用潜力，也为 SAE 的"实用价值"提供了正面案例。