ActiveCQ: Active Estimation of Causal Quantities¶

会议: ICLR 2026
OpenReview: CWpQsAubxy
代码: 待确认
领域: 因果推断 / 主动学习
关键词: 因果量估计、主动学习、高斯过程、条件均值嵌入、贝叶斯实验设计

一句话总结¶

ActiveCQ 把"用尽量少的标注样本估准某个因果量（CATE/ATE/ATT/分布漂移下的 ATE）"这件事统一成一个主动学习问题：发现绝大多数因果量都可以写成"回归函数对某个分布求积分"的形式，于是用高斯过程（GP）建模回归函数、用 RKHS 里的条件均值嵌入（CME）建模那个积分用的分布，再从因果量后验不确定性里解析地推出采集函数（信息增益 / 全方差缩减），在多个模拟与半合成数据集上以更少标注显著超过随机、BALD、Coreset 等基线。

研究背景与动机¶

领域现状：因果推断里要估计的核心对象是各种"因果量"（causal quantity, CQ）——平均处理效应 ATE、条件平均处理效应 CATE、受试者平均处理效应 ATT、以及目标人群与观测人群协变量分布不同的"分布漂移下的 ATE"（DS/ATEDS）。这些量本质都是在问"干预 \(do(a=a)\) 之后，某个子人群的期望结果 \(E[y\mid do(a)]\) 是多少"。要估准它们通常需要大量带标注（即结果 \(y\) 可观测）的样本。

现有痛点：在很多场景里测量个体结果非常昂贵——个性化医疗要做侵入性检查或贵的检测、经济学要做劳动密集的长期随访、社会服务要人工标注非结构化的个案记录。于是问题变成"池子里有一堆只有协变量、没有结果的样本，预算只够标其中一小部分，该标哪些？"这是一个天然的主动学习（AL）问题。但已有的主动因果推断工作几乎只盯着 CATE 这一个量，而且常常是"对所有协变量做条件、学一个泛化的 CATE 估计器"，缺少对 ATE/ATT/DS 等其它因果量的统一处理。

核心矛盾：传统信息论式的主动学习（BALD、全方差缩减 TVR）目标是"降低回归函数 \(f\) 在无标注池上的整体不确定性"。但估计因果量时，关注点其实落在某个特定子人群的干预分布上——样本是从一个分布抽的，回归函数却要去另一个分布上做积分。这种"分布错配"让传统 AL 的采集目标与"把目标因果量估准"这个真正目的对不上：你可能花预算把池子整体方差降下来了，却没把目标子人群那块的因果量估准。

本文目标：(1) 把"主动估计因果量"这件事形式化成一个统一任务 ActiveCQ；(2) 给出一个能同时覆盖 CATE/ATE/ATT/DS 的统一估计与采集框架；(3) 让采集函数"因果量感知"（CQ-aware），即针对目标干预分布去选样本，而不是降池子整体方差。

切入角度：作者抓住一个关键观察——Lemma 1 显示这些看似各异的因果量都能写成同一个积分形式 \(\tau_{\mathrm{CQ}}=\int_{\mathcal S} E[y\mid a=a,s=s]\,P^*_{\mathrm{CQ}}(ds)\)，区别只在"对哪个分布 \(P^*_{\mathrm{CQ}}\) 积分"。CATE 是对条件分布 \(P_{s\mid z}\) 积、ATE 对边缘分布、ATT 对受试子人群分布、DS 对目标人群分布。只要把"回归函数"和"积分用的分布"分别建好模，所有因果量就能在同一套机器里产出。

核心 idea：用 GP 建回归函数 \(f=E[y\mid a,z,s]\)，用 RKHS 里的条件均值嵌入（CME）表示积分用的分布，使因果量本身成为一个 GP 上的线性泛函、从而有闭式的后验均值与方差；再直接从这个因果量后验的不确定性里推出采集函数，让"选哪个样本"自动对齐到目标因果量。

方法详解¶

整体框架¶

ActiveCQ 处理的是这样一个循环：手上有一个小的带标注训练集 \(D_T=\{(x^{(i)},y^{(i)})\}\) 和一个大的无标注池 \(D_P=\{x^{(i)}\}\)，其中 \(x=(a,z,s)\) 包含处理 \(a\)、效应修饰变量 \(z\)、调整变量/混淆变量 \(s\)。每一轮在预算约束下从池子里选一小批 \(n_b\) 个样本去查它们的真实结果 \(y\)，把它们并入 \(D_T\)、重训模型，目标是用尽量少的标注让某个目标因果量 \(\hat\tau(a_I,Z_I)\) 估得最准。

整条管线分四步串起来：先用 GP 把回归函数 \(f\) 连同不确定性建出来；再把"因果量要积分的那个分布"用 CME 表示进同一个 RKHS；两者一组合，因果量估计器 \(\hat\tau\) 就成了一个有闭式均值和协方差的高斯量；最后从 \(\hat\tau\) 的后验不确定性里解析地写出采集函数，按它贪心地挑这一批要标的样本。整个过程以批的方式反复迭代，每轮采集后还要更新 RKHS 特征以保持 CME 与 GP 核一致。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["无标注池 D_P + 带标注训练集 D_T"] --> B["统一积分表示<br/>各类 CQ = ∫ 回归函数 dP"]
    B --> C["GP 回归建模<br/>f=E[y|a,z,s] 带不确定性"]
    B --> D["CME 分布嵌入<br/>RKHS 里表示积分分布"]
    C --> E["闭式 CQ 估计器<br/>τ̂ 的后验均值+协方差"]
    D --> E
    E --> F["采集函数<br/>IG / TVR 贪心选批"]
    F -->|查结果 y、并入 D_T、更新特征| A
    E --> G["输出目标 CQ 估计"]

关键设计¶

1. 统一积分表示：把四种因果量收敛成"回归函数对某分布求积分"

这是整个框架的基石，针对的是"已有工作只会做 CATE、各因果量各搞一套"的痛点。作者在可识别性假设（无未测混淆、SUTVA、正性条件）下证明（Lemma 1），ATE/CATE/ATT/DS 都能写成同一个模板：

\[\tau_{\mathrm{CQ}}=\int_{\mathcal S} E[y\mid a=a,s=s]\,P^*_{\mathrm{CQ}}(ds).\]

四者只在积分用的分布 \(P^*_{\mathrm{CQ}}\) 上不同——CATE 对条件分布 \(P_{s\mid z}\) 积分（固定效应修饰变量 \(z=z\)），ATE/ATT/DS 这类"全局量"则把 \(z\) 与 \(s\) 合并、对相应的联合/子人群/目标分布积分。这一步的价值在于：它把"估计什么因果量"这件事彻底解耦成"回归函数 \(E[y\mid a,s]\)（所有因果量共用）+ 一个积分分布（因果量各异）"两块，后面只要把这两块各自建好模，所有因果量就能在同一台机器上产出，采集策略也能统一推导。

2. GP 建回归函数：让因果量成为可量化不确定性的高斯泛函

为了能做贝叶斯主动学习，必须知道"现在对因果量估得有多不确定"。作者假设 \(y=E[y\mid a,z,s]+\varepsilon\)、\(\varepsilon\sim\mathcal N(0,\sigma^2)\)，给回归函数 \(f\) 一个零均值 GP 先验 \(f\sim\mathcal{GP}(0,k)\)，核取乘积核 \(k_{xx'}=k_{aa'}k_{zz'}k_{ss'}\) 以处理多输入。给定训练集就得到闭式后验：

\[m(x)=k_{xX_T}(K_{X_TX_T}+\sigma^2 I)^{-1}y_T,\quad k_{\mathrm{post}}(x,x')=k_{xx'}-k_{xX_T}(K_{X_TX_T}+\sigma^2 I)^{-1}k_{X_Tx'}.\]

关键在于：因果量 \(\hat\tau\) 是回归函数 \(f\) 的线性泛函（对 \(s\) 积分是线性运算），而 GP 的线性泛函仍是高斯的，所以 \(\hat\tau\) 也有解析的后验均值 \(\nu(a,z)=E_{s\sim P_{s\mid z}}[m(a,z,s)]\) 和协方差 \(q\)。这把"因果量的不确定性"变成可计算的对象，为后面的采集函数铺好路。作者也注明标准 GP 是 \(O(n_T^3)\)，但框架与具体实现正交，可换稀疏变分 GP、随机傅里叶特征、Nyström 等近似来扩展。

3. CME 表示积分分布：绕开显式密度估计、与 GP 同处一个函数空间

要算 \(\nu\) 和 \(q\) 就得对条件分布 \(P_{s\mid z}\) 积分。一种直白做法是先用条件密度估计器（CDE，如混合密度网络 MDN）显式估出 \(P_{s\mid z}\)、再蒙特卡洛采样近似积分——这正是论文里的 baseline。但作者主推另一条路：用条件均值嵌入（CME）把分布直接表示进 RKHS。CME 定义为

\[\mu_{s\mid z=z}:=E_{s\mid z=z}[\phi(s)]=\int_{\mathcal S}\phi(s)\,P_{s\mid z}(ds\mid z),\]

它对应一个条件均值嵌入算子 \(C_{s\mid z}=C_{sz}C_{zz}^{-1}\)，可用所有成对的 \((Z,S)\) 经验估计 \(\hat C_{s\mid z}=\Phi_S(K_{ZZ}+\lambda I)^{-1}\Phi_Z^{\top}\)。这条路有三个实打实的好处：一是绕开了显式密度估计这个公认困难的环节；二是 CME 与 GP 处在同一个张量积 RKHS \(\mathcal H_{AZS}=\mathcal H_A\otimes\mathcal H_Z\otimes\mathcal H_S\) 里，于是积分能落成闭式核运算——Proposition 1 给出把 CME 塞进有效核里后，\(\nu\) 和 \(q\) 直接用一组带 \((K_{ZZ}+\lambda I)^{-1}\) 的核矩阵算出来，不再需要数值积分；三是它自适应：估计 \(P_{s\mid z}\) 只需要成对的 \((s,z)\)、不需要结果标签，所以池子里的无标注样本也能拿来一起估，每轮采集后更新特征即可让分布模型随之精化。一句话，CME 把"积分一个回归函数"从昂贵的数值积分变成"直接操纵一个分布嵌入"，更省、更对齐 GP 的预测任务。

4. 从因果量后验解析推采集函数：IG 与 TVR，再加贪心保多样性

有了 \(\hat\tau\) 的闭式后验，就能把"该标哪批样本"直接写成"最大程度降低 \(\hat\tau(a_I,Z_I)\) 的后验不确定性"。这正是与传统 AL 的本质区别：BALD/TVR 降的是回归函数 \(f\) 在参考分布（常是池子）上的不确定性，而 ActiveCQ 直接降目标因果量的不确定性，回归函数只是手段。作者给出两个采集准则：

信息增益 IG：用 \(\hat\tau\) 的微分熵衡量不确定性，选能最大化互信息 \(I(\hat\tau(a_I,Z_I);y_{X_B}\mid D_T)\) 的批。因为是高斯量，熵有闭式 \(H(\mathcal N(0,\Sigma))=\tfrac12\log|(2\pi e)\Sigma|\)，于是规则简化为 \(X_B^*=\arg\min_{X_B}\det(\mathrm{Var}[\hat\tau\mid D_T,y_{X_B}])\)。一个 GP 的好性质是：这个协方差只依赖被选样本的输入位置 \(X_B\)、不依赖其结果值，所以选样本无需先知道标签。
全方差缩减 TVR：用目标集上边缘方差之和 \(\sum_{(a,z)}\mathrm{Var}[\hat\tau(a,z)]\) 当不确定性，选 \(X_B^*=\arg\min \mathrm{Tr}(\mathrm{Var}[\hat\tau\mid D_T,y_{X_B}])\)。

两者统一成 \(X_B=\arg\max U(X_B)\)。批选择上，单纯按效用排序取 top-\(n_b\) 会让一批样本扎堆、缺多样性；作者改用贪心近似，每次加入边际效用增益最大的点 \(x_i^*=\arg\max_{x}U(X_{i-1}^*\cup\{x\})\)，从而在一批内兼顾信息量与多样性。配套的收敛分析（Theorem 2）在效用函数子模性假设下，把估计器边缘后验方差界成"不可约不确定性 + \(C\,\gamma_{n_B}/\sqrt{n_B}\)"，其中 \(\gamma_{n_B}\) 是信息容量，给出了随采集数衰减的保证。

一个完整示例¶

以个性化医疗里的 CATE 估计为例走一遍：研究者想知道"他汀对不同年龄段（效应修饰变量 \(z\)=年龄）患者的处理效应有何不同"，池子里有大量只记录了协变量的患者档案，但测真实结果（如某项昂贵检测）很贵，预算只够测一小批。第一轮：用现有少量带标注患者训出 GP 回归函数 \(f\)，用全部患者（含无标注）的 \((z,s)\) 估出 CME \(\hat\mu_{s\mid z}\)，组合得到 CATE 估计器 \(\hat\tau(a,z)\) 及其后验方差。指定关注的子人群（比如某个年龄 \(z\) 下扫遍所有处理 \(a\)）作为评估目标 \((a_I,Z_I)\)。然后用 IG-CME 采集函数贪心地从池子里挑出 \(n_b\) 个"标了之后最能降低该年龄段 CATE 不确定性"的患者——注意它挑的不是整体方差最大的点，而是与目标子人群干预分布对齐的点。查这批患者的真实结果、并入训练集、更新 RKHS 特征，进入下一轮。如此反复，目标年龄段的 CATE 估计误差（AMSE）比随机或 BALD 下降得快得多。

实验关键数据¶

在多组模拟数据 + 半合成的 IHDP、Lalonde 数据集上，对 CATE/ATE/ATT/DS 四类因果量评估，指标用平均均方误差 AMSE（估计因果量与真值之差），每个配置跑 20 次随机测试集取均值±标准差。回归函数统一用 GP，条件分布用 MDN 或 CME，方法后缀 "G" 表示贪心采集、其余为 top-\(b\)。

主实验¶

任务	场景特点	表现总结
CATE	目标子人群与池分布有错配	本文方法全程最优；TVR-CME 持续优于基于 MC 采样（MDN）的方法
ATE	所有方法都从整体人群采样	各不确定性感知方法表现接近、均优于随机；IG 类偶有数值不稳
ATT	受试子人群积分	本文方法领先基线
DS（分布漂移）	目标与采样分布显著不同	本文所有方法显著超过基线，差距最大

对比基线：随机选择、\(\mu\)-BALD、Coreset（QHTE）、传统 TVR。核心结论是：因果量感知的采集（IG/TVR + CME）在"目标分布与池分布错配"的场景（CATE、DS）上优势最明显，因为它能把预算花在与目标干预分布对齐的样本上；而在 ATE 这种"目标就是整体人群、不存在错配"的场景，本文方法与传统 AL 拉不开差距，符合预期。

消融实验¶

配置	关键发现	说明
CME vs MDN（CDE）	CME 持续更优	CME 直接操作 GP 回归相关特征、更"面向预测"，且绕开显式密度估计
贪心（G）vs top-\(b\)	贪心提升批多样性	top-\(b\) 易让一批样本扎堆，贪心兼顾信息量与多样性
IG vs TVR	TVR 更稳	IG 在大协方差矩阵求行列式时可能数值不稳，导致次优
起点 / 池大小 / 批大小 / 核选择	总体稳健	小批会放大贪心的重复后验更新开销（见运行时分析）

关键发现¶

错配越大、收益越大：CME 在 CATE 和 DS 这类目标分布与池分布偏离明显的场景收益最突出；ATE 无错配时优势消失，说明方法的增益确实来自"对齐目标干预分布"而非泛泛降方差。
CME 优于显式密度估计：因为它与 GP 共享 RKHS、积分有闭式、且更贴预测任务；显式估 \(P_{s\mid z}\) 再 MC 采样既贵又不如它对齐。
运行时的三个成本来源：贪心采集（频繁后验更新）、池规模（效用评估量）、IG 的熵/行列式计算；小批会加剧贪心开销，但所有方法在实验规模下都可行。GP 方法对协变量维度不敏感（运行时主要由距离计算主导）。

亮点与洞察¶

"积分表示"是真正的统一钥匙：把 ATE/CATE/ATT/DS 收敛成同一个积分模板后，整个估计-采集机器只需建好"回归函数 + 积分分布"两块，新因果量几乎免费扩展——这是把零散问题做成框架的范式。
CME 的三重协同很巧：绕开密度估计、与 GP 同处一个 RKHS（积分变闭式）、用无标注样本自适应精化分布。把"积分一个回归函数"变成"操纵一个分布嵌入"，既省又对齐预测目标，这个 trick 可迁移到任何"需要对条件分布积分回归函数"的贝叶斯任务。
采集函数对齐到目标量、而非池整体：点破了传统 AL 在因果估计上的错位——降池子整体方差 ≠ 估准目标子人群因果量。这个"目标量感知采集"的思路对一切"最终关心某个泛函而非整条函数"的主动学习都有启发。
纯观测、非实验设计的定位清晰：只能查个体已有的事实结果、不能去干预制造反事实，明确区别于主动实验设计，让方法在真实昂贵标注场景里直接可用。

局限与展望¶

GP 的可扩展性：标准 GP 是 \(O(n_T^3)\)，大规模池需依赖稀疏 GP / RFF / Nyström 等近似；论文只是声明框架兼容、未在大规模上实测。
IG 的数值稳定性：IG 在大协方差矩阵求行列式时易不稳，导致 ATE 等场景次优；实践中 TVR 往往更稳。
可识别性假设强：依赖无未测混淆、SUTVA、正性条件，现实中常被违反；方法对假设偏离的鲁棒性未充分考察。
评估偏合成：因反事实数据难得，实验以模拟和半合成（IHDP/Lalonde）为主，真实大规模落地证据有限。
CME 自身不确定性未传播：作者提到可像 BayesIMP/IMPspec 那样把 CME 的不确定性一并传播，但本文未深入，留作未来工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用"积分表示 + CME"把多种因果量的主动估计统一进一个有闭式采集函数的框架，视角新颖
实验充分度: ⭐⭐⭐⭐ 覆盖四类因果量、含消融与运行时分析，但以模拟/半合成为主，真实大规模证据有限
写作质量: ⭐⭐⭐⭐ 理论推导清晰、动机与机制对得上；公式密集，对非核方法读者门槛较高
价值: ⭐⭐⭐⭐ 对昂贵标注下的因果量估计与"目标量感知主动学习"有方法论价值，可迁移性强