Matching without Group Barrier for Heterogeneous Treatment Effect Estimation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=lGaZimFbss
代码: 未公开
领域: 因果推断 / 异质处理效应估计 / 最优传输
关键词: matching, heterogeneous treatment effect, optimal transport, counterfactual prediction, distance learning

一句话总结¶

MOGA 打破匹配方法"只能在目标处理组里找邻居"的组别壁垒，把全体样本都纳入候选池，用一个自最优传输（self optimal transport）模型学匹配权重、用随机游走在流形上传播事实结果来预测反事实结果，从而在样本稀疏、组间分布偏移大的情况下也能找到足够近的邻居，显著提升异质处理效应估计精度。

研究背景与动机¶

领域现状：从观测数据估计异质处理效应（HTE）的核心难题是只能观测到所受处理下的事实结果，其余处理下的反事实结果永远不可见。匹配（matching）因简单、可解释而被广泛使用——经典做法是在"接受目标处理 \(t\) 的那一组"里给样本找最近邻，再聚合这些邻居的事实结果来预测反事实结果，其理论基石是"协变量距离近的样本潜在结果也相近"。
现有痛点：观测数据有限、加上混杂偏差导致组间分布存在差异，目标处理组里在某些区域样本稀少甚至缺失，根本找不到足够近的邻居。匹配到的样本往往距离很大，而数据通常落在一个内蕴流形上、欧氏距离只在局部有意义，大距离无法刻画真实的潜在结果关系，反事实预测随之失真。一句话——匹配只在样本足够近时才靠谱。
核心矛盾：为了无偏只在同一处理组内匹配（保证可比），却又因为同组样本不够近而失真；想找近邻就得跨组，但跨组样本的目标处理潜在结果是未知的。
本文目标：在保证识别性的前提下，让匹配能从全体样本（不论其实际所受处理）里挑邻居，使匹配距离尽量小，同时解决"跨组邻居的目标处理结果未知"这一新难题。
核心 idea：移除组别壁垒（Matching withOut Group bArrier, MOGA）——先理论分析匹配的结果估计误差并给出依赖样本距离的上界，发现该上界恰好能用最优传输框架解释，于是把匹配建模成一个自最优传输模型；再用传输计划构造转移概率矩阵、以随机游走做结果传播补全跨组邻居的未知结果；最后用事实结果学一个距离作为传输代价，让"协变量上近"与"结果上近"保持一致。

方法详解¶

整体框架¶

MOGA 由三块串联：(1) 把"无壁垒匹配"的误差上界转写成一个自最优传输问题，解出全样本之间的匹配度矩阵 \(W\)；(2) 用 \(W\) 构造转移概率、在流形上做随机游走的结果传播，迭代补全所有样本在所有处理下的潜在结果；(3) 用事实结果监督地学一个投影距离 \(\phi(\cdot)\) 作为传输代价，把"结果相似"注入到"协变量距离"里。三者通过交替优化耦合，最终得到既近又语义一致的匹配。

flowchart LR
    A[全体样本<br/>不分处理组] --> B[误差上界分析<br/>Theorem 1/2]
    B --> C[自最优传输模型<br/>Sinkhorn 求解 γ]
    C --> D[转移矩阵 W=nγ]
    D --> E[随机游走结果传播<br/>补全反事实]
    F[事实结果 Y] --> G[距离学习 φ=Pᵀx<br/>OT 对齐协变量与结果]
    G -->|传输代价 Cφ| C
    E --> H[HTE 估计]

关键设计¶

1. 误差上界驱动的自最优传输匹配：把"找近邻"变成可解的传输问题。 反事实结果用全样本加权 \(\hat Y_t(x_i)=\sum_{j=1}^{n}W_{ij}Y_t(x_j)\)（要求 \(\sum_j W_{ij}=1\)、\(W_{ii}=0\)，即不能用自己预测自己）来估计。作者证明（Theorem 1）潜在结果估计误差 \(\epsilon_{Y_t}\) 有上界 \(\epsilon_{Y_t}\le 2L_t^2\sum_{i,j}W_{ij}\|\phi(x_i)-\phi(x_j)\|_2^2 + 2n\eta^2\sum_{i,j}W_{ij}^2\)，第一项是"匹配距离越大误差越大"，第二项是权重的 Frobenius 范数（防止权重过于集中）。经典匹配把候选限制在目标组，搜索空间被压缩、邻居更远、上界更松；MOGA 从全样本选邻居自然收紧上界。把第一项看成传输总代价、第二项看成传输矩阵的 F-范数正则，并令耦合 \(\gamma_{ij}=\frac1n W_{ij}\)、各样本均匀质量 \(p_i=\frac1n\)，就得到自最优传输问题 \(\min_\gamma \langle C^\phi,\gamma\rangle+\lambda_f\Omega(\gamma)\)，约束 \(\gamma\in\Gamma(\mu,\mu),\ \gamma_{ii}=0\)。Theorem 2 进一步证明效应估计误差（mPEHE）也被该结果误差上界控制。为可解，用大常数 \(L\) 改写对角代价 \(\tilde C^\phi=C^\phi+L I_n\) 隐式逼出 \(\gamma_{ii}\to0\)，再加熵正则 \(-\lambda_h H(\gamma)\) 用 Sinkhorn 高效求解。均匀质量这一设计还有额外好处：避免大子群压制小子群，保证小组样本也在匹配中保留影响力。

2. 基于传输计划的随机游走结果传播：补全跨组邻居的未知结果。 拆掉组别壁垒后冒出新问题——匹配到的非目标组样本在目标处理 \(t\) 下的潜在结果根本没观测到。由于 \(\gamma\in\Gamma(\mu,\mu)\) 是双随机矩阵（\(\sum_j\gamma_{ij}=\frac1n\)），令 \(W=n\gamma\) 即得转移概率矩阵，\(W_{ij}\) 表示样本 \(i\) 走到 \(j\) 的概率。把所有事实结果填入 \(Y\in\mathbb R^{n\times(T+1)}\)（\(Y_{it}=y_i\) 当 \(t_i=t\)，否则 0），掩码 \(M\) 标记哪些是已观测的事实项，用亲和矩阵 \(S=\rho W+(1-\rho)I\)（\(\rho\) 平衡"沿邻居扩散"与"保留自身记忆"）迭代 \(\hat Y_{\kappa+1}=S\hat Y_\kappa\odot(1-M)+Y\odot M\)。扩散项 \(S\hat Y_\kappa\odot(1-M)\) 沿流形把结果信息逐步传播到未知项、模拟测地线聚合，而事实项 \(Y\odot M\) 始终钉住不变。这样既利用了数据的流形结构，又让信息最终覆盖到所有样本在所有处理下的潜在结果。

3. 用事实结果监督的距离学习：让"协变量近"等价于"结果近"。 传输代价 \(c^\phi(x_i,x_j)=\|\phi(x_i)-\phi(x_j)\|_2^2\) 的好坏完全取决于 \(\phi(\cdot)\)。原始欧氏距离 \(\phi(x)=x\) 完全没考虑结果信息，可能把"协变量近但结果差很多"的样本错配。作者反过来用事实结果定义代价 \(C^Y_{t,ij}=(y^t_i-y^t_j)^2\)，在每个处理组内先解出一个"以结果为代价"的传输计划 \(\tilde\gamma_t\)，再让协变量代价去逼近它：\(\min_\phi\sum_t\langle C^\phi_t,\tilde\gamma_t\rangle\)——结果相似（\(\tilde\gamma_{t,ij}\) 大）的对就被压低协变量代价。进一步把两者写进统一的自最优传输 \(\min_{\{\gamma_t\},\phi}\sum_t\langle C^\phi_t,\gamma_t\rangle+\lambda_y\langle C^Y_t,\gamma_t\rangle-\lambda_h H(\gamma_t)\)，交替优化：固定 \(\phi\) 时每组是带代价 \(C^\phi_t+\lambda_y C^Y_t\) 的标准 Sinkhorn 子问题；固定 \(\gamma_t\) 时把 \(\phi\) 实现为正交投影 \(\phi(x)=P^\top x\)（约束 \(P^\top P=I\)），子问题 \(\min_P\sum_t\langle C^P_t,\gamma_t\rangle\) 有闭式解（Proposition 3）——即矩阵 \(\sum_t\Theta_t\)（\(\Theta_t=2X_t^\top\mathrm{diag}(\gamma_t\mathbf1-\gamma_t)X_t\)）的 \(d'\) 个最小特征值对应的特征向量。在监督子空间里算距离还顺带缓解了高维数据的麻烦。

实验关键数据¶

主实验表格¶

半合成数据（指标越低越好，MOGA 为本文方法，列出代表性基线）：

方法	News-2 \(\sqrt{\epsilon_{PEHE}}\)	News-4 \(\sqrt{\hat\epsilon_{mPEHE}}\)	News-8 \(\sqrt{\hat\epsilon_{mPEHE}}\)	TCGA \(\sqrt{\hat\epsilon_{mPEHE}}\)
k-NN	9.418	10.081	11.469	11.410
PSM	14.957	15.371	17.175	16.055
CFR	9.291	9.746	14.517	13.358
GOM	6.451	7.739	12.857	10.545
MitNet	7.382	8.003	9.282	10.715
MOGA	5.081	5.960	8.904	10.597

News-2/4/8 上 MOGA 全面最优；ATE 指标尤为突出（如 News-2 的 \(\epsilon_{ATE}\) 0.449 vs 次优 1.507）。TCGA 上 \(\sqrt{\hat\epsilon_{mPEHE}}\) 略逊 GOM（10.597 vs 10.545）但仍居前列。

消融实验表格¶

模拟数据上逐步拉大组间均值差 \(m\)（混杂偏差强度递增，\(\sqrt{\hat\epsilon_{mPEHE}}\)）：

方法	m=[.1,.2,.3,.4,.5]	m=[.1,.3,.5,.7,.9]	m=[.1,.4,.7,1.0,1.3]	m=[.1,.5,.9,1.3,1.7]
CFR	1.398	1.431	1.460	1.476
CP	1.394	1.426	1.457	1.471
MitNet	1.329	1.356	1.378	1.388
MOGA	1.316	1.345	1.368	1.376

注：论文正文未给"去掉随机游走/去掉距离学习"的逐模块消融表（置于附录 J–L，含可视化、距离函数与超参敏感性分析）；上表以"混杂强度递增的鲁棒性实验"作为变量控制结果。

关键发现¶

跨组扩池有效：相比 PSM、k-NN 等仅在目标组匹配的方法，MOGA 大幅领先，说明把全体样本纳入候选确实找到了更近的邻居。
结果监督的距离更优：相比同样用图半监督的 CP，MOGA 因在距离学习中引入了事实结果而更准；相比 PM，MOGA 同时建模邻居关系与基于结果的距离学习。
对混杂偏差更鲁棒：随 \(m\) 增大组分布重叠减少、所有方法变差，但 MOGA 因扩大匹配池始终保持竞争力，在 \(\sqrt{\epsilon_{PEHE}}\)、\(\epsilon_{ATE}\)、\(\sqrt{AMSE}\) 上稳定领先。
ATE 类指标提升最明显：在 News-2/4/8 上 MOGA 的 \(\epsilon_{ATE}\)/\(\hat\epsilon_{mATE}\) 普遍只有次优方法的 1/3 到 1/2（如 News-4 的 \(\hat\epsilon_{mATE}\) 1.155 vs 次优 2.617），说明结果传播对平均效应的偏差校正尤其有效。

亮点与洞察¶

把匹配的"组别壁垒"问题正式化：不是启发式地跨组匹配，而是从结果估计误差上界推出"全样本匹配收紧上界"，再证明效应误差被结果误差控制（Theorem 1→2），理论链条完整。
三个看似独立的工具被统一进最优传输：匹配权重学习、反事实传播、距离度量学习全部落在自最优传输/Sinkhorn 框架内，整洁且都可高效求解（含一个闭式投影解 Proposition 3）。
"用结果反过来教距离"很巧：先以结果差为代价解传输计划，再逼着协变量距离去拟合它，等价于把"潜在结果的序关系"压进表示空间，呼应了流形压缩提升泛化的观点。
均匀质量防止大组压小组，是常被忽视但对子群异质性很重要的细节。

局限与展望¶

依赖标准识别假设：SUTVA、无混杂、重叠、Lipschitz 连续四条假设缺一不可，尤其无混杂在真实观测数据上常难验证；跨组匹配本身没有放松这些假设。
可扩展性存疑：自最优传输在全体 \(n\) 个样本上构造 \(n\times n\) 传输矩阵并跑 Sinkhorn + 随机游走，计算与显存随样本量平方增长，论文实验规模（News/TCGA/模拟）相对有限，大规模数据上的可行性未充分验证。
评测多为半合成/模拟：缺真实带 ground-truth 反事实的场景（这是 HTE 领域通病），TCGA 上对 mPEHE 也未超过 GOM。
正文消融偏薄：随机游走步数 \(\rho\)、距离学习、传播机制各自贡献的拆解放在附录，正文未给清晰的模块消融。
代码未公开，复现门槛较高。
传播步数与 \(\rho\) 缺指引：随机游走迭代轮数 \(\kappa\) 与自连接系数 \(\rho\) 对"过度平滑 vs 欠传播"影响敏感，正文未给选取准则。

评分¶

新颖性: ⭐⭐⭐⭐ 把"移除匹配组别壁垒"从直觉变成有误差上界支撑、并统一进自最优传输的完整框架，结果传播 + 结果监督距离学习的组合在 HTE 匹配方法里较新颖。
实验充分度: ⭐⭐⭐ 覆盖二元/多处理、半合成 + 模拟、多强度混杂的鲁棒性，基线全面；但正文模块消融偏弱、真实数据缺位、TCGA 未夺冠、规模有限。
写作质量: ⭐⭐⭐⭐ 动机—理论—方法—实验逻辑清晰，公式与定理推进自然，三个设计点层层递进易读。
价值: ⭐⭐⭐⭐ 为样本稀疏/分布偏移下的匹配类 HTE 估计提供了一个理论扎实、可解释的新范式，对因果推断与最优传输交叉方向有借鉴意义。