ConfHit: Conformal Generative Design with Oracle Free Guarantees¶

会议: ICLR 2026
arXiv: 2603.07371
代码: 无
领域: AI for Science / 统计机器学习
关键词: conformal prediction, generative design, drug discovery, density ratio, statistical guarantee

一句话总结¶

提出 ConfHit 框架，利用密度比加权的共形排列 p 值实现"认证"（判断生成批次是否包含 hit）和"设计"（精简候选集同时保持统计保证），在无需实验验证 oracle 和存在分布偏移的条件下，为生成式分子设计提供有限样本 \(1-\alpha\) 覆盖保证。

研究背景与动机¶

领域现状：深度生成模型（VAE、扩散、自回归 Transformer）在分子发现中表现出色，但实际部署需要保证生成分子确实满足目标性质——这只能通过昂贵的湿实验或体内实验验证。共形预测（Conformal Prediction）提供了模型无关的统计保证框架，近期已被扩展到生成任务（Quach et al., 2023; Shahrokhi et al., 2025）。现有痛点：(a) 需要 oracle 访问——现有 CP 生成方法需要对新生成样本进行实验验证（合成+测试），在药物发现中成本极高且不可行；(b) 分布偏移——生成样本分布 \(Q\) 与历史标注数据分布 \(P\) 可能不同，违反可交换性假设；(c) 预算约束——有限生成预算下，不一定能保证包含有效分子，需要诚实地声明"不够自信"而非盲目声称成功。核心矛盾：需要在不验证新样本的前提下提供统计保证，同时处理分布偏移——这是经典 CP 框架的根本困难。本文目标 两个核心问题：(i) 认证——给定生成批次，能否以 \(1-\alpha\) 概率保证包含至少一个 hit？ (ii) 设计——能否精简候选集为最小子集同时保持保证？切入角度：利用历史标注数据（已知 \(Y_i\)）中的"inactive"样本与生成样本间的加权可交换性（密度比校正偏移），无需 oracle。核心 idea：密度比加权排列 p 值 + 嵌套检验 = oracle-free 有限样本保证。

方法详解¶

整体框架¶

输入：历史标注数据 \(\mathcal{D}_{\text{calib}}=\{(X_i,Y_i)\}_{i=1}^n\)（其中 \(Y_i \in \{0,1\}\) 为已知性质标签）、生成样本 \(\{X_{n+j}\}_{j=1}^N\)、置信水平 \(\alpha\)。ConfHit 工作流：(1) 估计密度比 \(w(x) = dQ/dP(x)\)；(2) 对每个嵌套子集 \(\{X_{n+j}\}_{j=1}^k\) 构造加权共形 p 值 \(p_k\)；(3) 嵌套检验——找最小 \(\hat{N} = \inf\{k: p_k \leq \alpha\}\)，输出精简候选集或声明"不够自信"。

关键设计¶

加权共形 p 值（认证问题）:
- 功能：量化生成批次中是否存在 hit 的统计置信度
- 核心思路：利用 inactive 标注样本 \(\{X_i: Y_i=0\}\) 和生成样本间的加权可交换性。对 \(B\) 个随机排列计算随机化 p 值：\(p_N^{\text{rand}} = \frac{\sum_{b=0}^B \bar{w}(\pi^{(b)};\bm{X}) \mathbb{1}\{V(\pi_0;\bm{X}) \leq V(\pi^{(b)};\bm{X})\}}{\sum_{b=0}^B \bar{w}(\pi^{(b)};\bm{X})}\)，其中 \(\bar{w}(\pi;\bm{X}) = \prod_{j=1}^k w(X_{\pi(n+j)})\) 为联合似然比
- 设计动机：经典 CP 要求可交换性，但分布偏移打破此假设；通过密度比加权恢复加权可交换性（Tibshirani et al., 2019），并扩展到多测试样本场景
- Theorem 3.1: \(\Pr(p_N^{\text{rand}} \leq t \mid \max_{j} Y_{n+j}=0) \leq t\)，有限样本、模型无关
嵌套检验（设计问题）:
- 功能：找最小候选集 \(\hat{\mathcal{C}} = \{X_{n+j}\}_{j=1}^{\hat{N}}\) 同时保持 \(1-\alpha\) 保证
- 核心思路：对每个 \(k=1,\ldots,N\) 构造假设 \(H_k: Y_{n+j}=0, \forall j \leq k\)。将 p 值单调化 \(p_k = \max_{k' \geq k} \tilde{p}_{k'}\)，取 \(\hat{N} = \inf\{k: p_k \leq \alpha\}\)
- Theorem 3.4: 嵌套假设结构 + 单调 p 值 → 无需多重检验校正即可控制 \(\Pr(\max_{j \leq \hat{N}} Y_{n+j}=0) \leq \alpha\)
- 设计动机：嵌套假设的关键性质——\(H_k\) 为真则 \(H_\ell\) (\(\ell \leq k\)) 必然为真——使得停止规则自然避免多重检验问题
密度比估计的鲁棒性框架:
- 功能：确保估计误差不破坏保证
- Theorem 3.5: 量化估计误差对覆盖率的膨胀，取决于 p 值临界区域附近的加权误差
- 三种诊断工具：(1) 平衡性检查——加权后校准数据均值应接近生成数据；(2) 合成偏移验证——在标注数据中人工引入偏移检验 p 值均匀性；(3) 敏感性分析——扰动估计权重检查结论稳定性

损失函数 / 训练策略¶

打分函数 \(V\) 的四种选择：(i) Max-pooling \(V = \max_j \hat{\mu}(x_{n+j})\)，(ii) Sum-of-prediction \(V = \sum_j \hat{\mu}(x_{n+j})\)，(iii) Rank-sum \(V = \sum_j R_{n+j}\)，(iv) Likelihood ratio \(V = \sum_j \log(\hat{\mu}(x_{n+j})/(1-\hat{\mu}(x_{n+j})))\)。打分函数选择影响检验功效但不影响错误率控制。

实验关键数据¶

主实验¶

任务 1: 约束分子优化 (CMO-DRD2)，2 个生成模型：

模型	\(\alpha\)	经验错误率	平均候选集大小	认证率
Hgraph2graph	0.05	0.023	3.2	89%
Hgraph2graph	0.10	0.056	2.1	94%
SELF-EdiT	0.05	0.034	2.8	91%
SELF-EdiT	0.10	0.068	1.7	96%

任务 2: 基于结构的药物发现 (SBDD)，3 个生成模型：

模型	\(\alpha\)	经验错误率	平均候选集大小
TargetDiff	0.10	≤0.10	显著 < N
DecompDiff	0.10	≤0.10	显著 < N
MolCRAFT	0.10	≤0.10	显著 < N

所有模型 × 所有 \(\alpha\) 水平一致满足覆盖保证（经验错误率 ≤ 名义 \(\alpha\)）。

消融实验¶

消融项	影响
去除密度比校正	错误率超过 \(\alpha\)（保证失效）
不同打分函数	Max-pooling 和 Likelihood ratio 功效较好，但控制均成立
减少校准数据量	p 值方差增大但保证仍成立
估计密度比 vs 真实密度比	保证在估计误差可控时近似成立（Theorem 3.5）

关键发现¶

5 个生成模型 × 2 个任务一致有效，验证了模型无关性
候选集显著精简：从原始 \(N\) 个候选大幅缩减，减少实验成本
密度比校正是必需的：去除后错误率超 \(\alpha\)，保证失效
诚实声明能力：当生成器较弱或预算不足时，ConfHit 输出 \(\hat{N}=0\)（"不够自信"），而非给出虚假保证
鲁棒性诊断有效：平衡性检查和敏感性分析能有效识别密度比估计质量

亮点与洞察¶

首个 oracle-free 生成模型统计保证框架：利用历史数据的可交换性结构绕过了 oracle 需求，真正适用于资源受限的药物发现场景
嵌套假设避免多重检验校正：统计学上优雅——检验序列的嵌套结构使得简单的停止规则即可控制整体错误率
"认证+设计"问题拆分：清晰的问题分离使得方法逻辑透明，认证失败时也有信息价值（说明任务本身困难）
理论与实践的平衡：Theorem 3.5 的鲁棒性分析 + 三种诊断工具 = 实际部署中可量化的可靠性

局限与展望¶

实验仅用计算 oracle（DRD2 模型、AutoDock Vina）验证，未做真实湿实验
高维分子空间中密度比估计仍然困难，估计质量直接影响功效
仅处理单性质保证，多性质同时保证（如活性+选择性+毒性）是重要扩展方向
协变量偏移假设 \(dQ/dP(x,y)=w(x)\) 要求性质完全由结构决定，可能在某些场景下过强

评分¶

新颖性: ⭐⭐⭐⭐⭐ 问题定义新颖（oracle-free 生成保证），理论框架（嵌套检验+多测试样本 p 值）原创性强
实验充分度: ⭐⭐⭐⭐ 5 模型 × 2 任务 × 多 α 水平全面验证，鲁棒性诊断完善，但缺真实湿实验
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰，问题动机和方法逻辑紧密衔接
价值: ⭐⭐⭐⭐⭐ 直接影响生成式药物发现的实际部署决策，提供了从"试试看"到"有保证"的范式转变