Conf-Gen: Conformal Uncertainty Quantification for Generative Models¶
会议: ICML 2026
arXiv: 2605.28920
代码: https://github.com/layer6ai-labs/conf-gen (有)
领域: 不确定性量化 / 生成模型
关键词: 保形预测, 不确定性量化, 生成模型, 保形风险控制, 选择函数
一句话总结¶
提出 Conf-Gen 框架,将保形风险控制(CRC)扩展到生成任务,通过参数化选择函数和可容许性函数为 LLM 问答、图像生成、对话系统、AI Agent 等任务提供形式化的不确定性保证,同时放松了 CRC 的单调性等理论假设。
研究背景与动机¶
领域现状:保形预测(Conformal Prediction, CP)及其扩展保形风险控制(CRC)是监督学习中不确定性量化的主流框架,能为预测集合提供分布无关的覆盖率保证。然而,当前 AI 的重大突破主要由无监督生成模型(LLM、扩散模型、Agent 系统等)驱动,这些模型并不直接适用于传统的 CP/CRC 框架。
现有痛点:已有将保形方法应用于生成模型的工作大多是高度任务特定的。例如 Quach et al. (2024) 和 Kladny et al. (2025) 将 CRC 用于 LLM 问答,但它们对生成的答案集合进行多轮独立筛选(如似然过滤、去重过滤),每个筛选步骤需要在不同数据子集上独立校准,导致最终产出的保形集合过大、实用性差。此外,CRC 要求效用函数几乎处处单调递增,这在许多生成任务中并不成立。
核心矛盾:CRC 的理论框架仅支持集合输出、要求可调用的效用函数、需要严格的单调性假设,而生成任务的输出可以是序列等更复杂结构,可容许性可能由人工评估定义(不可调用),且单调性可能仅在条件期望意义下成立。
本文目标:设计一个统一框架,将保形方法推广到各类生成任务,同时放松 CRC 的理论假设使其更广泛适用。
切入角度:作者观察到 CRC 中的几个限制(输出必须是集合、效用函数必须可调用、单调性必须几乎处处成立)并非理论证明的本质要求,而是可以被系统性放松的。
核心 idea:引入参数化选择函数 \(\mathbf{C}_\lambda\) 处理输入与生成序列,配合可容许性函数 \(A\),将 CRC 的校准机制推广为"找到最小 \(\lambda\) 使校准集上平均可容许性达标",从而为任意生成任务提供形式化保证。
方法详解¶
整体框架¶
Conf-Gen 的输入是一个三元组 \(\mathbf{G} = (X, \mathbf{Y}, Y_{\text{GT}})\),其中 \(X\) 是条件输入(如问题),\(\mathbf{Y} = (Y_1, \dots, Y_T)\) 是生成模型产出的一系列输出(如多个回答),\(Y_{\text{GT}}\) 是可选的 ground truth。框架包含三个核心组件:选择函数族 \(\mathbf{C}_\lambda\)、可容许性函数 \(A\) 和校准数据集 \(\mathbf{D}_{:n}\)。校准阶段在标注数据上找到最小的 \(\hat{\lambda}\) 使平均可容许性超过阈值 \(\frac{n+1}{n}\gamma\);推理阶段用 \(\mathbf{C}_{\hat{\lambda}}\) 处理新输入,输出的结构(集合或序列)可以获得形式化的可容许性下界保证 \(\mathbb{E}[A^{(n+1)}(\hat{\lambda})] \geq \gamma\)。
关键设计¶
-
参数化选择函数族 \(\mathbf{C}_\lambda\):
- 功能:将输入 \(X\) 和生成序列 \(\mathbf{Y}\) 映射到输出空间 \(\mathcal{S}\)(可以是集合、序列或单个元素),\(\lambda\) 越大输出越保守
- 核心思路:定义基于分数的选择策略,例如 \(\mathbf{C}_\lambda(x, \mathbf{y}) = \mathbf{y}_{:\tau(x,\mathbf{y},\lambda)}\),其中 \(\tau(x,\mathbf{y},\lambda) = \inf\{t : \texttt{accum}(S_1^\uparrow, \dots, S_t^\uparrow) > \lambda\} \wedge |\mathbf{y}|\) 是基于累积分数的停止时刻。由于选择函数作为 \(\lambda\) 的函数仅有有限个像,即使 \(\Lambda\) 是无穷集合也可以高效校准
- 设计动机:与 CRC 中 \(\mathcal{C}_\lambda\) 只能输出集合不同,\(\mathbf{C}_\lambda\) 允许输出序列或单元素,且以生成序列 \(\mathbf{Y}\) 作为额外输入,天然适配生成任务。有限像性质使得即使可容许性由人工评估(不可调用)定义,校准仍然可行
-
可容许性函数与实例级分解:
- 功能:度量选择函数输出的质量,\(A(x, \mathbf{C}_\lambda(x, \mathbf{y}), y_{\text{GT}}) \in [0, \infty]\),值越大越好
- 核心思路:将全局可容许性分解为 \(A(x, \mathbf{y}, y_{\text{GT}}) = \texttt{agg}(A_1', \dots, A_T')\),其中 \(A_t' = A'(x, y_t, y_{\text{GT}})\) 是单个生成元素的实例级可容许性,\(\texttt{agg}\) 可以是 max(至少一个好答案)或 min(所有答案都好)。这样只需评估 \(\sum_{i=1}^n T_i\) 次 \(A'\),而非为每种 \(\mathbf{C}_\lambda\) 重新评估
- 设计动机:将可容许性评估与选择函数解耦,更换选择函数不需要重新收集标注,大幅降低校准成本
-
\(\gamma\)-sensible 条件与放松的单调性假设:
- 功能:为保形保证 \(\mathbb{E}[A^{(n+1)}(\hat{\lambda})] \geq \gamma\) 提供充分条件
- 核心思路:CRC 要求效用函数 \(U^{(i)}(\lambda)\) 几乎处处关于 \(\lambda\) 单调递增,Conf-Gen 将其放松为条件期望单调,即 \(\lambda \mapsto \mathbb{E}[A^{(n+1)}(\lambda) \mid \lambda', \lambda'']\) 单调递增即可。此外还放松了右连续性假设,并给出了更一般的上界 \(\mathbb{E}[A^{(n+1)}(\hat{\lambda})] \leq \gamma + \frac{a_{\max}}{n+1} + \mathbb{E}[H]\)
- 设计动机:在图像去记忆化等任务中,更多修改提示词的图像偶尔反而更"记忆化",导致几乎处处单调性不成立,但条件期望单调性仍然合理
实验关键数据¶
主实验¶
论文在 5 个任务上验证了 Conf-Gen 的有效性:
| 任务 | 数据集 | 模型 | 评估方式 | 保证内容 |
|---|---|---|---|---|
| 开放域问答 | TriviaQA | LLaMA-13B | 自动 (LLM judge) | 输出序列含正确答案 |
| 非记忆化图像生成 | Webster (2023) | Stable Diffusion v1.5 | 人工评估 (10人) | 生成图像未记忆训练数据 |
| 对话式 AI | ClariQ | LLM | 二值标签 | 已问足够多澄清问题 |
| Agent 网页任务 | WebVoyager | LMM Agent | LLM judge | 轨迹序列含成功完成方案 |
| 随机森林 | Click Prediction | RF (100棵树) | 准确率 | 子集含 ≥k 棵正确树 |
| 任务 | Conf-Gen 优势 | 具体表现 |
|---|---|---|
| 问答 (vs Quach et al.) | 更短的输出序列 | 在多数 \(\gamma\) 值下序列长度更短,且 LLM 调用次数更少(得益于 partial generation) |
| Agent 任务 | 显著提升成功率 | 单次尝试 ~60% → 平均不到 2 次尝试即保证 >65%,允许更多尝试可达 ~80% |
| 随机森林 | 有效剪枝 | 选中树数量在大范围 \(\gamma\) 下低于 59 棵(\(2k-1\)),保证多数投票正确 |
关键发现¶
- 与 Quach et al. (2024) 相比,Conf-Gen 避免了多轮独立校准带来的数据浪费和集合膨胀,因此在 TriviaQA 上产出更紧凑的保形集合
- 在图像去记忆化任务中,\(\lambda \mapsto A(\lambda)\) 并非几乎处处单调,但 \(\gamma\)-sensible 条件在实践中仍然成立,保形保证依然得到满足
- 对话任务中,\(\gamma\) 增大时所需澄清轮次增加但不会退化为总是最大轮数,说明 Conf-Gen 输出非平凡(不是总选最保守方案)
亮点与洞察¶
- 有限像技巧使人工评估校准可行:选择函数作为 \(\lambda\) 的函数仅有有限个像,因此即使可容许性由人工标注定义(不可调用),也只需对有限个输出做评估即可完成校准。这一设计优雅地绕过了"无法对连续 \(\lambda\) 做人工标注"的障碍
- 框架的统一性极强:保形事实性(conformal factuality)、保形摘要(conformal summarization)、保形 Agent 错误归因等此前独立的方法都可以作为 Conf-Gen 的特例恢复,Table 1 清晰总结了各种选择函数/聚合函数的兼容组合
- partial generation 节省推理成本:基于累积分数的停止策略允许在推理时只生成 \(\tau\) 个输出就停止,避免浪费生成剩余 \(T - \tau\) 个元素的计算
局限与展望¶
- 校准数据集仍需覆盖足够多样的输入场景,对分布偏移的鲁棒性未深入探讨
- \(\gamma\)-sensible 的条件期望单调性虽然比 CRC 的假设弱,但在某些场景下仍难以验证
- 保形保证是边际期望意义上的(\(\mathbb{E}[A^{(n+1)}(\hat{\lambda})] \geq \gamma\)),对单个测试样本不提供逐例保证
- 未来方向包括优化各任务中的分数函数设计、探索更多 Conf-Gen 的新应用场景
相关工作与启发¶
- vs Quach et al. (2024) / Kladny et al. (2025):它们对 LLM 答案集合做多轮独立筛选,每轮需独立校准,导致保形集合过大。Conf-Gen 用单一 \(\lambda\) 统一校准,产出更紧凑的集合
- vs Mohri & Hashimoto (2024) 保形事实性:仅处理声明级别的事实性筛选(\(\texttt{agg} = \min\)),是 Conf-Gen 的一个特例(Table 1 第三行)
- vs Feng et al. (2026) 保形 Agent 错误归因:仅处理连续子序列包含首次错误的场景,同样可归入 Conf-Gen 框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 CRC 系统推广到生成任务的统一框架,理论假设放松有实质创新
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个不同任务覆盖 LLM/图像/对话/Agent/传统 ML,含人工评估
- 写作质量: ⭐⭐⭐⭐⭐ 论述清晰,从 CP→CRC→Conf-Gen 的推导链条严密,running example 贯穿全文
- 价值: ⭐⭐⭐⭐ 为生成模型不确定性量化提供了统一的保形框架,应用前景广