Adaptive Prediction-Powered AutoEval with Reliability and Efficiency Guarantees¶

会议: NeurIPS 2025
arXiv: 2505.18659
代码: https://github.com/kclip/R_AutoEval_plus
领域: 模型压缩
关键词: LLM evaluation, prediction-powered inference, autoevaluator, e-value, testing-by-betting

一句话总结¶

提出R-AutoEval+框架，通过在testing-by-betting框架中引入自适应权重机制动态调节对LLM评判器合成数据的依赖程度，首次在有限样本下同时保证评估可靠性和采样效率不低于仅用真实数据的方法，在LLM量化、prompt选择和推理预算分配三个场景中验证了理论优势。

研究背景与动机¶

领域现状：选择AI模型（如LLM）需要准确估计性能。传统方法（Eval）用真实人工标注数据评估，无偏但成本高昂；自动评估方法（AutoEval）用LLM-as-judge生成大量合成数据，成本低但可能引入系统性偏差。现有痛点：近期PPI方法（R-AutoEval）通过少量真实数据纠正合成数据的偏差来同时获得可靠性保证，但关键问题在于——当评判器质量不高时，R-AutoEval的采样效率反而低于纯真实数据方法R-Eval，合成数据"帮倒忙"。核心矛盾：无法事先知道评判器质量的好坏，因此需要一种方法在评判器好时充分利用合成数据提升效率，差时自动退化到纯真实数据方法。切入角度：将e-value的多策略赌注机制与PPI++的正则化系数ρ结合，通过在线学习自动发现最优的合成数据权重。

方法详解¶

整体框架¶

R-AutoEval+基于testing-by-betting框架进行模型评估。给定目标风险水平α，将评估形式化为假设检验问题：原假设H₀: R>α（模型风险超标）vs 备择假设H₁: R≤α（模型满足要求）。通过顺序处理n个真实数据点，构建e-value统计量E_n，当E_n≥1/δ时拒绝原假设，保证误判概率≤δ。R-AutoEval+的创新在于维护S个候选依赖因子ρ_s ∈ {0, ..., 1}，ρ=0对应纯R-Eval，ρ=1对应R-AutoEval，通过自适应权重在线选择最优ρ。

关键设计¶

PPI++有效观测变量构造:
- 功能：将真实数据和合成数据融合为单个无偏风险估计
- 核心思路：对每个候选因子ρ_s，构造有效观测 ℓ_{s,i}^f = (ρ_s/r)·Σℓ(X̃,f(X̃)) + ℓ(X_i,Y_i) - ρ_s·ℓ(X_i,f(X_i))，其中第一项是合成数据的加权贡献，后两项是偏差修正项。该估计是无偏的且有界
- 设计动机：ρ_s控制对合成数据的依赖程度——越大越依赖合成数据，方差可能更低（好评判器）或更高（差评判器）；ρ_s=0则完全忽略合成数据，退化为标准Eval
指数权重自适应更新机制:
- 功能：在线学习各候选因子ρ_s的最优分配权重
- 核心思路：维护S组独立e-value {E_{s,i}}，权重按 w_{s,i} = w_{s,0}·E_{s,i-1} / Σ w_{s',0}·E_{s',i-1} 更新——累积证据（即e-value）越大的ρ_s获得越大权重
- 设计动机：这等价于指数权重预测算法，具有次线性regret保证（Lemma 1），能在处理O(log S)个样本后识别最优依赖程度
多策略e-value融合:
- 功能：将S个候选策略的观测融合为单一有效e-value统计量
- 核心思路：全局e-value定义为 E_n = Π_{i=1}^n Σ_{s=1}^S w_{s,i}·(1 - λ_{s,i}·(ℓ_{s,i}^f - α))，凸组合形式保证E[E_n|R>α]≤1
- 设计动机：赌注变量λ_{s,i}通过Universal Portfolio（UP）或WSR策略在线设定，UP满足次线性regret，WSR计算更高效

损失函数 / 训练策略¶

方法完全无需训练。赌注变量通过UP策略（将λ的连续域离散化为10000网格点）或WSR策略（基于在线方差估计）自适应设定。初始权重设为均匀分布w_{s,0}=1/S。

实验关键数据¶

主实验¶

任务/评判器	指标	R-AutoEval+	R-Eval	R-AutoEval	提升
GSM8K / GPT-4.1 (93%)	平均token数	856.13	983.34	883.99	-127 vs R-Eval
GSM8K / Llama-3.3-70B (89%)	平均token数	847.05	983.34	854.42	-136 vs R-Eval
GSM8K / BitNet (35%)	平均token数	942.47	983.34	950.27	-41 vs R-Eval
TriviaQA量化 / Llama-3.3-BF16	模型大小	最小	中等	可能更大	选到更小模型
Instruct-Induction	prompt长度	最短	基线	依赖评判器	一致最优

消融实验¶

配置	关键指标	说明
S=2 vs S=5 vs S=10 vs S=20	871.67→855→856→856 tokens	S≥5时性能饱和
UP vs WSR赌注策略	性能接近	WSR计算更快
数据排序敏感性	R-AutoEval+: 6.88% vs R-Eval: 8.62%	归一化偏差，R-AutoEval+更鲁棒
同家族评判器Qwen3-32B	R-AutoEval比R-Eval差24 tokens	偏好泄露导致偏差修正难

关键发现¶

R-AutoEval+在所有场景下均保持可靠性（风险不超过α=0.1），同时选出更高效的模型
权重演化热图直观展示自适应性：高质量评判器(γ=0.99)时权重集中在ρ≈0.9，低质量(γ=0.7)时集中在ρ≈0
同家族LLM的评判-被评估组合因偏好泄露效应降低auto-eval效果

亮点与洞察¶

首个同时提供有限样本可靠性和采样效率双保证的LLM自动评估方法
Theorem 3严格证明：样本复杂度 ≤ min{R-Eval, R-AutoEval}，最坏情况不退化
偏好泄露的发现很有趣：同家族评判器虽"准确度高"，但偏差修正更困难，反而不如异家族评判器有效
e-value的可选停止性使框架天然适合在线/流式评估场景

局限与展望¶

需要未标注真实数据来生成合成评估结果
候选因子集{ρ_s}预先固定且离散化，未实现连续优化
效率保证仅在δ充分小（即高可靠性要求）时成立
计算复杂度是R-AutoEval的S倍（O(SnG)），但相对LLM推理成本可忽略

评分¶

新颖性: ⭐⭐⭐⭐ e-value赌注框架与PPI++结合是创新的交叉，自适应权重更新优雅解决核心矛盾
实验充分度: ⭐⭐⭐⭐ 三个LLM评估场景+丰富消融（S、策略、评判器质量、排序敏感性、置信区间）
写作质量: ⭐⭐⭐⭐ 理论推导严谨，Example 1/2的可视化有效辅助理解
价值: ⭐⭐⭐⭐ 对LLM自动评估建立统计保证有重要实际意义，代码开源