Bayesian Post Training Enhancement of Regression Models with Calibrated Rankings¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=b2tBRLic4V
代码: https://github.com/ktirta/regref
领域: 回归增强 / 贝叶斯推断 / 排序学习
关键词: Bradley-Terry, 贝叶斯后处理, 成对排序, 温度校准, 分子性质预测

一句话总结¶

RANKREFINE++ 把"回归器预测"与"专家成对排序"通过贝叶斯推断融合成一个严格对数凹的后验，并用温度校准 + 准确率门控解决 Bradley-Terry 在大参考集下的尺度失配与曲率支配问题，在不重训回归器的前提下显著提升预测精度。

研究背景与动机¶

领域现状：回归模型在材料科学、药物发现等领域是替代昂贵实验/仿真的关键代理，但精确的绝对数值标签（如"分子 x 在 1 nM 下有毒"）采集慢且贵，导致数据稀缺、模型精度受限。相比之下，成对排序（"x 是否比 y 更毒？"）易于从人类专家或 LLM 评委处低成本获得——对人类降低认知负担、缓解尺度解读偏差，对 LLM 则在技术领域展现出强成对比较能力。

现有痛点：已有的"用排序增强回归"方法各有缺陷。Projection（Yan et al. 2024）把回归预测约束到非矛盾排序蕴含的可行区间；RankRefine（Wijaya et al. 2025）用逆方差加权融合回归输出与"纯排序估计"。这些方法要么是启发式约束，要么对排序信息的建模缺乏统一概率框架，更没有诊断出排序似然在何时会反而拖累性能。

核心矛盾：直接把 Bradley-Terry 排序似然加进来看似免费午餐，但参考集规模 \(k\) 越大、排序器越准，排序似然的曲率（Fisher 信息）越会"支配"回归似然——一旦 Bradley-Terry 模型与真实排序器行为失配，这种支配会把预测拽向一个有偏的"伪真值"，导致性能不升反降。

本文目标：在不重训回归器、只用极少绝对标签 + 廉价成对排序的前提下，建立一个有理论保证、能自适应排序器质量的逐查询后处理增强方法。

核心 idea：[贝叶斯融合 + 校准] 把回归器和排序器各自看作对未知标量 \(y_0\) 的一条似然，用贝叶斯规则相乘得到一维后验；再针对 Bradley-Terry 的失配引入"温度校准"对齐 sigmoid 斜率与标签尺度，并用"准确率门控"按排序器可信度调节其影响。

方法详解¶

整体框架¶

给定预训练回归器 \(f\)（对查询 \(x_0\) 给出预测 \(\hat{y}^{re}_0\)）和一个对 \(x_0\) 与 \(k\) 个已知标签参考项做成对比较的专家排序器 \(R\)，RANKREFINE++ 把"高斯回归似然"和"Bradley-Terry 排序似然"相乘构成后验，通过 MAP/MLE（牛顿法）求出精炼预测 \(\hat{y}^{rr}_0\)，全程不改回归器参数。

flowchart LR
    A[查询 x0] --> B[预训练回归器 f]
    B --> C["回归似然<br/>N(ŷre0, σ²re)"]
    A --> D[专家排序器 R]
    E["参考集 D<br/>{yi} 已知标签"] --> D
    D --> F["成对排序 ri"]
    F --> G["校准 Bradley-Terry<br/>温度 τ + 门控"]
    G --> H["排序似然 p(G|y0)"]
    C --> I["后验 ∝ 回归×排序×先验"]
    H --> I
    I --> J["MAP/MLE 牛顿迭代<br/>→ 精炼预测 ŷrr0"]

关键设计¶

1. 贝叶斯一维后验：把融合重构成概率推断而非启发式约束。 假设回归器与排序器在给定真值 \(y_0\) 下条件独立，贝叶斯规则给出 \(p(y_0\mid\hat{y}^{re}_0,G)\propto p(\hat{y}^{re}_0\mid y_0)\,p(G\mid y_0)\,p(y_0)\)。回归似然取高斯 \(\mathcal{N}(\hat{y}^{re}_0;y_0,\sigma^2_{re})\)；排序似然取 Bradley-Terry 全成对乘积 \(p(G\mid y_0)=\prod_{i=1}^k s(y_0-y_i)^{r_i}(1-s(y_0-y_i))^{1-r_i}\)，其中 \(s\) 是 sigmoid。对应的对数后验目标 \(L(y)=-\frac{1}{2\sigma^2_{re}}(\hat{y}^{re}_0-y)^2+\sum_i[r_i\log s(y-y_i)+(1-r_i)\log(1-s(y-y_i))]+\log p(y)\) 被证明严格对数凹（Lemma 3.1），从而解唯一存在（Corollary 3.2），可用快速牛顿步求最大值。这个框架还把 SOTA 统一进来：对 Bradley-Terry 似然在纯排序 MLE \(\hat{y}^{ra}_0\) 处做二阶展开会得到一个高斯近似 \(\mathcal{N}(y;\hat{y}^{ra}_0,\sigma^2_{ra})\)，两高斯相乘即恢复 RankRefine 的逆方差加权估计（Proposition 3.3）——证明 RankRefine 只是本框架在"高斯化排序似然"下的特例。

2. 失效模式诊断：尺度失配 + 曲率支配会把预测拽向伪真值。 作者把退化拆成两个可证明的机制。其一是软-硬计数失配（Lemma 3.4）：纯排序 MLE 满足 \(\sum_i s(\hat{y}^{ra}_0-y_i)=m\)，其中 \(m=\sum_i r_i\) 是被排在 \(y_0\) 之下的参考数（硬计数），而左边是 sigmoid 软计数，二者相等的解 \(\tilde{y}_0\) 即使在排序器完全准确时也可能落在真正的可行区间 \((y_m,y_{m+1})\) 之外，形成有偏的"伪真值"。其二是曲率支配：排序似然的 Fisher 信息 \(I_{rank}(y)=\sum_i u_i(y)(1-u_i(y))\) 随 \(k\) 线性增长（Lemma 3.5），而牛顿步本质是用 Fisher 信息作权重的信息加权平均 \(y\leftarrow\frac{I_{reg}\hat{y}^{re}_0+I_{rank}(y)\tilde{y}^{ra}(y)}{I_{reg}+I_{rank}(y)}\)（Lemma 3.6）。由于回归项信息 \(I_{reg}=1/\sigma^2_{re}\) 是常数，\(k\) 一大排序项就主导更新；且支配所需的准确率阈值 \(a_{thr}(y)=\tfrac12+\tfrac{|y-\hat{y}^{re}_0|}{2k\sigma^2_{re}|p^*-\hat{p}(y)|}\) 随 \(k\) 以 \(1/k\) 速率下降（Lemma 3.7）。两者叠加（Corollary 3.8）：当 \(k\) 和 \(a\) 都够大时，有偏的伪真值被放大主导，base 版本反而比纯回归器更差。

3. 温度校准：对齐 sigmoid 斜率与标签尺度，消除软-硬计数失配。 退化的根因是当许多成对差 \((y_a-y_b)\) 落在 sigmoid 的过渡区（而非饱和尾部）时排序目标有偏，这是一个单位/尺度问题。作者引入温度 \(\tau\) 把 \(u_i(y)=s(y-y_i)\) 替换为 \(v_i(y;\tau)=s((y-y_i)/\tau)\)，使温度化软计数 \(\sum_i v_i\) 能匹配硬计数 \(m\)，并把排序曲率变为 \(I_{rank}(y;\tau)=\tau^{-2}\sum_i v_i(1-v_i)\)，从而可在大 \(k\) 下控制支配。\(\tau\) 无需额外标注：直接在参考集已知标签对上做单参数逻辑回归 \(\Pr(r=1\mid y_a,y_b;\hat\omega)=s(\hat\omega(y_a-y_b))\)，取 \(\tau=\hat\tau_{cal}=1/\hat\omega\)。\(\tau<1\) 会增大排序曲率、把更新推向排序目标——当排序器准确时这允许"无偏的排序支配"，提升性能。

4. 准确率门控：按排序器可信度平滑插值，避免噪声排序反噬。 温度校准在排序器准确时有效，但排序器不准时过大的曲率会让噪声排序信号主导而伤害性能。作者加一个准确率感知软门控 \(\tau(a)=1+(\hat\tau_{cal}-1)(w(a))^\gamma\)，其中 \(w(a)=\max(0,2a-1)\in[0,1]\)，\(\gamma\ge1\)。于是 \(a\approx0.5\)（排序器无信息）时 \(\tau(a)\approx1\)（退回未校准、不放大），\(a\to1\) 时 \(\tau(a)\to\hat\tau_{cal}\)（充分校准），中间准确率平滑插值。最终算法（MLE-GatedTemp）即：估温度 → 估准确率算门控 \(\tau\) → 用 \(s(\cdot/\tau)\) 替换跑牛顿迭代，并附带后验不确定度 \(\sigma^2_{post}\approx(I_{reg}+I_{rank}(\hat{y}^{rr}_0;\tau))^{-1}\)。

实验关键数据¶

主实验（Oracle 排序器，9 个 TDC ADMET 分子数据集，\(k=30\)）¶

评测指标 \(\beta\equiv\text{MAE}_{post}/\text{MAE}_{base}\)（越低越好）。

方法	表现概述（\(\beta\) 越低越好）
Regressor-only	\(\beta=1\)（基线）
Projection (Yan 2024)	中准确率区常 \(>1\)（退化），仅在完美准确率收敛到好
Bradley-Terry / Thurstone（纯排序）	大 \(k\) 下明显退化
RankRefine (Wijaya 2025, 前 SOTA)	高准确率处性能饱和不再提升
RANKREFINE++ (MLE-GatedTemp)	全准确率区 \(\beta<1\)，中等准确率(65%–90%)增益最大，高准确率持续提升

核心数字：在 30 个参考样本 + 65% 准确率排序器的现实设置下，RANKREFINE++ 取得 19.33% 的 MAE 中位降幅，相对 RankRefine 的 9.78% 降幅是 97.65% 的相对提升；跨 12 个数据集中位提升 97.65%，且在消费级 CPU 上高效运行。

消融实验（Clearance Hepatocyte，四个变体 × \(k\in\{3,10,20,30,50,100\}\)）¶

变体	行为
MAP（高斯先验）	大 \(k\) 退化，但先验起正则作用，比 MLE 退化更轻
MLE	大 \(k\) 下因曲率支配 + 软硬计数失配最易退化
MLE-Temp	温度校准修复尺度失配，缓解高准确率退化，但低准确率时反而更差
MLE-GatedTemp（完整版）	门控消除上述权衡，全准确率区稳健，\(k=3\) 即有效

关键发现¶

退化源被验证：纯 Bradley-Terry/Thurstone 也随 \(k\) 退化，证实退化来自排序似然本身（Corollary 3.8）；准确率退化阈值随 \(k\) 增大而下移，印证 Lemma 3.7。
跨域跨模型泛化：在 3 个非分子表格数据集（农业产量/学生成绩/留学成本）上，对 Random Forest 和 MLP 两类回归器均 \(\beta<1\)。
真实 LLM 排序器可用：用 ChatGPT5、Claude4 做 SMILES 成对比较（成对排序准确率 PRA 约 52%–72%），RANKREFINE++ 在多数数据集上仍优于 RankRefine 与 Projection（如 VDss 上 \(\beta\approx0.85\)）。

亮点与洞察¶

把启发式融合升级为有理论保证的概率推断：严格对数凹 → 唯一解 + 快速牛顿，并证明前 SOTA RankRefine 是其高斯特例，框架统一性强。
诊断与解法闭环：不是只提方法，而是先用 Fisher 信息/软硬计数严格刻画"排序似然何时反噬"，再针对性地用温度 + 门控对症下药，理论与工程一一对应。
零额外标注的校准：温度直接从参考集已知标签对拟合，门控只需估排序器准确率，落地成本极低，且能跑在消费级 CPU 上。
契合 LLM-as-a-judge 趋势：成对排序正是 LLM 的强项，本方法把廉价 LLM 排序转化为可量化、可校准的回归增益。

局限与展望¶

依赖参考集质量与覆盖：温度校准依赖参考集已知标签对能代表查询附近的尺度分布，参考集偏置或覆盖不足时校准可能失准。
准确率估计的可得性：门控需要先验/验证估计排序器准确率 \(a\)，真实场景中 \(a\) 本身有估计误差，其敏感性论文未深入探讨。
单标量回归为主：核心推导针对一维标量标签，多目标回归仅在附录讨论，高维/结构化输出的推广待验证。
条件独立假设：回归器与排序器条件独立的假设在二者共享特征/同源（如同一 LLM 既打分又排序）时可能不成立。

评分¶

新颖性 ⭐⭐⭐⭐：贝叶斯统一框架 + 严格诊断排序似然失效模式 + 温度/门控对症校准，理论与方法都有原创性，但建立在 RankRefine 等已有工作的延长线上。
实验充分度 ⭐⭐⭐⭐：12 个跨域数据集、oracle 与真实 LLM 双排序器、四变体消融、\(k\) 扫描、双回归器，覆盖全面；主表多为图示 \(\beta\) 曲线、数值表格略少。
写作质量 ⭐⭐⭐⭐⭐：从动机到失效诊断（Lemma 链）再到解法逻辑严密，公式与图示（Fig.1 软硬计数、Fig.2 流程）清晰，定理-工程对应明确。
价值 ⭐⭐⭐⭐：在数据稀缺科学领域（药物/材料）即插即用、零重训、CPU 可跑、契合 LLM 排序趋势，实用价值高；适用边界（需参考集 + 准确率估计）限制了普适性。