ICLR 2026 学习理论概率方法分数匹配专家知识获取成对比较扩散模型回火场随机效用模型

Score-Based Density Estimation from Pairwise Comparisons¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hYojmwkXwQ
代码: https://github.com/petrus-mikkola/pairwise2diffusion
领域: 学习理论 / 概率方法 / 分数匹配 / 专家知识获取
关键词: 成对比较, 分数匹配, 扩散模型, 回火场, 随机效用模型

一句话总结¶

本文证明了"目标信念密度的分数"与"可观测的胜者边缘密度的分数"之间存在一个逐点共线的精确关系——二者被一个位置相关的「回火场」$\tau(x)$ 连接，从而把"只能拿到成对比较 $x \succ x'$"这种几乎无法直接学密度的难题，转化为"用分数模型学胜者密度 + 估一个回火场再反回火"的可解流程，仅用数百到数千次成对比较就能学到复杂的多峰信念密度。

研究背景与动机¶

领域现状：用归一化流、扩散模型从样本 $x \sim p(x)$ 学复杂密度已经相当成熟，高维自然图像都能学得不错。但很多现实场景拿不到 $p(x)$ 的样本，只能拿到人/专家对两个候选的偏好比较：给定 $x$ 与 $x'$（它们采样自一个与 $p$ 无关的采样分布 $\lambda$），专家只告诉你"哪个更可能/更好"，即三元组 $(x, x', x \succ x')$。这正是统计学里的「专家先验获取」（prior elicitation）以及"用成对偏好量化 LLM 的概率化知识"、"从人类反馈学习"的核心设定。

现有痛点：成对比较只反映"谁的密度更高"这一序关系，并不直接给出密度本身，从这种数据里恢复 $p(x)$ 本质上是个欠定问题。此前 Mikkola et al. (2024) 给出了第一个解法：用归一化流从比较与排序里学密度，并经验性地观察到 $p(x)$ 像是胜者点分布的某个常数回火版本 $p(x) \approx [p_w(x)]^\tau$。但这个 link 只是启发式的、缺乏理论刻画；而且流方法需要额外正则来防止"概率质量逃逸"，并且要靠更费力的多项排序（multiple-item ranking）才能达到最佳精度。

核心矛盾：常数回火 $p \approx p_w^\tau$ 在数学上根本不成立——一个全局常数 $\tau$ 无法在所有位置同时对齐两个密度的形状，只能近似，这是流方法精度受限、低密度区被高估的根因。

本文目标：(1) 给出 $p(x)$ 与可观测的胜者边缘密度 MWD $p_w(x)$ 之间的精确关系；(2) 基于此关系设计一个只用成对比较（最易回答、最可靠）的实用密度估计算法。

切入角度：既然此前的关系是"密度层面的近似回火"，作者改从分数（score）层面重新审视——因为对一个常数回火密度 $p \propto q^\tau$，其分数恰好满足 $\nabla \log p = \tau \nabla \log q$（两分数严格共线）。把这个观察推广到"局部、逐点"的回火，也许就能得到一个精确关系。

核心 idea：用一个位置相关的回火场 $\tau(x)$（而非常数 $\tau$）连接两个分数：$\nabla \log p(x) = \tau(x)\, \nabla \log p_w(x)$。学胜者密度的分数用分数匹配解决，回火场用 Bradley–Terry 模型的解析公式估计，最后用「分数缩放的退火 Langevin 动力学」从 $p(x)$ 采样。

方法详解¶

整体框架¶

本文要解决的是：手里只有成对比较数据 $\mathcal{D} = \{[x_i, x_i'] \mid x_i \succ x_i'\}$，目标是恢复专家的信念密度 $p(x)$。整套方法的核心洞察是把"恢复 $p$"拆成两件可分别求解的事——学一个能观测的代理密度（胜者密度 $p_w$）的分数，再乘上一个把代理分数"反回火"成目标分数的场 $\tau(x)$——因为本文证明了 $\nabla \log p(x) = \tau(x)\nabla \log p_w(x)$。

具体地，假设专家选择服从随机效用模型（RUM），效用为 $u(x) = \log p(x)$；两个候选独立采样自 $\lambda(x)$，专家选中点的密度就是胜者边缘密度（MWD） $p_w(x) = \int p_{x\succ x'}(x,x')\,dx'$。整个 pipeline 是：(1) 用一个带 mask 机制的扩散模型同时学胜者—败者联合分布及其边缘 MWD 的分数；(2) 在 Bradley–Terry 模型下用解析公式 + 重要性采样估计回火场 $\tau(x)$；(3) 用 $\tau(x)$ 缩放后的分数 $\tau(x)s_\theta(x,\sigma)$ 跑退火 Langevin 动力学，采出 $p(x)$ 的样本。为处理非均匀的 $\lambda$，先用 Rosenblatt 变换把空间重参数化为均匀，扩散模型在变换后的空间训练，样本再逆变换回去。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["成对比较数据<br/>x ≻ x'，采样自 λ"] -->|Rosenblatt 变换<br/>使 λ 均匀| B["回火场理论<br/>∇log p = τ(x)·∇log p_w"]
    B --> C["MWD 分数建模<br/>带 mask 的联合/边缘扩散"]
    B --> D["回火场估计<br/>BT 解析公式 + 重要性采样"]
    C --> E["分数缩放退火 Langevin<br/>用 τ(x)·s_θ 采样"]
    D --> E
    E --> F["信念密度 p(x) 的样本"]

关键设计¶

1. 回火场：把"密度层面的常数回火"升级为"分数层面的逐点共线"

这一设计直击常数回火 $p \approx p_w^\tau$ 不成立的痛点。作者先定义：若 $\tau: \mathcal{X} \to (0,\infty)$ 使两密度分数几乎处处满足 $$\nabla \log p(x) = \tau(x)\, \nabla \log p_w(x),$$ 则称 $\tau$ 为 $p$ 与 $p_w$ 之间的回火场。这表示两个分数向量在每个位置都共线，只是缩放系数随位置变化。关键贡献是：在两类 RUM（Bradley–Terry 与指数 RUM）下，这样的回火场确实存在且有闭式。对 $W \sim \mathrm{Gumbel}(0,s)$ 的 Bradley–Terry 模型（定理 3.1）， $$\tau(x) = s\left(\frac{\int_\mathcal{X} \frac{1}{1+r_s(x,x')}\,dx'}{\int_\mathcal{X} \frac{r_s(x,x')}{(1+r_s(x,x'))^2}\,dx'}\right),\qquad r_s(x,x') := p^{1/s}(x')\,p^{-1/s}(x),$$ 其中 $r_s$ 是 $1/s$-回火的"同一密度在两个输入上的比值"。这个关系之所以强，是因为它把"从比较学密度"这个欠定问题，约化成"学一个可观测的 $p_w$ 的分数 + 求一个标量场"，且只要 $\tau(x)$ 已知就能精确恢复 $p$。作者还用 Fisher 散度 $\mathcal{F}(p,q)=\int \|\nabla\log p - \nabla\log q\|^2 p\,dx$ 量化逼近误差，并证明（命题 3.2/3.3）：最优常数回火 $\tau^\star = \mathbb{E}_{X\sim p}[\omega(X)\tau(X)]$ 只是回火场按分数模长加权的期望，常数回火的残差 $\mathcal{F}(p,q^\tau)=\mathbb{E}_{X\sim p}[|\tau-\tau(X)|^2\|\nabla\log q(X)\|^2]$ 恰好刻画了"用常数代替场"的代价——这从理论上解释了为何此前的常数回火法精度受限。

2. 带 mask 的 MWD 分数建模：用一个网络同时吃胜者和败者，并能边缘化出 $p_w$

要用上面的关系，必须先拿到 $\nabla \log[p_w(x) * \mathcal{N}(0,\sigma^2 I)]$ 的估计。痛点是：MWD 是联合密度 $p_{x\succ x'}(x,x')$ 的边缘，若只用胜者点训练，就浪费了"败者点也携带'此处胜者更少'的信息"。作者的做法是把分数网络参数化为 $s_\theta(x, x', \sigma, \text{joint}, \text{temp})$，用条件 flag 控制行为：joint=1 时网络同时吃 $x,x'$、建模联合分数 $\nabla\log p_{x\succ x'}$；joint=0 时把败者 $x'$ 用噪声 mask 掉，网络只建模边缘 MWD 分数 $\nabla\log p_w(x)$；temp=1 则把输出额外乘上回火场，直接给出 $\tau(x)\nabla\log p_w(x)=\nabla\log p(x)$。训练时以 0.5 概率随机 mask 败者，于是单个网络通过去噪分数匹配（DSM, 式 1）既学到联合分布、又能边缘化出 MWD，并支持从信念密度采样。架构上紧贴 EDM 风格，用扰动核 $p_\sigma(\tilde x|x)=\mathcal{N}(\tilde x; x, \sigma^2 I)$。这种"联合 + mask 边缘化"比"只用胜者"更准，因为它显式利用了败者信息。

3. 回火场估计：把闭式公式里的密度比交给一个简单 MLE 网络 + 重要性采样

回火场公式（式 6）形式很友好——它只依赖信念密度比 $r(x,x') := p(x')/p(x)$ 和 RUM 噪声级 $s$，与归一化常数无关，因此可直接用极大似然估计。注意这里的"密度比"是同一密度在两个输入上的比，不是两个不同密度之比。作者用一个神经网络 $r_\theta$ 参数化（密度比或其对数），通过最大化 Bradley–Terry 似然来训练，损失为 $$\mathcal{L}(\theta) \propto \mathrm{Softplus}\!\left(\log r_\theta(x,x')/s\right),$$ 其中 $x,x'$ 分别是胜者、败者点，Softplus 损失来自 $W\sim\mathrm{Gumbel}(0,s)$ 的假设。把学到的 $r_\theta$ 代回式 6 的积分，积分用重要性采样估计，且用训练好的 MWD 模型当重要性采样器（重要性权重对应 MWD 扩散模型密度的倒数）。得到的插值蒙特卡洛估计量是一致但有偏的——这与自归一化重要性采样、强化学习里 every-visit 离策略值估计同款，因其方差性质更好而被接受。

4. 分数缩放的退火 Langevin 采样：用 $\tau(x)s_\theta$ 直接采信念密度

有了 MWD 分数网络 $s_\theta(x,\sigma)$ 和回火场估计 $\tau(x)$，就能从 $p(x)$ 采样：在退火 Langevin 动力学（ALD, 式 2）里把分数替换成 $\tau(x)s_\theta(x,\sigma)$ 即可。回火场关系（式 5）表明，当 $\sigma=0$ 时这个过程等价于直接从 $p(x)$ 采样，且 ALD 在小噪声极限下理论上成立，因此它是天然合适的采样器。代价是：$\sigma>0$ 时该过程并非精确（因为回火场是为 $\sigma=0$ 的真实分数推导的，对加噪后的分数只是近似），作者实验证明其经验效果很好，但精确的误差刻画留作未来工作。

损失函数 / 训练策略¶

MWD 网络：去噪分数匹配 $\mathcal{L}(\theta)=\mathbb{E}_{x}\mathbb{E}_{\sigma}\mathbb{E}_{\tilde x}\,\ell(\sigma)\|\nabla_{\tilde x}\log p_\sigma(\tilde x|x)-s_\theta(\tilde x,\sigma)\|^2$，训练中以 0.5 概率把败者替换为 $\mathcal{N}(0,\sigma_t^2 I)$ 噪声、置 joint=0，实现联合与边缘的混合训练；采用 EDM 风格的 MLP 分数网络与噪声调度 $\sigma_{\min}\to\sigma_{\max}$。
密度比网络：Softplus 形式的 Bradley–Terry 似然，需谨慎做 $\ell_2$ 正则（正则与噪声级 $s$ 的设定都会影响场的整体尺度与尾部）。
采样：沿递减噪声调度 $\sigma_{\max}=\sigma_T>\dots>\sigma_1=\sigma_{\min}$ 跑 $\tau(x)$-缩放的 ALD。

实验关键数据¶

设定：$d$ 维目标查询 $1000d$ 次成对比较（远低于扩散模型常见的大样本规模）。$d\le 4$ 时 $\lambda$ 均匀，$d>4$ 时 $\lambda$ 取对角高斯（方差为目标的 3 倍）。专家模拟用 Bradley–Terry、效用 $\log p$、噪声 $s=\sqrt{6/\pi^2}$（单位方差）。指标为 Wasserstein 距离与平均边缘总变差 MMTV，均越低越好。对比基线是 Mikkola et al. (2024) 的流方法；本文两个变体为 score–$\tau(x)$（完整回火场）与 score–$\tau^\star$（命题 3.2 的最优常数回火）。

主实验¶

目标分布 $p(x)$	Wasserstein flow	Wasserstein score–$\tau(x)$	MMTV flow	MMTV score–$\tau(x)$
Onemoon2D	1.37	0.37	0.54	0.22
Twomoons2D	1.29	0.44	0.53	0.14
Ring2D	0.87	0.39	0.40	0.26
Gaussian4D	6.12	1.40	0.72	0.44
Mixturegaussians4D	3.75	1.09	0.53	0.22
Stargaussian6D	2.25	1.28	0.19	0.16
Mixturegaussians10D	1.41	1.33	0.19	0.26
Gaussian16D	5.50	5.00	0.16	0.13

低维 + 均匀采样（实验 1）上分数法全面占优，Wasserstein 至少降 50%、MMTV 至少降 25%。可视化显示流方法明显高估低密度区，本文估计"几乎完美"。

消融实验¶

配置	表现	说明
score–$\tau(x)$（完整场）	多数任务最好	逐点回火，能对齐密度形状
score–$\tau^\star$（常数回火）	略逊于 $\tau(x)$，但仍胜流方法	验证"建模整个场"的价值
flow（基线）	最差	常数回火 + 流，低密度区被高估

高维 + 高斯采样（实验 2）上 Wasserstein 仍胜流方法，但 MMTV 二者接近——偶尔因高估回火场导致边缘过紧，拖累 MMTV。实验 3 用 Claude 3 Haiku 当专家代理、仅 220 次成对比较查询加州房产信念，估计出的边缘（如 AveRooms、MedInc）与经验数据分布形状相似，验证了即便数据不严格服从 RUM 也适用。

关键发现¶

建模整个回火场 $\tau(x)$ 通常优于最优常数 $\tau^\star$，但即便退化到常数回火，本文也已胜过流方法——说明"切换到分数视角 + 联合 mask 建模"本身就带来增益，逐点场是锦上添花。
流方法的系统性失败模式是高估低密度区（如 Ring2D 圆环中心被过采样），因为常数回火无法在中心 downweight；本文用回火场恰好能压低这些位置。
失败模式：高维高斯采样下偶发回火场高估 → 边缘过紧 → MMTV 变差；极端少样本（< $100d$ 次比较）下扩散模型训练不稳，需要仔细调超参。

亮点与洞察¶

从"密度近似"换到"分数精确"的视角跃迁：常数回火 $p\approx p_w^\tau$ 永远只能近似，但放到分数层面、允许逐点缩放，就得到一个精确恒等式 $\nabla\log p=\tau(x)\nabla\log p_w$——这是把一个老 heuristic 升级成定理的关键一招，思路可迁移到任何"两密度形状相关但不等"的场景。
回火场闭式只依赖密度比、与归一化常数无关，所以能用极简的 Bradley–Terry MLE 估出来，绕开了从比较数据估配分函数的老大难问题。
一个网络靠 mask flag 同时承担联合建模与边缘化：用 0.5 概率随机 mask 败者，把"联合 + 边缘 + 回火输出"统一进一个分数网络，既榨干败者信息又支持直接采信念密度，是很可复用的多任务分数建模 trick。
用 MWD 扩散模型自己当重要性采样器去估回火场积分，闭环复用、省掉额外采样器。

局限与展望¶

作者承认的局限：(1) $\sigma>0$ 时分数缩放 ALD 非精确，误差未刻画；(2) 回火场估计对密度比网络 $r_\theta$ 的正则、RUM 噪声级 $s$ 敏感，错配会导致回火场系统性欠估/高估；(3) 相比流方法，本文采样需数值求解概率流 ODE，更慢、逐点密度评估也更不稳。
采样分布 $\lambda$ 决定难度：当 $p$ 的支撑远小于 $\lambda$ 时，两个候选都落在低密度区的概率剧增，几乎无法学好 $p$；高维更甚。作者建议引入主动学习把采样集中到 $p$ 的高密度区。
理论覆盖面：闭式回火场只对 Bradley–Terry 与指数 RUM 证明，像 Thurstone–Mosteller 这类选择概率需积分的模型不保证有闭式。
应用展望：$p$ 与 $p_w$ 的连接或可用于用成对数据微调生成模型——当 $\lambda$ 是某 prompt $c$ 条件下的预训练生成模型时，在个体级数据上训练 MWD 与回火场可得到概率化奖励模型 $\text{reward}(c,x)=p(x|c)$。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"常数回火近似"升级为"逐点回火场精确恒等式"，并据此把分数模型引入从比较学密度，理论与方法都新。
实验充分度: ⭐⭐⭐⭐ 覆盖 2D–16D 多种几何/多峰目标 + LLM 代理实验，但真实人类专家实验缺席，高维 MMTV 偶有退化。
写作质量: ⭐⭐⭐⭐⭐ 理论铺垫（回火场定义、定理、命题）层层递进，方法与算法伪代码清晰。
价值: ⭐⭐⭐⭐ 为专家先验获取、LLM 概率化知识量化、偏好驱动的生成模型微调提供了可落地的理论基础与算法。

配置	表现	说明
score–\(\tau(x)\)（完整场）	多数任务最好	逐点回火，能对齐密度形状
score–\(\tau^\star\)（常数回火）	略逊于 \(\tau(x)\)，但仍胜流方法	验证"建模整个场"的价值
flow（基线）	最差	常数回火 + 流，低密度区被高估