Learning a Distance Measure from the Information-Estimation Geometry of Data¶
会议: ICLR 2026
arXiv: 2510.02514
代码: GitHub
领域: 度量学习 / 感知质量评估
关键词: 信息估计度量, 去噪误差, 概率密度几何, 感知距离, 扩散模型
一句话总结¶
提出 Information-Estimation Metric (IEM),一种由数据概率密度几何诱导的新型距离函数,通过比较不同噪声水平下的 score 向量场来度量信号间距离,无监督训练的 IEM 在预测人类感知判断上可媲美有监督方法。
研究背景与动机¶
- 距离函数是科学和工程的核心工具,但自然信号(如图像)的感知距离缺乏精确数学定义
- 现有最佳感知度量(LPIPS、DISTS)依赖人类标注数据训练,成本高且可解释性差
- 信息论量(如互信息)对密度的全局几何不敏感,而估计论量(如去噪误差)直接与密度几何相关
- 去噪误差与 score 函数的关系(Tweedie-Miyasawa 公式)是扩散模型的基础——能否利用这一关系构建感知度量?
方法详解¶
整体框架¶
论文要解决的是一个看似无解的难题:自然信号(如图像)的感知距离一直缺乏精确的数学定义,而现有最好的感知度量(LPIPS、DISTS)都得靠大量人类标注硬学出来。IEM 的核心思路是绕开信号本身,转而比较两个信号各自"被噪声模糊后所处的概率密度长什么样"。整条计算链是:给一对信号 \(\boldsymbol{x}_1, \boldsymbol{x}_2\) 在一系列信噪比 \(\gamma\) 上加噪,用一个训练好的去噪器(即扩散模型里的 score 网络)估出两点的 score 向量场(对数密度的梯度),取两者的差并沿 \(\gamma\) 从 0 积分到上限 \(\Gamma\),开方即得距离。它的理论基石是 pointwise I-MMSE 公式——一个信号的对数概率可以拆成最优去噪器在不同 SNR 上的去噪误差,因此 score 网络天然就能算出这个距离,整个过程不碰任何人类标注。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["一对信号<br/>x₁, x₂"] --> B["逐信噪比 γ 加噪<br/>γx + wᵧ"]
B --> C["去噪器(扩散 score 网络)<br/>估两点 score 场"]
C --> D["IEM 定义<br/>score 场差 ‖·‖² 沿 γ∈[0,Γ] 积分开方"]
D -->|"二阶展开"| G["局部黎曼度量<br/>刻画各点敏感方向"]
D -->|"可学习 f 调制各 γ 权重"| E["广义 IEM<br/>适配失真/纹理任务"]
D --> F["感知距离 / 优化目标"]
E --> F
关键设计¶
1. IEM 定义:把距离建立在密度几何而非像素差上
感知距离难以定义的根源在于,像素层面接近的两张图人眼看起来可能差很远,反之亦然。IEM 的做法是绕开信号本身,转而比较两点 \(\boldsymbol{x}_1, \boldsymbol{x}_2\) 在各噪声水平下所处密度的 score 场差异,并对信噪比 \(\gamma\) 积分到上限 \(\Gamma\):
其中 \(\gamma\) 为信噪比、\(\mathbf{w}_\gamma\) 为维纳过程噪声。因为 score 函数恰好可由去噪误差表出(Tweedie–Miyasawa 关系),把训练好的去噪器插进去、再对一维的 \(\gamma\) 做数值积分就能算出这个距离,于是距离的语义完全由数据分布的几何、而非人为设计的特征决定。
2. 度量性质:证明它是一个数学上合法的距离
一个能用作优化目标的度量必须满足对称性、非负性、正定性和三角不等式,否则会出现"A 像 B、B 像 C,但 A 与 C 距离突然爆炸"之类的病态。论文证明对任意 \(\Gamma>0\),IEM 恰好满足全部四条。更重要的是当先验密度为高斯、\(\Gamma\to\infty\) 时它退化为经典的 Mahalanobis 距离 \(\text{IEM} = \sqrt{(\boldsymbol{x}_1 - \boldsymbol{x}_2)^\top \Sigma^{-1} (\boldsymbol{x}_1 - \boldsymbol{x}_2)}\),这个闭式解既是理论自洽的验证,也说明 IEM 会沿协方差大的方向"放松"、沿协方差小的方向"收紧",与人对自然信号的敏感模式一致。
3. 局部黎曼度量:刻画距离在每个点附近的敏感方向
把平方 IEM 在某点做二阶展开,可以得到一个局部黎曼度量张量 \(\boldsymbol{G}(\boldsymbol{x}, \Gamma)\):
它的直觉是:在对数密度曲率最高的区域、以及那些会让信号概率剧烈变化的扰动方向上,度量更敏感。这解释了为什么 IEM 对"偏离数据流形"的扰动(如非结构化噪声)反应强烈,而对沿流形的细微变化相对宽容——正是这种各向异性让它贴近人类感知。要注意这是单向关系:IEM 由全局距离导出 \(\boldsymbol{G}\),但 IEM 本身并不等于 \(\boldsymbol{G}\) 诱导的测地线距离。
4. 广义 IEM:用可学习权重适配不同感知任务
单一固定的 IEM 难以同时擅长失真评估和纹理相似性这两类相反需求,前者要对局部偏差敏感、后者要对全局统计敏感。为此引入一个二阶可微的标量函数 \(f\) 来调制不同 SNR 上 score 差异的权重,得到广义 \(\text{IEM}_f\)。代价是 \(\text{IEM}_f\) 一般不再是严格度量(可能违反对称性或三角不等式),但这对许多应用并非缺点。\(f\) 既可手工选取(如平方型 \(\text{IEM}_{sq}\) 偏向纹理统计),也可在少量标注上拟合成 \(f_\omega\),从而让同一框架在所有数据集上都取得强结果。
损失函数 / 训练策略¶
去噪器采用 Hourglass Diffusion Transformer (HDiT),在 ImageNet-1k 256×256 上以标准 MSE 去噪损失训练,噪声水平按 log-uniform 调度采样以覆盖宽 SNR 范围。注意训练阶段只学去噪、不见任何感知标注;计算 IEM 时把这个去噪器代入定义式,再对一维的 \(\gamma\) 积分做数值求解即可。
实验关键数据¶
主实验(SRCC 与人类 MOS 的相关性)¶
| 方法 | 是否监督 | TID2013 | LIVE | CSIQ | TQD(纹理) |
|---|---|---|---|---|---|
| PSNR | 否 | 0.69 | 0.87 | 0.81 | 0.34 |
| SSIM | 否 | 0.64 | 0.91 | 0.82 | 0.51 |
| LPIPS | 是 | 0.71 | 0.94 | 0.88 | 0.48 |
| DISTS | 是 | 0.83 | 0.95 | 0.93 | 0.83 |
| TOPIQ | 是 | 0.86 | 0.97 | 0.95 | 0.67 |
| IEM (无监督) | 否 | 0.83 | 0.96 | 0.94 | 0.51 |
| IEM_sq (无监督) | 否 | 0.66 | 0.82 | 0.79 | 0.79 |
| IEM_fω (有监督f) | 部分 | 0.84 | 0.96 | 0.94 | 0.77 |
消融实验(Max Differentiation Competition)¶
| 操作 | IEM 结果 | DISTS 结果 | 说明 |
|---|---|---|---|
| 最小化度量(PSNR=10dB) | 无伪影高质量 | 明显伪影 | IEM作为优化目标更鲁棒 |
| 最大化度量(PSNR=10dB) | 非结构化噪声 | 模式化伪影 | IEM对偏离数据支撑的扰动最敏感 |
关键发现¶
- 无监督 IEM 在 TID2013/LIVE/CSIQ 上与最佳有监督方法竞争(SRCC 0.83-0.96)
- \(\text{IEM}_{sq}\) 在纹理相似性(TQD)上表现优异,\(f\) 的选择控制全局 vs 局部失真敏感度
- 学习 \(f_\omega\) 后可同时在所有数据集上取得强结果
- IEM 最小化生成的图像无伪影,说明可作为独立优化目标
亮点与洞察¶
- 信息论与估计论的深刻联系为构建感知度量提供了原理性基础
- 高斯情况下退化为 Mahalanobis 距离提供了优美的理论锚点
- 等距线可以不连通(高斯混合情况),反映了度量对密度全局几何的适应性
- 为从无标注数据推导感知度量这一基本问题提供了突破性方案
局限与展望¶
- 计算成本高:需在多个 SNR 水平上运行去噪器并求积分,比 LPIPS 慢得多
- 超参 \(\Gamma\) 的选择缺乏系统性原则
- 目前仅在 256×256 图像上验证
- 作为优化目标的应用(如图像恢复、压缩)有待探索
相关工作与启发¶
- 建立在 I-MMSE 公式(Guo et al. 2005)和 Tweedie-Miyasawa 公式之上
- 与扩散模型共享理论基础(score function = 去噪误差),但目的不同
- 为无监督特征学习和度量学习提供了新视角
- 可扩展到音频等其他连续信号域
技术细节补充¶
- 去噪器使用 Hourglass Diffusion Transformer (HDiT),对图像分辨率线性缩放
- 在 ImageNet-1k 256×256 上训练,使用 log-uniform 噪声级别调度
- 高斯分布先验下 IEM = Mahalanobis 距离,有闭形解
- 拉普拉斯先验的例子展示 IEM 沿概率密度山脊分布差异化的局部敏感度
- \(\Gamma=1/4\) 在标准 IQA 基准上效果最佳,\(\Gamma=10^6\) 在纹理数据集上效果最佳
- IEM 最小化作为优化目标时无伪影,超越 DISTS 等有监督方法
- Mismatched IEM 可用于评估不同生成模型的差异
- 代码已开源,包含去噪器训练、IEM 计算和实验复现的全部细节
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从信息估计理论推导感知度量,理论贡献突出
- 实验充分度: ⭐⭐⭐⭐ 全面的基准比较和可视化分析,但缺少大尺度应用
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨优美,插图直观有力
- 价值: ⭐⭐⭐⭐⭐ 为感知度量学习提供了全新的理论框架