Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking with Probabilistic Evaluation and Calibration¶

会议: CVPR 2026
arXiv: 2501.14894
代码: 有（项目页面）
领域: 视频理解 / 人体姿态
关键词: 视线追踪, 不确定性估计, 后验校准, 域转移, 评价指标

一句话总结¶

本文提出一种高效的后验校准方法（基于保序回归），通过调整不确定性模型的输出分布使其匹配观测分布，解决了域转移导致的视线追踪不确定性估计不准确问题，并引入 Coverage Probability Error (CPE) 作为比 EUC 更可靠的不确定性评估指标。

研究背景与动机¶

领域现状：基于外观的视线追踪使用深度学习从眼部图像直接预测视线角度。现有不确定性感知方法通过概率建模（异方差回归）、分位数回归或对比学习来估计预测不确定性。但这些模型的不确定性估计仅在训练域内可靠。
现有痛点：
- 域转移（跨被试、跨数据集）导致不确定性估计的数值严重不准确——模型输出的不确定性量级与实际误差分布不匹配
- 现有方法仅将不确定性用于相对排序（如识别异常值），而非提供可靠的绝对数值（如 95% 置信区间）
- 广泛使用的评估指标 Error-Uncertainty Correlation (EUC) 基于虚假因果假设：不确定性的真正来源是认知和随机不确定性，而非预测误差，因此 EUC 无法可靠评估不确定性质量
核心矛盾：不确定性估计模型在训练时学到了数据特定的条件分布偏差。当域转移发生时，学到的"输入→不确定性量级"的映射关系不再准确，但参数级别的适应（如迁移学习、元学习）需要大量目标域数据来重新学习条件分布。
本文目标
- 如何在域转移下用少量校准样本高效修正不确定性估计？
- 如何设计一个正确评估不确定性质量的指标（替代有问题的 EUC）？
切入角度：将不确定性修正视为输出级别的条件分布匹配问题——不修改模型参数，而是在输出端用保序回归学习一个从"名义概率"到"实际概率"的映射函数。
核心 idea：用保序回归做后验校准，仅需约 50 个校准样本就能将预测分布与观测分布对齐，同时用 CPE 指标替代有虚假因果问题的 EUC 来正确评估不确定性质量。

方法详解¶

整体框架¶

整体流程分为两部分：(1) CPE 评估指标——量化预测分布与观测分布在全概率范围上的偏差；(2) 后验校准——用保序回归学习概率映射函数 \(R: [0,1] \to [0,1]\)，在推理时将未校准模型的名义概率映射为修正概率。校准过程不修改原始不确定性模型的任何参数，仅在输出端添加一层轻量级映射。

关键设计¶

Coverage Probability Error (CPE) 评估指标:
- 功能：正确评估不确定性模型的校准质量
- 核心思路：对于理想的不确定性模型，名义累积概率 \(p\) 处的分位数值应当恰好包含 \(p\) 比例的真实标签。CPE 在整个 \([0,1]\) 概率范围上评估这种偏差：\(CPE = \sqrt{\frac{1}{n}\sum_{i=0}^{n} p_{err}(\frac{i}{n})^2}\)，其中 \(p_{err}(p) = |p - \hat{P}(p)|\)，\(\hat{P}(p)\) 是经验覆盖概率（真实标签落在 \(p\) 分位数以下的比例）。使用 \(n=11\) 个等间隔检查点平衡精度和效率
- 设计动机：EUC 假设不确定性由预测误差引起（虚假因果），即使完美的不确定性模型也无法达到 EUC=1。CPE 直接度量"预测分布是否匹配观测分布"，是正确的 proper scoring 指标
基于保序回归的后验校准:
- 功能：将未校准模型的不准确概率输出修正为准确的概率估计
- 核心思路：训练一个映射 \(R: [0,1] \to [0,1]\)，将名义概率映射到实际概率。例如，如果名义 0.9 分位数实际只覆盖 80% 的真值，则当需要 80% 覆盖时使用名义 0.9 分位数。优化目标为 \(\min \sum_{i=1}^T \|\hat{P}(p_i) - R(p_i)\|\)，约束 \(R(p_i) \leq R(p_{i+1})\)（单调性，保持 CDF 性质）。使用保序回归 (isotonic regression) 实现，这是一种非参数方法，保持 CDF 单调性且不对误校准模式做参数化假设。推理时的修正分位数为 \(\tilde{\theta}_{t,quant} = F_t^{-1}(R(p))\)
- 设计动机：参数级别适应（迁移学习等）需要大量目标域数据重新学习条件分布；后验校准仅需约 50 个样本学习输出映射，数据效率极高。保序回归比温度缩放等参数化方法更灵活，能捕获非线性误校准模式
校准样本数量分析:
- 功能：确定最少需要多少校准样本
- 核心思路：实验发现 10-20 个样本时改善最显著，50 个样本左右性能趋于饱和，从 CPE 约 40% 降至约 5%。因此默认使用 50 个校准样本
- 设计动机：实际应用中校准样本获取成本决定了方法的可行性，50 个样本的要求非常实际

损失函数 / 训练策略¶

底层不确定性模型：异方差高斯回归，NLL 损失 \(NLL_t = \frac{1}{2}ln(\hat{\sigma}_t^2) + \frac{l_{n,t}}{2\hat{\sigma}_t^2}\)，其中 \(l_{n,t}\) 为 smooth L1 loss
校准模型：保序回归，仅需名义概率-经验概率对作为训练数据
使用 ResNet-18 和 ResNet-50 两种骨干网络验证通用性

实验关键数据¶

主实验 — CPE 校准效果¶

测试场景	训练集	测试集	骨干	CPE(未校准)	CPE(校准后)	改善
跨被试	MPII	MPII	ResNet18	23.17%	5.18%	↓78%
跨被试	RTGene	RTGene	ResNet18	19.60%	5.26%	↓73%
跨数据集	MPII	RTGene	ResNet18	20.60%	4.75%	↓77%
跨数据集	RTGene	MPII	ResNet18	27.21%	4.84%	↓82%
跨数据集	MPII	RTGene	ResNet50	20.10%	4.63%	↓77%
跨数据集	RTGene	MPII	ResNet50	26.36%	4.79%	↓82%

95% 置信区间覆盖概率¶

测试场景	分位数回归	未校准	校准后	理想值
Case 1	40.5%	41.1%	88.0%	95%
Case 5	34.3%	47.8%	86.7%	95%
Case 8	16.4%	46.2%	88.6%	95%

角度误差附带改善¶

测试场景	角度误差(未校准)	角度误差(校准后)	改善
跨数据集 MPII→RTGene (R18)	13.71°	10.12°	↓26%
跨数据集 RTGene→MPII (R18)	18.46°	14.50°	↓21%
跨数据集 MPII→RTGene (R50)	13.89°	9.50°	↓32%

关键发现¶

所有校准模型 CPE 改善 >70%：Mann-Whitney U 检验 p<0.05 统计显著
校准后 CPE 稳定在约 5%：不论域转移程度如何（从 8-45% → 约 5%），展现了校准方法的鲁棒性
EUC 指标完全失效：即使 CPE 近乎完美（约 5%），EUC 仍然接近 0（表明无相关性），证实了误差与不确定性之间缺乏因果关系
校准还能顺带降低角度误差：使用中位数（而非均值）作为点估计，大多数场景改善 7-32%
50 个校准样本即可饱和：极低的数据需求使方法在实际场景中高度可行

亮点与洞察¶

对 EUC 虚假因果性的深刻洞察：指出"误差与不确定性的相关性不代表因果关系"，这个论点对整个不确定性估计领域都有警示意义。不确定性来源是认知和随机因素，而非预测误差本身
后验校准的优雅简洁性：不修改模型参数，仅用保序回归学一个概率映射，50 个样本即可。这种"最小干预"的思路可以推广到所有输出概率分布的模型
CPE 作为 proper scoring metric：直接度量预测分布与观测分布的匹配程度，科学性远优于 EUC。可视化方法（名义-观测概率图）也非常直观

局限与展望¶

当前校准对 yaw 和 pitch 独立进行，未考虑两个维度的联合分布
校准模型假设校准样本与测试样本来自相同分布——如果目标域内部分布变化很大，单一全局校准可能不够
仅在 CNN 模型（ResNet-18/50）上验证，Transformer 架构的不确定性模型待测试
保序回归是非参数方法，校准精度受限于校准样本数量和覆盖的概率范围
未与其他后验校准方法（如 Platt scaling、温度缩放）做系统对比

评分¶

新颖性: ⭐⭐⭐⭐ 将后验校准引入视线追踪不确定性估计是新的应用，CPE 指标的提出有普适价值
实验充分度: ⭐⭐⭐⭐ 四种域转移场景、两种骨干网络、校准样本数量分析、95% CI 案例研究
写作质量: ⭐⭐⭐⭐⭐ 逻辑推理严密，CPE 的数学推导和可视化解释都很清晰
价值: ⭐⭐⭐⭐ CPE 指标和后验校准方法可推广到其他不确定性感知的视觉任务