Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking with Probabilistic Evaluation and Calibration¶
会议: CVPR 2026
arXiv: 2501.14894
代码: 有(项目页面)
领域: 视频理解 / 人体姿态
关键词: 视线追踪, 不确定性估计, 后验校准, 域转移, 评价指标
一句话总结¶
本文提出一种高效的后验校准方法(基于保序回归),通过调整不确定性模型的输出分布使其匹配观测分布,解决了域转移导致的视线追踪不确定性估计不准确问题,并引入 Coverage Probability Error (CPE) 作为比 EUC 更可靠的不确定性评估指标。
研究背景与动机¶
-
领域现状:基于外观的视线追踪使用深度学习从眼部图像直接预测视线角度。现有不确定性感知方法通过概率建模(异方差回归)、分位数回归或对比学习来估计预测不确定性。但这些模型的不确定性估计仅在训练域内可靠。
-
现有痛点:
- 域转移(跨被试、跨数据集)导致不确定性估计的数值严重不准确——模型输出的不确定性量级与实际误差分布不匹配
- 现有方法仅将不确定性用于相对排序(如识别异常值),而非提供可靠的绝对数值(如 95% 置信区间)
- 广泛使用的评估指标 Error-Uncertainty Correlation (EUC) 基于虚假因果假设:不确定性的真正来源是认知和随机不确定性,而非预测误差,因此 EUC 无法可靠评估不确定性质量
-
核心矛盾:不确定性估计模型在训练时学到了数据特定的条件分布偏差。当域转移发生时,学到的"输入→不确定性量级"的映射关系不再准确,但参数级别的适应(如迁移学习、元学习)需要大量目标域数据来重新学习条件分布。
-
本文目标
- 如何在域转移下用少量校准样本高效修正不确定性估计?
- 如何设计一个正确评估不确定性质量的指标(替代有问题的 EUC)?
-
切入角度:将不确定性修正视为输出级别的条件分布匹配问题——不修改模型参数,而是在输出端用保序回归学习一个从"名义概率"到"实际概率"的映射函数。
-
核心 idea:用保序回归做后验校准,仅需约 50 个校准样本就能将预测分布与观测分布对齐,同时用 CPE 指标替代有虚假因果问题的 EUC 来正确评估不确定性质量。
方法详解¶
整体框架¶
整体流程分为两部分:(1) CPE 评估指标——量化预测分布与观测分布在全概率范围上的偏差;(2) 后验校准——用保序回归学习概率映射函数 \(R: [0,1] \to [0,1]\),在推理时将未校准模型的名义概率映射为修正概率。校准过程不修改原始不确定性模型的任何参数,仅在输出端添加一层轻量级映射。
关键设计¶
-
Coverage Probability Error (CPE) 评估指标:
- 功能:正确评估不确定性模型的校准质量
- 核心思路:对于理想的不确定性模型,名义累积概率 \(p\) 处的分位数值应当恰好包含 \(p\) 比例的真实标签。CPE 在整个 \([0,1]\) 概率范围上评估这种偏差:\(CPE = \sqrt{\frac{1}{n}\sum_{i=0}^{n} p_{err}(\frac{i}{n})^2}\),其中 \(p_{err}(p) = |p - \hat{P}(p)|\),\(\hat{P}(p)\) 是经验覆盖概率(真实标签落在 \(p\) 分位数以下的比例)。使用 \(n=11\) 个等间隔检查点平衡精度和效率
- 设计动机:EUC 假设不确定性由预测误差引起(虚假因果),即使完美的不确定性模型也无法达到 EUC=1。CPE 直接度量"预测分布是否匹配观测分布",是正确的 proper scoring 指标
-
基于保序回归的后验校准:
- 功能:将未校准模型的不准确概率输出修正为准确的概率估计
- 核心思路:训练一个映射 \(R: [0,1] \to [0,1]\),将名义概率映射到实际概率。例如,如果名义 0.9 分位数实际只覆盖 80% 的真值,则当需要 80% 覆盖时使用名义 0.9 分位数。优化目标为 \(\min \sum_{i=1}^T \|\hat{P}(p_i) - R(p_i)\|\),约束 \(R(p_i) \leq R(p_{i+1})\)(单调性,保持 CDF 性质)。使用保序回归 (isotonic regression) 实现,这是一种非参数方法,保持 CDF 单调性且不对误校准模式做参数化假设。推理时的修正分位数为 \(\tilde{\theta}_{t,quant} = F_t^{-1}(R(p))\)
- 设计动机:参数级别适应(迁移学习等)需要大量目标域数据重新学习条件分布;后验校准仅需约 50 个样本学习输出映射,数据效率极高。保序回归比温度缩放等参数化方法更灵活,能捕获非线性误校准模式
-
校准样本数量分析:
- 功能:确定最少需要多少校准样本
- 核心思路:实验发现 10-20 个样本时改善最显著,50 个样本左右性能趋于饱和,从 CPE 约 40% 降至约 5%。因此默认使用 50 个校准样本
- 设计动机:实际应用中校准样本获取成本决定了方法的可行性,50 个样本的要求非常实际
损失函数 / 训练策略¶
- 底层不确定性模型:异方差高斯回归,NLL 损失 \(NLL_t = \frac{1}{2}ln(\hat{\sigma}_t^2) + \frac{l_{n,t}}{2\hat{\sigma}_t^2}\),其中 \(l_{n,t}\) 为 smooth L1 loss
- 校准模型:保序回归,仅需名义概率-经验概率对作为训练数据
- 使用 ResNet-18 和 ResNet-50 两种骨干网络验证通用性
实验关键数据¶
主实验 — CPE 校准效果¶
| 测试场景 | 训练集 | 测试集 | 骨干 | CPE(未校准) | CPE(校准后) | 改善 |
|---|---|---|---|---|---|---|
| 跨被试 | MPII | MPII | ResNet18 | 23.17% | 5.18% | ↓78% |
| 跨被试 | RTGene | RTGene | ResNet18 | 19.60% | 5.26% | ↓73% |
| 跨数据集 | MPII | RTGene | ResNet18 | 20.60% | 4.75% | ↓77% |
| 跨数据集 | RTGene | MPII | ResNet18 | 27.21% | 4.84% | ↓82% |
| 跨数据集 | MPII | RTGene | ResNet50 | 20.10% | 4.63% | ↓77% |
| 跨数据集 | RTGene | MPII | ResNet50 | 26.36% | 4.79% | ↓82% |
95% 置信区间覆盖概率¶
| 测试场景 | 分位数回归 | 未校准 | 校准后 | 理想值 |
|---|---|---|---|---|
| Case 1 | 40.5% | 41.1% | 88.0% | 95% |
| Case 5 | 34.3% | 47.8% | 86.7% | 95% |
| Case 8 | 16.4% | 46.2% | 88.6% | 95% |
角度误差附带改善¶
| 测试场景 | 角度误差(未校准) | 角度误差(校准后) | 改善 |
|---|---|---|---|
| 跨数据集 MPII→RTGene (R18) | 13.71° | 10.12° | ↓26% |
| 跨数据集 RTGene→MPII (R18) | 18.46° | 14.50° | ↓21% |
| 跨数据集 MPII→RTGene (R50) | 13.89° | 9.50° | ↓32% |
关键发现¶
- 所有校准模型 CPE 改善 >70%:Mann-Whitney U 检验 p<0.05 统计显著
- 校准后 CPE 稳定在约 5%:不论域转移程度如何(从 8-45% → 约 5%),展现了校准方法的鲁棒性
- EUC 指标完全失效:即使 CPE 近乎完美(约 5%),EUC 仍然接近 0(表明无相关性),证实了误差与不确定性之间缺乏因果关系
- 校准还能顺带降低角度误差:使用中位数(而非均值)作为点估计,大多数场景改善 7-32%
- 50 个校准样本即可饱和:极低的数据需求使方法在实际场景中高度可行
亮点与洞察¶
- 对 EUC 虚假因果性的深刻洞察:指出"误差与不确定性的相关性不代表因果关系",这个论点对整个不确定性估计领域都有警示意义。不确定性来源是认知和随机因素,而非预测误差本身
- 后验校准的优雅简洁性:不修改模型参数,仅用保序回归学一个概率映射,50 个样本即可。这种"最小干预"的思路可以推广到所有输出概率分布的模型
- CPE 作为 proper scoring metric:直接度量预测分布与观测分布的匹配程度,科学性远优于 EUC。可视化方法(名义-观测概率图)也非常直观
局限与展望¶
- 当前校准对 yaw 和 pitch 独立进行,未考虑两个维度的联合分布
- 校准模型假设校准样本与测试样本来自相同分布——如果目标域内部分布变化很大,单一全局校准可能不够
- 仅在 CNN 模型(ResNet-18/50)上验证,Transformer 架构的不确定性模型待测试
- 保序回归是非参数方法,校准精度受限于校准样本数量和覆盖的概率范围
- 未与其他后验校准方法(如 Platt scaling、温度缩放)做系统对比
相关工作与启发¶
- vs TMASS/GIMO 等视线追踪模型: 这些模型仅将不确定性用于相对排序,EUC 值低也不影响使用。本文证明了绝对数值的不确定性估计是可行且有价值的
- vs Kellnhofer (分位数回归): 分位数回归不产生完整分布预测,因此无法用 CPE 评估,且 95% CI 覆盖率极低(低至 16.4%)
- vs Monte Carlo Dropout / Ensemble: 这些方法在视线追踪中因高计算成本而很少使用,本文的后验校准方法几乎零额外计算
评分¶
- 新颖性: ⭐⭐⭐⭐ 将后验校准引入视线追踪不确定性估计是新的应用,CPE 指标的提出有普适价值
- 实验充分度: ⭐⭐⭐⭐ 四种域转移场景、两种骨干网络、校准样本数量分析、95% CI 案例研究
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑推理严密,CPE 的数学推导和可视化解释都很清晰
- 价值: ⭐⭐⭐⭐ CPE 指标和后验校准方法可推广到其他不确定性感知的视觉任务