HierUQ: Hierarchical Uncertainty Quantification with Adaptive Granularity Reconciliation for Degraded Image Classification¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 不确定性量化 / 分层分类 / 退化图像识别
关键词: 不确定性量化、分层分类、置信度回退、自步学习、多目标优化

一句话总结¶

HierUQ 针对退化（模糊/遮挡/噪声/低分辨率）图像的分层分类，用基于标签平滑 + 合理评分规则的分层不确定性量化（HUQ）给出可靠置信度，再用置信度感知的路径调整（CAPA）在不确定时自动从细粒度回退到更粗的层级，最后用自步多层联合优化（MLJO）协调多级目标，在退化遥感舰船与鸟类数据集上取得 SOTA。

研究背景与动机¶

领域现状：分层分类（Hierarchical Classification, HC）利用标签之间的语义/结构依赖（树或 DAG）来提升细粒度识别，常用于遥感舰船识别、生物多样性监测等。

现有痛点：真实场景里图像常被模糊、遮挡、噪声、低分辨率等退化污染，特征表示不可靠，模型在细粒度层往往给出低置信度的错误预测（如把退化舰船硬判成"提康德罗加级巡洋舰"，置信度仅 31%），却没有有效机制回退到更可靠的粗粒度类（如"军舰"）。鸟类识别同理（"勃兰特鸬鹚"28% 错判，而科级"鸬鹚科"有 76%）。这类置信度相关的误分类在军事、医疗等高风险场景后果严重。

核心矛盾：传统 HC 依赖单级损失 + 固定决策路径，缺三样东西——(1) 退化条件下理论上可靠的不确定性量化策略；(2) 对跨粒度的特征竞争的自适应调节（无法动态调整分类路径与层级）；(3) 多级训练目标的联合优化（各级损失各自为政，限制整体性能与泛化）。结果是误分类、过分类（over-classification）和误差传播。

本文目标：构建一个统一框架，让模型能"在图像够清晰时大胆判到物种级、在退化严重时主动回退到科/目级"，并把不确定性建模、粒度回退、自步优化三者打通。

切入角度：作者提出基于"图像退化程度 + 预测置信度"的自适应粒度选择与回退机制——及时回退到更可靠的高层类别，既减少误差传播，又为细粒度类的稳定学习打基础。

核心 idea：把可靠的不确定性量化（HUQ）当作"信号源"，驱动一个置信度感知的回退控制器（CAPA），并用自步多目标优化（MLJO）稳定整个学习轨迹。

方法详解¶

整体框架¶

HierUQ 是一个统一的 ViT 框架，处理退化图像下的分层分类，针对三大挑战——特征退化、不确定性估计、语义粒度冲突。输入是退化图像 \(X\in\mathbb{R}^{448\times448\times3}\)，输出是一条从粗到细、在不确定时会自动"剪短"的分层预测路径。整体由三个模块串起来：HUQ 负责多模态融合 + 不确定性量化与置信度校准；CAPA 负责基于双向逻辑树（BiLT）的粒度推理 + 置信度感知回退；MLJO 负责把多级目标自步联合优化。

数据流：ViT-B/16 提全局视觉特征，与语义嵌入（GloVe）经双线性注意力与语义引导跨注意力（SGCA）融合，再过门控 GNN 注入层级结构依赖，得到统一表示 \(F_{multi}\)；HUQ 在其上用分层标签平滑 + KL 约束 + Monte Carlo 采样算出每层置信度与方差；CAPA 把它当输入，用 BiLT 双向推理 + 一个 MDP 回退策略（动作 = 停留/回退/终止）决定输出到哪一层；MLJO 则在训练时用自步采样 + 动态权重平衡各级损失。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["退化图像 X"] --> B["ViT-GNN 多模态融合<br/>双线性注意力+SGCA+门控GNN"]
    B --> C["HUQ 分层不确定性量化<br/>标签平滑+KL+MC采样+校准"]
    C -->|置信度充足| D["CAPA 置信度感知路径调整<br/>BiLT双向推理+MDP回退"]
    C -->|置信度不足| D
    D --> E["输出最细可靠层级<br/>(物种/科/目)"]
    B -.训练时.-> F["MLJO 自步多层联合优化<br/>Pareto+MGDA梯度平衡"]

关键设计¶

1. HUQ：用标签平滑 + 合理评分规则 + MC 采样做层级一致的不确定性量化

针对"退化下缺理论可靠的不确定性"痛点。先在相邻层间强制概率一致性 \(P(Y^{(k)}=c_k|x)=\sum_{c_{k+1}\in\text{Children}(c_k)}P(Y^{(k+1)}=c_{k+1}|x)\)，并用 KL 约束损失 \(L_{KL}=\sum_{k=1}^{K-1}\lambda_k\cdot KL(P(Y^{(k)}|x)\,\|\,\text{Marg}(P(Y^{(k+1)}|x)))\) 把细层概率边缘化后对齐到粗层。标签平滑用层级距离驱动：定义 \(d_{hier}(c_i,c_j)=2^{-\text{LCA}(c_i,c_j)}\in(0,1]\)（LCA 是最近公共祖先深度，根深度为 0；深度 0/1/2/3 分别给 \(d=1, \tfrac12, \tfrac14, \tfrac18\)），再用 \(\tilde q(k|x)=(1-\alpha)\delta_{y,k}+\alpha\cdot\frac{\exp(-\beta d_{hier}(y,k))}{\sum_j\exp(-\beta d_{hier}(y,j))}\) 做软标签，越"近亲"的类分到越多平滑质量。可靠性用分层 Brier 分数 \(BS_{hier}=\sum_k w_k\sum_i(p_i^{(k)}-y_i^{(k)})^2\) 衡量。置信度则由逐层估计器 \(N^{conf}_k\) 给出，并通过 \(T=10\) 次随机前向的 Monte Carlo 采样算方差型不确定性 \(U^{(k)}_{var}\)，最后用温度缩放 \(\tilde P^{(k)}(c|x)=\exp(z^{(k)}_c/T_k)/\sum_j\exp(z^{(k)}_j/T_k)\) 校准（\(T_k\) 由 NLL 优化，用 ECE 评估校准质量）。这套组合让退化条件下的置信度既层级一致又可校准，是后续回退决策的可靠"信号源"。

2. CAPA：BiLT 双向推理 + MDP 回退，在不确定时从细粒度退回粗粒度

针对"过分类与误差传播"痛点。先在层级树 \(T=(V,E)\) 上构建双向逻辑树（BiLT），用自上而下 \(\phi_{TD}(h)\) 与自下而上 \(\phi_{BU}(h)\) 两路推理，并用门控自适应融合 \(z_{BiLT}=\alpha(h)\phi_{TD}(h)+(1-\alpha(h))\phi_{BU}(h)\)；为保逻辑一致还加传播约束损失 \(L_{prop}=\sum_k\sum_{v\in V_k}(z^{(k)}(v)-\sum_{u\in\text{Children}(v)}z^{(k+1)}(u))^2\)。回退本身建模成马尔可夫决策过程 \(M=(S,A,P,R)\)，状态 \(s_t=[h_t,c_t,u_t,k_t]\) 包含特征、置信度、不确定性、当前层级，动作空间 \(A=\{\text{停留},\text{回退},\text{终止}\}\)，Q 值 \(Q(s_t,a_t)=\text{MLP}([\phi_{conf}(c_t);\phi_{feat}(h_t)])\)，阈值由策略梯度优化、奖励 \(R_t\) 综合精度/效率/粒度/一致性四项，最优阈值再用高斯过程做贝叶斯优化选取。直观效果就是论文图示的"物种→科→目"逐级回退：图像清晰就判到物种，细粒度线索不可靠就退到科，退化严重再退到目，避免硬判错的细粒度标签。

3. MLJO：自步采样 + 多目标 Pareto/MGDA 平衡的多级联合优化

针对"多级目标各自为政"痛点。把 HC 重述为受约束的多目标优化，复合损失含四项：分层一致性损失 \(L_{hierarchy}=\sum_k\omega_k KL(P^{(k)}\|M^{(k,k+1)}P^{(k+1)})\)、粒度协调损失 \(L_{granularity}=\frac{\alpha}{2}[KL(p_{TD}\|p_{BU})+KL(p_{BU}\|p_{TD})]\)（拉近 BiLT 上下行两路）、分类损失 \(L_{cls}=\sum_k\omega^{adaptive}_k L^{(k)}_{CE}\)、回退惩罚 \(L_{fallback}=\lambda\cdot\text{MSE}(c^{pred}_k,c^{ideal}_k)\)。多目标用 Chebyshev 标量化 \(L_{total}=\max_j\{\lambda_j|L_j-z^*_j|\}+\rho\sum_j\lambda_j|L_j-z^*_j|\)，并用 MGDA 求最优梯度组合 \(g_{balanced}=\sum_j\alpha^*_j g_j\)（\(\alpha^*=G^{-1}\mathbf{1}/\mathbf{1}^T G^{-1}\mathbf{1}\)）。同时用自步学习：样本难度由质量分 \(Q(x_i)=\omega_1 e^{-L_i}+\omega_2\frac{1}{1+\|\nabla_\theta L_i\|^2}+\omega_3\max_k c_{i,k}+\omega_4\frac{1}{1+u_i}\) 评估，阈值 \(\lambda_t\) 动态更新、按难度给样本加权（易样本先学）。这让训练更稳、收敛更快。

损失函数 / 训练策略¶

总损失即 MLJO 的四项复合损失经 Chebyshev 标量化 + MGDA 梯度平衡（见设计 3）。训练用 SGD（momentum 0.9，weight decay \(5\times10^{-4}\)），HRSC-Deg 学习率 0.002（batch 32）、CUB-Deg 0.0001（batch 16），在 epoch 25/40 衰减 10×，在 NVIDIA V100 上训练。还引入 Lyapunov 稳定性函数 \(V(\theta,t)=\frac12\sum_j\omega_j L_j^2+\frac{\gamma}{2}\|\theta-\theta^*\|_2^2\) 与平滑权重插值 \(\omega_{smooth}=(1-\sigma(t))\omega_{stage}+\sigma(t)\omega_{adaptive}\) 控制训练节奏。

实验关键数据¶

主实验¶

两个自建退化数据集：HRSC-Deg（遥感舰船，2 级：3 个粗类 + 21 个细类，1272 训练/910 测试）与 CUB-Deg（鸟类，3 级：13 目/38 科/200 种，5994 训练/5794 测试）；退化通过变换 \(G(t,\sigma,\eta,\lambda,\delta)\) 模拟噪声/模糊/降采样/遮挡。

方法	HRSC ISDL ↑	HRSC Fine ↑	CUB ISDL ↑	CUB Species ↑
ViT-B	66.03	84.98	80.39	61.58
TransHP	71.90	88.58	87.66	76.78
SGHPN	72.73	88.87	90.71	79.54
VT-BPAN	71.05	88.81	90.99	82.98
BiLT	68.71	88.33	91.07	82.00
HierUQ-C（无双线性融合）	76.27	92.05	92.70	85.06
HierUQ（本文）	85.45	92.23	99.59	85.73

HRSC-Deg 上 HierUQ 的 ISDL 85.45% 比 SGHPN 高 +12.72%，粗类准确率达 100.00%、细类 92.23%；CUB-Deg 上 ISDL 80.91%（⚠️ 表中 CUB ISDL 一列出现 80.91 与 99.59 两处数值，疑 OCR 串列，以原文表 1 为准）比 VT-BPAN 高 +15.13%，物种级 85.73%（+2.75% vs VT-BPAN）。

消融实验¶

逐模块（Hie.=HUQ、Gra.=粒度协调、Fal.=回退）在 HRSC-Deg 上的个体效应：

配置	Lvlacc	Fine	ISDL	说明
全部关闭（baseline）	68.08	77.73	58.63	无不确定性/回退/协调
+ 仅 Fal.（回退）	71.09	85.15	67.26	ISDL +8.63，回退抑制过分类
+ 仅 Gra.（粒度协调）	70.31	86.04	—	细类 +8.31
HierUQ-C（无双线性融合）	76.45	92.05	76.27	去掉双线性融合仍强
HierUQ（完整）	78.45	92.23	85.45	完整模型

关键发现¶

HUQ 让置信度更稳：单开 HUQ 在 HRSC-Deg 把层级准确率从 68.08% 提到 71.20%、PH 从 81.30% 提到 87.38%；CUB-Deg 物种级 +3.69%。图示还显示带 HUQ 的"不确定性改善分数"全程稳定在 3.0 以上，不带则后期掉到约 1.0。
AGR/回退抑制过分类：单开粒度协调在 HRSC-Deg 细类 +8.31%、ISDL +8.89%；回退（CAHF）让 RH 提升、并通过"物种→科→目"自适应回退有效抑制误差传播。
MLJO 提速收敛：完整 MLJO 在 epoch 18 收敛（baseline 需 epoch 38），约 52.6% 提速，且最终物种准确率更高、样本权重更新更平滑。
双线性融合是性能放大器：去掉它的 HierUQ-C 仍强，但完整模型在 ISDL 上有显著跃升（如 HRSC 76.27→85.45）。

亮点与洞察¶

把"该判多细"交给不确定性来决定：最核心的洞察是退化图像下不该硬判细粒度，而应让校准后的置信度驱动一个回退控制器动态选层级——这把"宁可粗判对、不要细判错"的工程直觉形式化成了 MDP，思路可迁移到任何带层级标签 + 输入质量波动的识别任务（医学诊断、工业质检）。
不确定性建模做得"够理论"：标签平滑用 LCA 距离 \(2^{-\text{LCA}}\)、可靠性用分层 Brier、校准用温度缩放 + ECE、不确定性用 MC 方差，整套是有理论依据的合理评分规则组合，而非拍脑袋加 dropout。
多目标优化用 Chebyshev + MGDA：四个层级损失的冲突用 Pareto 标量化 + MGDA 梯度平衡处理，比简单加权更稳，是把多目标优化工具引入 HC 的一个落地范例。

局限与展望¶

数据集是自建的"退化版"（HRSC-Deg/CUB-Deg），退化由合成变换 \(G\) 模拟、且用一个冻结的预训练分层分类器做层级一致性补全，与真实退化分布的差距、以及该工具引入的潜在偏差仍需更多验证（作者声称工具与训练/测试严格隔离）。
整个系统模块极多（HUQ 的标签平滑/KL/MC/温度缩放 + CAPA 的 BiLT/MDP/贝叶斯优化 + MLJO 的 Chebyshev/MGDA/Lyapunov/自步），超参与训练复杂度高，工程复现门槛大。
⚠️ 缓存正文/表格存在数值串列与 OCR 噪声（如 CUB ISDL 列、消融表部分行），具体数字以原文为准。
仅在 2-3 级浅层级、两个领域上验证，更深层级（如生物分类学全树）和更大规模下的可扩展性未知。

评分¶

新颖性: ⭐⭐⭐⭐ 把可靠不确定性量化与置信度驱动的层级回退打通，并用 MDP/多目标优化形式化，思路较新；单个组件多为已有工具的组合。
实验充分度: ⭐⭐⭐⭐ 两数据集 + 完整逐模块消融 + 可视化分析较充分；但数据集自建、退化合成，且表格存在 OCR 噪声。
写作质量: ⭐⭐⭐ 公式与模块繁多、动机清晰，但系统过于庞杂、各模块取舍说明不足，可读性受累。
价值: ⭐⭐⭐⭐ 对高风险场景的退化图像分层识别（遥感/医疗/质检）有实际价值，"按不确定性选粒度"范式可迁移。