HEDP: A Hybrid Energy-Distance Prompt-based Framework for Domain Incremental Learning¶
会议: ICML 2026
arXiv: 2605.05776
代码: 有 (论文末附公开仓库)
领域: 持续学习 / 领域增量 / 提示学习
关键词: 领域增量学习, 提示学习, 能量模型, Helmholtz 自由能, CLIP
一句话总结¶
借鉴 Helmholtz 自由能的物理直觉,把每个领域的提示参数训练出一条"压缩到边界 \(\Theta\)、对齐到中线 \(\Delta\)"的能量曲线,推理时再用能量因子 + 距离因子联合加权各领域提示,在 CDDB / DomainNet / CORe50 三个 DIL 基准的未知领域上分别提升 1.76 / 3.12 / 2.57 个百分点。
研究背景与动机¶
领域现状:领域增量学习 (DIL) 要求模型按顺序在多个领域上训练(如不同天气下的自动驾驶检测),训练时不能回放旧领域数据,推理时既要在见过的已知领域上保持精度,又要泛化到未知领域。主流路线是冻结预训练大模型(如 CLIP),每个领域学一组 prompt 参数;代表方法有 CP-Prompt、S-Prompts、MoP-CLIP、ESN。
现有痛点:(1) 已知和未知领域之间总是 trade-off——CP-Prompt 已知领域好但未知差,MoP-CLIP 反过来;(2) 推理时怎么"选用哪个领域的 prompt" 是核心问题,现有方法要么用距离 (容易在重叠区误判),要么用聚类 (粗粒度时边界模糊);(3) 单领域 prompt 容易过拟合到自身分布,与其他领域 prompt 在共享空间里反而会拉大重叠。t-SNE 可视化显示 Domain B 样本在 CLIP 空间里反而离 Domain A 的聚类点更近。
核心矛盾:领域之间在共享特征空间里既相似又不同,单一信号(距离或能量)只能看到一个侧面——距离反映全局语义结构(CLIP 学到的),能量反映 prompt 调出来的局部分布敏感性。两者错误模式不同,但单独都不够稳定。
本文目标:(1) 让训练时每个领域 prompt 的能量分布"对得齐",使能量真的能反映"样本是否属于本领域";(2) 推理时设计一个能量 + 距离的混合信号,结合各自优点同时抵消对方弱点。
切入角度:把数据在特征空间里的统计分布类比成物理学中的能量场,借 Helmholtz 自由能 \(E(x) = -kT \ln[\sum_y e^{H(x)[y]/kT}]\) 给每个样本对每个 prompt 算一个标量能量。理想情况下,本领域 prompt 给本领域样本打低能、非本领域样本打高能。
核心 idea:用一个"边界损失 + 中线损失"组合的能量正则项把每个领域 prompt 的能量分布约束到统一标尺;推理时把能量因子和距离因子相加再 softmax,得到混合权重,对各领域 prompt 的预测做加权求和。
方法详解¶
整体框架¶
冻结 CLIP ViT-B/16 主干。训练:每个领域独立训一组视觉 prompt \(P_v^S\) 和文本 prompt \(P_t^S\),损失是分类交叉熵 \(\mathcal{L}_{ce}\) 加能量正则 \(\lambda \mathcal{L}_{reg}\),权重 \(\lambda = 0.05\)。推理:对每个测试样本同时算 (a) 在冻结 CLIP 空间里到各领域聚类中心的距离 \(D^i(x)\);(b) 在每个 prompt 模型下的能量 \(E^i(x)\)。把两者归一化成相对因子 \(EF^i, DF^i\) 后相加得到 \(F^i(x) = EF^i/\alpha + DF^i/\beta\),softmax 得到权重 \(W^i\),混合各领域预测 \(P_{mix}(x) = \sum_i W^i P^i(x)\)。
关键设计¶
-
能量正则损失(边界 + 中线):
- 功能:让每个领域 prompt 训出来的能量分布既不"散得太开"也不"挤得太紧",跨领域能量能直接比较。
- 核心思路:能量定义为 \(E(x) = -kT \ln[\sum_{y=1}^U e^{H(x)[y]/kT}]\)(Helmholtz 自由能)。正则由两部分组成:边界损失 \(\mathcal{L}_{border} = \frac{1}{|\mathcal{D}_t|}\sum \max(0, E(x) - \Theta)\) 只惩罚能量超过 \(\Theta = -32\) 的部分,把本领域样本压到低能侧;中线损失 \(\mathcal{L}_{midline} = |\Delta - \frac{1}{|\mathcal{D}_t|}\sum E(x)|\) 把均值拉到 \(\Delta = -40\)。
- 设计动机:作者画了四种正则组合 (无 / 只边界 / 只中线 / 完整) 下的能量分布对比图:只用边界,跨域能量可能都被压到 \(\Theta\) 以下但相对位置乱;只用中线,分布形状不受约束,仍可能出现 \(E^B(x^A) < E^A(x^A)\) 这种倒挂。两者结合后才能稳定满足 \(E^s(x^s) < E^i(x^s) (\forall i \neq s)\)。
-
能量因子 vs 距离因子的混合:
- 功能:在推理时给每个领域算一个综合"相似度因子",决定该领域 prompt 在预测里占多大权重。
- 核心思路:能量因子 \(EF^i(x) = E_{\min} - E^i(x)\) 取负偏移,范围 \((-\infty, 0]\),值越大表示样本在第 \(i\) 个 prompt 下能量越低、置信越高;距离因子 \(DF^i(x) = D_{\min} - D^i(x)\) 用 \(K\)-means 在冻结 CLIP 空间里给每个领域算 \(K\) 个聚类中心,再算样本到最近中心的余弦距离。混合因子 \(F^i(x) = EF^i(x)/\alpha + DF^i(x)/\beta\),最后 \(W^i = \text{softmax}(F^i)\)。
- 设计动机:作者在附录用一阶 Taylor 展开论证了 \(\nabla_x EF\) 沿 prompt 参数方向(捕捉领域统计差异),而 \(\nabla_x DF\) 沿冻结 CLIP 语义方向(捕捉全局语义),两者梯度近似正交,错误模式不相关。也就是说,能让单一信号失误的扰动,往往不会同时让另一个失误,混合后误差互相抵消。\(\alpha = \beta = 0.6\) 时已知领域偏倚距离、未知领域偏倚两者平衡,符合理论预期。
-
能量正则隐式平滑能量地形:
- 功能:让能量函数对未知领域样本的偏移更稳定。
- 核心思路:附录的 Proposition 2 证明:把能量输出约束在 \((-\infty, \Theta]\) 且均值在 \(\Delta\),等价于隐式压缩了能量函数在数据流形上的局部 Lipschitz 常数 \(K\);对于 OOD 样本 \(x_{out} = x_{in} + \Delta_x\),能量偏移满足 \(|E(x_{out}) - E(x_{in})| \leq K\|\Delta_x\|\),\(K\) 变小意味着 OOD 样本不会突然掉到 known domain 的低能区域,从而抵抗灾难性遗忘。
- 设计动机:传统能量训练容易产生"能量崖",OOD 样本一旦贴近边界就被错误打成低能。把能量分布压缩到紧凑区间相当于"软化地形",给 OOD 样本留出能量缓冲。
损失函数 / 训练策略¶
总损失 \(\mathcal{L}_{total} = \mathcal{L}_{ce} + \lambda \mathcal{L}_{reg}\),\(\mathcal{L}_{reg} = \mathcal{L}_{border} + \mathcal{L}_{midline}\)。超参:\(\Theta = -32, \Delta = -40, K = 5, \alpha = \beta = 0.6, \lambda = 0.05\)。SGD + 余弦退火,初始 lr 0.01。
实验关键数据¶
主实验¶
| 数据集 | 场景 | 前 SOTA | HEDP | 提升 |
|---|---|---|---|---|
| CDDB-Hard | 已知 AA / AF | CP-Prompt 93.65 / -0.25 | 93.72 / -0.08 | +0.07 / +0.17 |
| CDDB-Hard | 未知 AA | MoP-CLIP 81.98 | 83.74 | +1.76 |
| DomainNet | 已知 AA (全) | CP-Prompt 73.15 | 74.19 | +1.04 |
| DomainNet | 未知 AA | MoP-CLIP 63.97 | 67.09 | +3.12 |
| CORe50 | 未知 AA | ESN 91.80 | 94.37 | +2.57 |
HEDP 同时在已知和未知领域上拿到最佳,不存在 trade-off。
消融实验¶
| 方案 | 能量边界 | 能量中线 | 能量因子 | 距离因子 | CDDB 未知 | DomainNet 未知 | CORe50 未知 |
|---|---|---|---|---|---|---|---|
| 1 (只距离) | ✗ | ✗ | ✗ | ✓ | 75.80 | 64.97 | 93.17 |
| 2 (无正则能量) | ✗ | ✗ | ✓ | ✗ | 77.31 | 63.55 | 92.06 |
| 3 (+边界) | ✓ | ✗ | ✓ | ✗ | 79.22 | 65.05 | 92.98 |
| 4 (+中线) | ✗ | ✓ | ✓ | ✗ | 79.12 | 65.01 | 93.77 |
| 5 (完整能量) | ✓ | ✓ | ✓ | ✗ | 81.52 | 65.59 | 94.07 |
| 6 (完整 HEDP) | ✓ | ✓ | ✓ | ✓ | 83.74 | 67.09 | 94.66 |
关键发现¶
- 边界 + 中线必须同时用:单独任一个都比完整正则差 2-3 个点,证明两者捕捉的是不同的分布特征(最大值约束 vs 中心趋势对齐)。
- 能量和距离是互补而非冗余:从方案 5 到 6 加上距离因子,CDDB 未知再涨 2.22 点;从方案 1 到 6 加上能量因子,CDDB 未知涨 7.94 点。互补效应在未知领域上尤其明显。
- 超参对未知领域的影响呈对角线分布:\(\alpha, \beta\) 的网格热图显示已知领域偏向"距离主导",未知领域偏向"能量+距离平衡",证明两者作用机制不同。
- 聚类数 \(K\) 变化影响很小,说明距离因子主要起"全局拓扑稳定器"作用而非精细分辨。
亮点与洞察¶
- 物理直觉到 ML 设计:把 Helmholtz 自由能这套统计物理工具用得很自然,"能量边界 + 中线"对应物理里的势阱深度和零点,可解释性强。
- 梯度正交论证:用一阶 Taylor 展开论证能量和距离的错误梯度正交,给"互补信号"提供了理论支撑而非纯实验观察,比经验加权方案更可信。
- 能量正则的"地形平滑"副作用:意外发现把能量分布约束到紧凑区间会隐式压低 Lipschitz 常数,从而提升 OOD 鲁棒性——这个 trick 可以独立迁移到任何 OOD 检测任务。
- 对于 prompt-based 持续学习,"如何选择 prompt" 比 "如何训 prompt" 更重要,本文把这个角度发挥到了极致。
局限与展望¶
- 推理延迟与领域数线性增长——每个测试样本要过所有领域的 prompt 模型算能量,作者承认这是可扩展性瓶颈,建议未来用动态 prompt 选择。
- \(\Theta, \Delta\) 都是手调超参,且 \(\Delta\) 推得越远效果越好但会饱和,缺乏自适应机制。
- 实验都在视觉分类任务上,没扩展到 NLP 或 VLM 推理任务,能量物理直觉在文本生成上是否成立还需验证。
- "能量是 SFT 不变信号"的论证比较薄,主要靠图示。
相关工作与启发¶
- vs CP-Prompt (ACMMM 2024):CP-Prompt 在已知领域已经很强但未知领域弱,HEDP 用能量因子补上未知泛化的短板。
- vs MoP-CLIP (WACV 2024):MoP-CLIP 用粗聚类做 prompt 混合,HEDP 把聚类(距离因子)和 prompt 内部能量结合,分辨力更细。
- vs ESN (AAAI 2023):ESN 引入温度可调的能量度量,但只用能量;HEDP 加上"能量正则"明确约束分布形状,效果显著更好。
- vs ELI (CVPR 2022):ELI 也用能量做增量学习,但 task-wise 能量流形对 DIL 这种 prompt-based 场景不太适用,HEDP 把能量直接接到 prompt 输出上,更轻量。
评分¶
- 新颖性: ⭐⭐⭐⭐ "能量正则 + 距离/能量混合"两件套组合是新的,物理类比也比较自然。
- 实验充分度: ⭐⭐⭐⭐ 三个数据集 + 完整消融 + 超参网格 + 能量分布可视化,已知/未知都覆盖。
- 写作质量: ⭐⭐⭐⭐ 故事讲得清楚,附录给出梯度正交和 Lipschitz 论证,提升了理论深度。
- 价值: ⭐⭐⭐⭐ 在 prompt-based DIL 上 同时解决了已知+未知 trade-off,工程上很实用。