HEDP: A Hybrid Energy-Distance Prompt-based Framework for Domain Incremental Learning¶

会议: ICML 2026
arXiv: 2605.05776
代码: 有 (论文末附公开仓库)
领域: 持续学习 / 领域增量 / 提示学习
关键词: 领域增量学习, 提示学习, 能量模型, Helmholtz 自由能, CLIP

一句话总结¶

借鉴 Helmholtz 自由能的物理直觉，把每个领域的提示参数训练出一条"压缩到边界 \(\Theta\)、对齐到中线 \(\Delta\)"的能量曲线，推理时再用能量因子 + 距离因子联合加权各领域提示，在 CDDB / DomainNet / CORe50 三个 DIL 基准的未知领域上分别提升 1.76 / 3.12 / 2.57 个百分点。

研究背景与动机¶

领域现状：领域增量学习 (DIL) 要求模型按顺序在多个领域上训练（如不同天气下的自动驾驶检测），训练时不能回放旧领域数据，推理时既要在见过的已知领域上保持精度，又要泛化到未知领域。主流路线是冻结预训练大模型（如 CLIP），每个领域学一组 prompt 参数；代表方法有 CP-Prompt、S-Prompts、MoP-CLIP、ESN。

现有痛点：(1) 已知和未知领域之间总是 trade-off——CP-Prompt 已知领域好但未知差，MoP-CLIP 反过来；(2) 推理时怎么"选用哪个领域的 prompt" 是核心问题，现有方法要么用距离 (容易在重叠区误判)，要么用聚类 (粗粒度时边界模糊)；(3) 单领域 prompt 容易过拟合到自身分布，与其他领域 prompt 在共享空间里反而会拉大重叠。t-SNE 可视化显示 Domain B 样本在 CLIP 空间里反而离 Domain A 的聚类点更近。

核心矛盾：领域之间在共享特征空间里既相似又不同，单一信号（距离或能量）只能看到一个侧面——距离反映全局语义结构（CLIP 学到的），能量反映 prompt 调出来的局部分布敏感性。两者错误模式不同，但单独都不够稳定。

本文目标：(1) 让训练时每个领域 prompt 的能量分布"对得齐"，使能量真的能反映"样本是否属于本领域"；(2) 推理时设计一个能量 + 距离的混合信号，结合各自优点同时抵消对方弱点。

切入角度：把数据在特征空间里的统计分布类比成物理学中的能量场，借 Helmholtz 自由能 \(E(x) = -kT \ln[\sum_y e^{H(x)[y]/kT}]\) 给每个样本对每个 prompt 算一个标量能量。理想情况下，本领域 prompt 给本领域样本打低能、非本领域样本打高能。

核心 idea：用一个"边界损失 + 中线损失"组合的能量正则项把每个领域 prompt 的能量分布约束到统一标尺；推理时把能量因子和距离因子相加再 softmax，得到混合权重，对各领域 prompt 的预测做加权求和。

方法详解¶

整体框架¶

冻结 CLIP ViT-B/16 主干。训练：每个领域独立训一组视觉 prompt \(P_v^S\) 和文本 prompt \(P_t^S\)，损失是分类交叉熵 \(\mathcal{L}_{ce}\) 加能量正则 \(\lambda \mathcal{L}_{reg}\)，权重 \(\lambda = 0.05\)。推理：对每个测试样本同时算 (a) 在冻结 CLIP 空间里到各领域聚类中心的距离 \(D^i(x)\)；(b) 在每个 prompt 模型下的能量 \(E^i(x)\)。把两者归一化成相对因子 \(EF^i, DF^i\) 后相加得到 \(F^i(x) = EF^i/\alpha + DF^i/\beta\)，softmax 得到权重 \(W^i\)，混合各领域预测 \(P_{mix}(x) = \sum_i W^i P^i(x)\)。

关键设计¶

能量正则损失（边界 + 中线）:
- 功能：让每个领域 prompt 训出来的能量分布既不"散得太开"也不"挤得太紧"，跨领域能量能直接比较。
- 核心思路：能量定义为 \(E(x) = -kT \ln[\sum_{y=1}^U e^{H(x)[y]/kT}]\)（Helmholtz 自由能）。正则由两部分组成：边界损失 \(\mathcal{L}_{border} = \frac{1}{|\mathcal{D}_t|}\sum \max(0, E(x) - \Theta)\) 只惩罚能量超过 \(\Theta = -32\) 的部分，把本领域样本压到低能侧；中线损失 \(\mathcal{L}_{midline} = |\Delta - \frac{1}{|\mathcal{D}_t|}\sum E(x)|\) 把均值拉到 \(\Delta = -40\)。
- 设计动机：作者画了四种正则组合 (无 / 只边界 / 只中线 / 完整) 下的能量分布对比图：只用边界，跨域能量可能都被压到 \(\Theta\) 以下但相对位置乱；只用中线，分布形状不受约束，仍可能出现 \(E^B(x^A) < E^A(x^A)\) 这种倒挂。两者结合后才能稳定满足 \(E^s(x^s) < E^i(x^s) (\forall i \neq s)\)。
能量因子 vs 距离因子的混合:
- 功能：在推理时给每个领域算一个综合"相似度因子"，决定该领域 prompt 在预测里占多大权重。
- 核心思路：能量因子 \(EF^i(x) = E_{\min} - E^i(x)\) 取负偏移，范围 \((-\infty, 0]\)，值越大表示样本在第 \(i\) 个 prompt 下能量越低、置信越高；距离因子 \(DF^i(x) = D_{\min} - D^i(x)\) 用 \(K\)-means 在冻结 CLIP 空间里给每个领域算 \(K\) 个聚类中心，再算样本到最近中心的余弦距离。混合因子 \(F^i(x) = EF^i(x)/\alpha + DF^i(x)/\beta\)，最后 \(W^i = \text{softmax}(F^i)\)。
- 设计动机：作者在附录用一阶 Taylor 展开论证了 \(\nabla_x EF\) 沿 prompt 参数方向（捕捉领域统计差异），而 \(\nabla_x DF\) 沿冻结 CLIP 语义方向（捕捉全局语义），两者梯度近似正交，错误模式不相关。也就是说，能让单一信号失误的扰动，往往不会同时让另一个失误，混合后误差互相抵消。\(\alpha = \beta = 0.6\) 时已知领域偏倚距离、未知领域偏倚两者平衡，符合理论预期。
能量正则隐式平滑能量地形:
- 功能：让能量函数对未知领域样本的偏移更稳定。
- 核心思路：附录的 Proposition 2 证明：把能量输出约束在 \((-\infty, \Theta]\) 且均值在 \(\Delta\)，等价于隐式压缩了能量函数在数据流形上的局部 Lipschitz 常数 \(K\)；对于 OOD 样本 \(x_{out} = x_{in} + \Delta_x\)，能量偏移满足 \(|E(x_{out}) - E(x_{in})| \leq K\|\Delta_x\|\)，\(K\) 变小意味着 OOD 样本不会突然掉到 known domain 的低能区域，从而抵抗灾难性遗忘。
- 设计动机：传统能量训练容易产生"能量崖"，OOD 样本一旦贴近边界就被错误打成低能。把能量分布压缩到紧凑区间相当于"软化地形"，给 OOD 样本留出能量缓冲。

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{total} = \mathcal{L}_{ce} + \lambda \mathcal{L}_{reg}\)，\(\mathcal{L}_{reg} = \mathcal{L}_{border} + \mathcal{L}_{midline}\)。超参：\(\Theta = -32, \Delta = -40, K = 5, \alpha = \beta = 0.6, \lambda = 0.05\)。SGD + 余弦退火，初始 lr 0.01。

实验关键数据¶

主实验¶

数据集	场景	前 SOTA	HEDP	提升
CDDB-Hard	已知 AA / AF	CP-Prompt 93.65 / -0.25	93.72 / -0.08	+0.07 / +0.17
CDDB-Hard	未知 AA	MoP-CLIP 81.98	83.74	+1.76
DomainNet	已知 AA (全)	CP-Prompt 73.15	74.19	+1.04
DomainNet	未知 AA	MoP-CLIP 63.97	67.09	+3.12
CORe50	未知 AA	ESN 91.80	94.37	+2.57

HEDP 同时在已知和未知领域上拿到最佳，不存在 trade-off。

消融实验¶

方案	能量边界	能量中线	能量因子	距离因子	CDDB 未知	DomainNet 未知	CORe50 未知
1 (只距离)	✗	✗	✗	✓	75.80	64.97	93.17
2 (无正则能量)	✗	✗	✓	✗	77.31	63.55	92.06
3 (+边界)	✓	✗	✓	✗	79.22	65.05	92.98
4 (+中线)	✗	✓	✓	✗	79.12	65.01	93.77
5 (完整能量)	✓	✓	✓	✗	81.52	65.59	94.07
6 (完整 HEDP)	✓	✓	✓	✓	83.74	67.09	94.66

关键发现¶

边界 + 中线必须同时用：单独任一个都比完整正则差 2-3 个点，证明两者捕捉的是不同的分布特征（最大值约束 vs 中心趋势对齐）。
能量和距离是互补而非冗余：从方案 5 到 6 加上距离因子，CDDB 未知再涨 2.22 点；从方案 1 到 6 加上能量因子，CDDB 未知涨 7.94 点。互补效应在未知领域上尤其明显。
超参对未知领域的影响呈对角线分布：\(\alpha, \beta\) 的网格热图显示已知领域偏向"距离主导"，未知领域偏向"能量+距离平衡"，证明两者作用机制不同。
聚类数 \(K\) 变化影响很小，说明距离因子主要起"全局拓扑稳定器"作用而非精细分辨。

亮点与洞察¶

物理直觉到 ML 设计：把 Helmholtz 自由能这套统计物理工具用得很自然，"能量边界 + 中线"对应物理里的势阱深度和零点，可解释性强。
梯度正交论证：用一阶 Taylor 展开论证能量和距离的错误梯度正交，给"互补信号"提供了理论支撑而非纯实验观察，比经验加权方案更可信。
能量正则的"地形平滑"副作用：意外发现把能量分布约束到紧凑区间会隐式压低 Lipschitz 常数，从而提升 OOD 鲁棒性——这个 trick 可以独立迁移到任何 OOD 检测任务。
对于 prompt-based 持续学习，"如何选择 prompt" 比 "如何训 prompt" 更重要，本文把这个角度发挥到了极致。

局限与展望¶

推理延迟与领域数线性增长——每个测试样本要过所有领域的 prompt 模型算能量，作者承认这是可扩展性瓶颈，建议未来用动态 prompt 选择。
\(\Theta, \Delta\) 都是手调超参，且 \(\Delta\) 推得越远效果越好但会饱和，缺乏自适应机制。
实验都在视觉分类任务上，没扩展到 NLP 或 VLM 推理任务，能量物理直觉在文本生成上是否成立还需验证。
"能量是 SFT 不变信号"的论证比较薄，主要靠图示。

评分¶

新颖性: ⭐⭐⭐⭐ "能量正则 + 距离/能量混合"两件套组合是新的，物理类比也比较自然。
实验充分度: ⭐⭐⭐⭐ 三个数据集 + 完整消融 + 超参网格 + 能量分布可视化，已知/未知都覆盖。
写作质量: ⭐⭐⭐⭐ 故事讲得清楚，附录给出梯度正交和 Lipschitz 论证，提升了理论深度。
价值: ⭐⭐⭐⭐ 在 prompt-based DIL 上同时解决了已知+未知 trade-off，工程上很实用。