Harmonized Cone for Feasible and Non-conflict Directions in Training Physics-Informed Neural Networks¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=PRYl1mO1go
代码: 补充材料提供可复现实验代码
领域: 优化 / Physics-Informed Neural Networks
关键词: PINN训练, 多目标优化, 梯度冲突, 损失重加权, 锥几何

一句话总结¶

这篇论文把 PINN 多损失训练中的“可由非负损失权重实现”和“不会让任一损失上升”统一成谐和锥（harmonized cone），并提出 HARMONIC 用 Double Description 方法在该锥内构造更新方向，在多个 PDE / IDE 基准上通常优于现有重加权和多目标梯度方法。

研究背景与动机¶

领域现状：Physics-Informed Neural Networks（PINNs）用神经网络表示 PDE 解，并通过自动微分把 PDE 残差、初始条件、边界条件以及辅助物理约束写进训练损失。典型训练目标不是单一 loss，而是若干个物理相关 loss 的组合；例如一个方程可能同时有 PDE residual、initial loss、boundary loss，复杂任务还会加入积分约束、观测数据约束或辅助变量约束。

现有痛点：多损失让 PINN 训练很容易出现梯度病态。一类方法做自适应重加权，例如 LRA、NTK、ReLoBRaLo，通过调整各 loss 系数缓解尺度不平衡；但它们只保证更新来自非负加权和，不能保证该方向真的同时降低每个 loss。另一类方法借鉴多目标优化，例如 MGDA、PCGrad、CAGrad、Aligned-MTL、ConFIG，试图让更新方向与每个 loss 梯度都不冲突；但仅追求 non-conflict 时，得到的方向未必能写成各 loss 梯度的非负组合，可能对应某些“负权重”的隐含目标，训练会偏离原本的 PINN 物理约束。

核心矛盾：PINN 不是普通多任务学习里“任务之间可以折中”的设置。PDE 残差、边界条件、初始条件都应同时趋近于零，因此一个好的更新方向至少要满足两件事：第一，它应当是可行的，即能解释为 \(\nabla_\theta \sum_j \lambda_j L_j\) 且 \(\lambda_j \ge 0\)；第二，它应当不冲突，即与每个单独梯度 \(g_j=\nabla_\theta L_j\) 的内积非负，沿负方向更新时不会一边优化一个约束一边破坏另一个约束。以往方法往往只守住其中一半。

本文目标：作者想回答一个更几何化的问题：给定所有 loss 的梯度集合，哪些方向同时“可由非负重加权产生”并且“对每个 loss 都非冲突”？如果这样的区域存在，如何以可计算的方式从该区域中选出训练方向？进一步，还要证明这个策略在非凸目标上具有 Pareto-stationary 收敛性质，并验证它不会给 PINN 训练带来明显额外开销。

切入角度：论文从锥几何出发观察多损失梯度。所有非负加权梯度张成一个 primal gradient cone \(K\)，代表可行方向；所有与每个 loss 梯度内积非负的方向构成 dual gradient cone \(K^*\)，代表非冲突方向。于是“好方向”自然就是 \(K \cap K^*\)。这个交集不是启发式权重，也不是 pairwise projection，而是直接刻画 PINN 多损失训练最想要的方向集合。

核心 idea：用 primal cone 和 dual cone 的交集定义谐和锥 \(H\)，再把当前梯度约束转成 extreme rays 并聚合，从而每一步都在“可行且非冲突”的区域内更新 PINN 参数。

方法详解¶

整体框架¶

HARMONIC 的输入是当前迭代所有 loss 对网络参数的梯度矩阵 \(G=[g_1,\ldots,g_m]\)，输出是一个用于替代普通加权梯度的更新方向 \(A_h(G)\)。它先把“非负损失权重”和“所有 loss 非冲突”写成同一个锥约束，再用 Double Description 方法把约束形式转成生成射线，最后把这些射线映射回参数空间并归一化聚合。整个流程的重点不是重新设计 PINN 架构，而是在每一次反向传播后修正多损失梯度的合成方式。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["PINN 多损失梯度<br/>G=[g1,...,gm]"] --> B["谐和锥定义<br/>K ∩ K*"]
    B --> C["可行性判别<br/>G^T G λ ≥ 0"]
    C --> D["Double Description<br/>约束转极射线"]
    D --> E["极射线聚合<br/>得到 Ah(G)"]
    E --> F["参数更新<br/>θ ← θ - η Ah(G)"]

这张图里的贡献节点和下面的关键设计一一对应：谐和锥给出目标区域，可行性判别把区域转成可操作约束，Double Description 与极射线聚合负责实际生成更新方向。PINN 的采样点、网络结构、Adam / SGD 等训练脚手架并不是本文创新，论文主要替换的是“多个 loss 梯度如何合成一步更新”。

关键设计¶

1. 谐和锥：把可行和非冲突统一成同一个几何区域

论文先定义 \(m\) 个 loss 的梯度矩阵 \(G=[g_1,\ldots,g_m]\)，其中 \(g_j=\nabla_\theta L_j\)。所有非负重加权方向构成 primal gradient cone：\(K=\{G\lambda\mid \lambda\in\mathbb{R}_+^m\}\)。如果更新方向落在 \(K\) 中，它就能被解释为某个非负加权总损失的梯度，这一点对应 PINN 训练里“不要为了降低一个物理约束而给另一个约束负权重”的可行性要求。

另一方面，dual gradient cone 定义为 \(K^*=\{y\in\mathbb{R}^d\mid G^\top y\ge 0_m\}\)。当方向 \(y\) 落在 \(K^*\) 中，它与每个 loss 梯度的内积都是非负的；在梯度下降使用 \(-y\) 更新时，每个 loss 在一阶近似下都不会被推高。本文的关键定义是谐和锥 \(H=K\cap K^*\)，等价写作 \(H=\{z\mid G^\top z\ge 0_m, D^\top z\ge 0_m\}\)，其中 \(D\) 是 \(G^\top\) 的 Moore-Penrose 伪逆。这个定义把以往“重加权”和“non-conflict”两条线合成一个判据：只在 \(K\) 里还不够，只在 \(K^*\) 里也不够，必须在交集中。

2. 可行性判别：用 \(G^\top G\lambda\ge 0\) 直接检查重加权是否会冲突

在实际训练中，最自然的可行方向是 \(G\lambda\)，因为它就是各 loss 梯度的非负组合。问题是，\(G\lambda\) 虽然自动属于 \(K\)，却未必属于 \(K^*\)；也就是说，一个看似合法的 loss weighting 仍可能让某个 loss 的梯度内积为负。论文的 Theorem 1 给出简洁条件：当 \(\lambda\ge 0\) 时，\(G\lambda\in H\) 当且仅当 \(G^\top G\lambda\ge 0_m\)。

这个条件非常有用，因为它把参数空间里高维方向是否在谐和锥中，降成了 \(m\) 维 loss 空间里的约束。直观上，\(G^\top G\) 是 loss 梯度之间的 Gram 矩阵，里面记录了哪些 loss 梯度互相同向、正交或冲突。若某组权重 \(\lambda\) 让 \(G^\top G\lambda\) 出现负分量，说明合成方向虽然是非负权重形成的，但对某个具体 loss 来说仍是冲突的。类似地，Theorem 2 从 dual cone 侧给出 \(D^\top D w\ge 0_m\)，解释为什么只保证 non-conflict 的方向也可能不可行。

3. Double Description 与极射线聚合：把锥约束转成可执行更新

HARMONIC 不是在每一步求一个黑盒优化问题，而是把谐和锥的半空间表示转成极射线表示。具体地，它构造关于 \(\lambda\) 的约束矩阵 \(A=[I_m; G^\top G/\|G\|^2]\)，其中 \(I_m\) 保证 \(\lambda\ge 0\)，Gram 约束保证 \(G\lambda\) 不冲突。Double Description 方法逐行处理这些半空间约束，把当前 ray set 分成正侧、零侧和负侧；当一条已有射线违反新约束时，就用正侧和负侧射线组合生成新的候选射线，并剪掉重复项，最终得到 \(\Pi=[\pi_1,\ldots,\pi_p]\)。

得到 \(\Pi\) 后，算法把每个 loss-space 射线映射回参数空间：\(r_j=G\pi_j\)。这些 \(r_j\) 就是谐和锥中的 extreme rays。HARMONIC 将它们归一化求和得到方向 \(\hat d\)，再用所有 loss 梯度在该方向上的投影和进行缩放：\(A_h(G)=(\mathbf{1}_m^\top G^\top \hat d)\hat d\)。这样的聚合避免了只选某一条极射线导致退化，也让更新方向落在谐和锥内部，从而同时维持可行与非冲突。

4. 非退化与收敛保证：避免“某个 loss 被完全牺牲”

许多多目标梯度方法表面上满足一部分几何性质，但可能退化成只照顾一个 loss。例如 MGDA 在某些梯度配置下会选择 convex hull 中最小范数点，却可能几乎完全对齐到最小梯度，导致其他 loss 缩放因子为零。本文强调 non-degenerate scaling：每个 loss 都应保留非平凡贡献，尤其在 PINN 中，初值、边界、PDE residual 任何一项长期被压掉都会破坏物理解。

理论上，作者证明谐和锥非空且存在非平凡元素。Theorem 4 从 convex gradient hull \(U=\{G\lambda\mid \lambda\ge 0,\mathbf{1}^\top\lambda=1\}\) 出发，取其中最小范数点 \(u^*\)，并说明在满秩假设下 \(\|u^*\|>0\) 且 \(u^*\in H\)。Theorem 3 进一步给出非凸设置下的收敛界：若总梯度 Lipschitz 且步长 \(\eta\le 2/\mu\)，HARMONIC 要么收敛到 Pareto-stationary point，要么满足平均总梯度范数随 \(T\) 以 \(O(1/\sqrt{T})\) 的意义下降。对 PINN 训练而言，这给“每一步都在谐和锥里走”提供了比经验 trick 更硬的支撑。

损失函数 / 训练策略¶

论文没有改变 PINN 的物理损失形式，而是改变多损失梯度的合成策略。一般 PINN 仍然包含 PDE 残差损失、初始条件损失、边界条件损失以及任务相关辅助损失；每次反向传播分别得到 \(g_j=\nabla_\theta L_j\) 后，HARMONIC 用 \(A_h(G)\) 替代普通的加权和梯度更新参数：\(\theta^{(t+1)}=\theta^{(t)}-\eta^{(t)}A_h(G^{(t)})\)。

实验设置遵循 PINNacle / A-PINN 基准：主实验使用 3 层、每层 50 个神经元的网络，训练 50,000 次迭代，激活函数为 tanh，初始化为 Glorot normal，优化器主要沿用对应基准设置。作者在学习率 \(10^{-3}\) 和 \(10^{-4}\) 下比较，主表报告每个方法的最好结果。对不同 PDE，loss 数量为 3 或 4；附录还测试了 8 个 loss 的 Navier-Stokes 设置，用于说明 Double Description 步骤在更多 loss 分量下仍可接受。

实验关键数据¶

主实验¶

主实验覆盖 PINNacle 中的 Wave1d-C、Poisson2d-C、HNd、HInv，以及 A-PINN 中的 Volterra1d。指标是 5 个随机种子上的 relative L2 error，数值越低越好。最能体现差异的是 Poisson2d-C：大量 baseline 卡在 \(0.5\) 到 \(0.7\) 左右，而 HARMONIC 降到 \(0.0214\)。

数据集	指标	HARMONIC	最强/代表性对比	提升解读
Wave1d-C	relative L2 error	0.0655 (0.0293)	ConFIG 0.0668 (0.0279)	与最强 non-conflict 方法基本持平，略优
Poisson2d-C	relative L2 error	0.0214 (0.0179)	Aligned-MTL 0.2847 (0.2363)	大幅降低误差，说明可行性约束很关键
HNd	relative L2 error	0.0005 (0.0000)	ReLoBRaLo 0.0004 (0.0000) / CAGrad 0.0005 (0.0001)	接近最优，差异很小
Volterra1d	relative L2 error	0.0003 (0.0001)	ReLoBRaLo 0.0002 (0.0000)	接近最优，稳定优于多数 MOO 方法
HInv	relative L2 error	0.0461 (0.0098)	ConFIG 0.0466 (0.0068)	略优于 ConFIG，明显优于重加权失败情形

论文还报告了完整 baseline：MultiAdam、LRA、ReLoBRaLo、MGDA、PCGrad、CAGrad、IMTL-G、Aligned-MTL、ConFIG。整体趋势是 non-conflict 方法通常比单纯重加权强，但只靠 non-conflict 仍会在某些数据集上出现不可行更新；HARMONIC 的优势集中体现在这些“需要同时守住两类约束”的场景。

消融实验¶

论文没有做传统的“去掉模块 A/B”消融，而是做了更贴近核心假设的干预实验：当 baseline 的更新方向 \(A(G)\) 离开谐和锥 \(H\) 时，用 HARMONIC 把更新拉回 \(H\) 内，观察性能是否改善。结果显示，对 ReLoBRaLo、CAGrad、ConFIG 这三类不同 baseline，加上谐和锥约束后通常更好，尤其 Poisson2d-C 改善很明显。

配置	Poisson2d-C relative L2	说明
ReLoBRaLo	0.6602 (0.0221)	单纯自适应重加权，可能冲突
H-ReLoBRaLo	0.0948 (0.1763)	离开 \(H\) 时切换到 HARMONIC，误差显著下降
CAGrad	0.7806 (0.1553) / 主表最佳学习率为 0.6969 (0.0197)	受均值梯度牵引，可能不保证全部条件
H-CAGrad	0.0312 (0.0122)	谐和锥约束后接近 HARMONIC 主结果
ConFIG	0.6954 (0.4296) / 主表最佳学习率为 0.6856 (0.0274)	保证 non-conflict，但可能不可行
H-ConFIG	0.0094 (0.0022)	在该任务上比原 ConFIG 大幅更稳

关键发现¶

Poisson2d-C 是最有说服力的案例：原始 ReLoBRaLo / ConFIG 在训练中多次出现 \(A(G)\notin H\)，test relative L2 先降后停滞；一旦离开 \(H\) 就用 HARMONIC 纠正，误差可以继续下降到接近零。
toy example 显示，仅用可行的 conic combination 会被大范数 loss 主导，仅用 non-conflict 方向又可能在 Pareto front 之外提前收敛；HARMONIC 从多个初始点都收敛到 Pareto front。
计算开销并没有明显爆炸。主表中 HARMONIC 每 100 epoch 的耗时与 ConFIG、Aligned-MTL 接近，通常远快于 MGDA 和 CAGrad 这类每步带迭代优化的办法。
在两个 loss 的设置下，HARMONIC、DCGD、ConFIG 的表现非常接近，因为此时几何条件退化得更简单；论文真正的价值主要在三个及以上 loss 的 PINN 设置。

亮点与洞察¶

这篇论文最漂亮的地方是把 PINN 多损失训练中两个常被混在一起的问题拆清楚了：loss weighting 的“非负权重可解释性”和 MOO 的“每个 loss 不冲突”不是同一个条件。用 \(K\cap K^*\) 表达后，很多 baseline 为什么会失败变得非常直观。
HARMONIC 对 ConFIG 这类方法的批评很有启发：一个方向可以让所有 loss 的内积为正，但仍然不能由原始 loss 梯度的非负组合产生。对 PINN 来说，这相当于更新方向不再对应原来的物理约束组合，短期 loss 可能下降，泛化或 test error 却会变差。
Double Description 的使用很巧妙。作者没有把问题写成每步昂贵的通用约束优化，而是利用 loss 数量 \(m\) 通常远小于参数维度 \(d\) 的结构，在 \(m\) 维约束上找 extreme rays，再映射回参数空间。
谐和锥可以迁移到其他多损失训练场景，尤其是那些“所有目标都必须同时满足”而不是“目标之间可以偏好折中”的问题，例如多物理场约束学习、带守恒律的神经算子训练、约束强化学习中的多安全约束优化。

局限与展望¶

方法依赖每个 loss 的独立梯度，因此一次迭代中需要拿到 per-loss gradients。对超大模型或 loss 数很多的任务，这部分内存和反向传播调度成本可能比表格中的小型 PINN 更明显。
Double Description 的复杂度随 loss 数量和约束形状可能增长。论文在最多 8 个 loss 的 NS2d-C 上展示了可接受开销，但还没有证明几十个甚至上百个目标时依然实用。
实验主要集中在 PINNacle / A-PINN 这类中小规模 PDE / IDE 基准，网络结构也较小。真实工程 PDE、复杂几何、高维多物理耦合问题中，梯度噪声、采样策略和优化器状态可能带来额外变量。
HARMONIC 当前默认所有 loss 都应被同等地保持可行且非冲突，但有些任务确实需要偏好，例如某些边界条件比辅助正则更重要。作者也在未来工作中提到，可以把 preference-guided MOO 融入谐和锥内部的方向选择。
理论分析建立在梯度矩阵满秩、总梯度 Lipschitz 等假设上，实际训练中 loss 梯度可能相关性极强甚至退化。论文给了存在性和收敛性解释，但退化数值情形下的稳定实现仍值得进一步研究。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用谐和锥把可行重加权和非冲突更新统一起来，概念清晰且针对 PINN 痛点。
实验充分度: ⭐⭐⭐⭐ 覆盖多个 PDE / IDE、学习率、干预实验和耗时分析，但大规模真实工程案例还不多。
写作质量: ⭐⭐⭐⭐ 论文主线很清楚，几何解释和失败案例直观；部分证明和公式排版较密，需要读者有 MOO / cone 基础。
价值: ⭐⭐⭐⭐⭐ 对 PINN 多损失训练很有实用价值，也给更一般的约束型多目标优化提供了可复用视角。