ICLR 2026 学习理论等变神经网络几何深度学习等变网络对称性增大轨道类型对称下确界等变映射

Reducing Symmetry Increase in Equivariant Neural Networks¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dUgq4bLY4X
代码: 待确认
领域: 学习理论 / 等变神经网络 / 几何深度学习
关键词: 等变网络, 对称性增大, 轨道类型, 对称下确界, 等变映射

一句话总结¶

本文系统刻画了等变神经网络在处理对称输入时"输出对称性反而被放大、丢失方向信息"这一退化现象，证明被放大的对称性存在一个由特征空间结构唯一决定的下确界（symmetry infimum），并给出可计算算法和特征设计指南来预测和规避有害的对称性增大。

研究背景与动机¶

领域现状：等变神经网络（Equivariant Neural Networks, ENNs）通过把物理对称性内嵌进模型结构，在分子动力学、材料设计等科学场景中取得了极佳的数据效率和泛化性，已经成为几何深度学习的基石。其核心约束是等变性：对任意群元 \(g\) 和输入 \(x\)，映射满足 \(f(\rho_X(g)x) = \rho_Y(g)f(x)\)。

现有痛点：当输入本身具有对称性时，ENN 的表达力会退化——输出表示会对"超出输入自身对称群"的变换也保持不变，从而丢失信息。一个典型例子是 \(k\)-fold 结构（\(k\) 重对称的多边形点云）：理论上它只有特定的二面体对称性，但 ENN 会把它的不同旋转版本映成同一个特征，把朝向信息抹掉。作者把这一现象命名为对称性增大（symmetry increase）。

核心矛盾：这背后的数学本质是——一个对称输入经过等变映射后，其等变性（intrinsic symmetry，由迷向子群 \(G_x\) 刻画）只会增大不会减小（Curie 原理，\(G_x \subseteq G_{f(x)}\)）。当特征空间 \(Y\) "撑不住"输入的对称类型时，增大就变得不可避免，进而导致退化。已有工作要么只做了经验观察（Joshi 等），要么只覆盖了最极端的"全退化/坍缩到零"特例（Cen 等的 collapse-to-zero 理论），要么用放松等变约束来回避问题（Kaba & Ravanbakhsh），缺一个严格、可预测、且在等变框架内解决的统一理论。

本文目标：(1) 把对称性增大的下界刻画清楚；(2) 给出可计算的判定算法；(3) 证明在合理正则条件下，按指南设计的特征能真正消除有害的对称性增大。

核心 idea：被放大的对称性存在一个由特征空间代数结构唯一决定的下确界 \(I_G(Y, G_x)\)。只要把特征空间的轨道类型算清楚，就能提前预测会发生哪种退化，并通过挑选特征分量来规避它。

方法详解¶

整体框架¶

本文是纯理论 + 算法工作，目标是回答三个层层递进的问题：对称性增大到底能被压到多低？怎么算出这个下界？以及在真实可训练的 ENN 里能否达到这个下界。整条逻辑链是：给定输入对称群 \(H=G_x\) 和特征空间 \(Y\) → 用代数结构定义并证明存在唯一的对称下确界 \(I_G(Y, H)\)（§3）→ 用 Michel 判据 + 轨道类型算法把这个下确界计算出来，并据此预测 \(k\)-fold 的三类退化（§4）→ 把可计算结果转成特征设计指南（§4.2）→ 在流形假设下证明对足够表达力的 ENN，这个下确界是通有可达的（§5），最后用合成数据与 QM9 实验验证（§6）。

下面这张图把"输入 → 算下确界 → 判退化 → 指导设计 → 可达性保证"的推理管线串起来：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入对称群 H=Gx<br/>+ 特征空间 Y"] --> B["对称下确界<br/>唯一最小轨道类型 I(Y,H)"]
    B --> C["轨道类型可计算算法<br/>Michel 判据 + 链式递归"]
    C -->|对照 H 与 I(Y,H)| D["预测退化类型<br/>全退化 / 轴退化 / 半退化"]
    D --> E["特征设计指南<br/>挑选分量对齐任务对称性"]
    E --> F["稠密性定理<br/>表达力足够时下确界通有可达"]
    F --> G["设计出不丢方向信息的 ENN"]

关键设计¶

1. 对称下确界：把"对称性会被放大多少"压成唯一的下界

针对"等变映射只会增大对称性、且增大到哪不可预测"这个根本痛点，作者引入了对称下确界这一核心概念。先在轨道类型上建立偏序：\((H_1) \geq (H_2)\) 当且仅当 \(H_1\) 包含 \(H_2\) 的某个共轭子群——轨道类型越大代表对称性越高。关键观察是，固定点子空间 \(X^H\) 里装着所有"更高对称"的点，而其中存在唯一的最小轨道类型。最小类型唯一性定理（Thm 3.1）保证：对紧李群 \(G\) 的表示 \(X\) 和任意闭子群 \(H\)，\(X^H\) 中存在唯一的最小轨道类型，记作 \(I_G(X, H)\)。

有了这个下确界，理想的等变映射可以被精确定义为等距变映射（isovariant map）——严格保持对称性 \(G_x = G_{f(x)}\) 的映射。当实际增大超过下确界，即 \((G_{f(x)}) > I_G(Y, G_x)\) 时，就发生了非预期的对称性增大。作者进一步给出存在等距变映射的必要条件（Thm 3.2）：\(O_G(X) \subseteq O_G(Y)\)，等价于对所有 \((H) \in O_G(X)\) 都有 \(I_G(Y, H) = (H)\)。这就把"会不会丢方向信息"这个含糊的经验问题，化成了一个可判定的代数包含关系。

特征空间常常带有非平凡核（例如点云任务要求对置换 \(S_n\) 不变，核里天然含 \(S_{k+1}\)）。此时绝对的等距变太苛刻，作者用算子 \(p_Y = \pi_Y^{-1} \circ \pi_Y\)（\(\pi_Y: G \to G/\ker\rho_Y\) 是自然投影）把"不可避免的增大"剥离出来：\(G_x \subseteq p_Y(G_x) \subseteq G_{f(x)}\)。目标随之松弛为相对等距变 \(\rho_Y(G_x) = \rho_Y(G_{f(x)})\)，即除了核带来的强制增大之外不再额外增大，必要条件相应变为 \(I_G(Y, H) = (p_Y(H))\)（Thm 3.3）。

2. 轨道类型的可计算算法：用 Michel 判据把抽象下确界算出来

下确界虽然存在唯一，但要在表示学习里真正用上，必须能在高重数（high-multiplicity）特征空间里把它算出来——这正是已有 bifurcation 理论（多聚焦不可约表示）覆盖不到的地方。作者的切入点是 Michel 判据（Thm 4.1）：闭子群 \(H\) 是迷向子群的必要条件是，对任意相邻闭超群 \(H' \supsetneq H\)，固定点子空间维数严格下降 \(\dim V^{H'} < \dim V^H\)。这个判据一般只必要不充分，但作者证明（Prop 4.2）：当 \(V\) 是高重数表示（每个非零等型分量的重数 \(m(V, V_i) > \dim G\)）时，该必要条件同时充分。

这一充分性带来两个直接好处：一是把判定变成只检查相邻子群的链式递归，固定点维数可用迹公式算；二是该条件在实际中频繁满足（对所有有限群、以及高通道数特征空间都成立）。基于此，作者设计了轨道类型测试（Algo 1）和对称下确界计算（Algo 2）：前者逐个检查相邻超群的维数是否严格下降来判断 \((H)\) 是否为轨道类型，后者在 \(H\) 的所有超群里筛出属于 \(O_G(V)\) 的、取其最小者作为 \(I_G(V, H)\)。

用这套算法分析 \(k\)-fold 结构（几何对称 \(D_{kh}\)，在 \(Y = V_{l=l_0}^{\oplus r}\) 里），作者得到了 \(k\)-fold 退化的完整分类——这是对前人"只能解释全退化"的关键超越：

退化类型	对称下确界	物理含义
半退化 Half	\((D_{2kh} \times S_{k+1})\)	区分不出 \(k\)-fold 与绕 \(z\) 轴转 \(\pi/k\) 后的自己
轴退化 Axial	\((D_{\infty h} \times S_{k+1})\)	区分不出绕 \(z\) 轴任意角度旋转
全退化 Full	\((O(3) \times S_{k+1})\)	区分不出绕任意轴任意角度旋转

退化具体落到哪一类，由特征阶 \(l_0\) 与 \(k\) 的大小及奇偶关系决定（Thm/Table 1），从而可以提前预测。

3. 特征设计指南：把可计算结论翻译成"该选哪些特征分量"

光能算还不够，作者把它落成可操作的设计准则。利用直和的轨道类型性质——\(O_G(V_1) \cup O_G(V_2) \subseteq O_G(V_1 \oplus V_2)\) 且 \(I_G(V_1 \oplus V_2, H) \leq I_G(V_i, H)\)——增减特征分量就成了控制对称性增大的直接杠杆：挑选那些下确界与任务所需对称行为对齐的分量即可。

具体分两类任务：对方向相关任务（如几何图判别），必须避免非平凡的对称性增大（即保证相对等距变），办法是为给定输入对称 \((H)\) 选入包含轨道类型 \((p_Y(H))\) 的特征分量，否则会意外丢失朝向信息；对一般任务（如分子属性预测），输出对称性反映了等变特征所在固定点子空间的维数，应避免那些下确界把固定点子空间压得很狠的分量——尤其要警惕"非平凡表示却对称性增大到全群 \(O(3)\)"的分量，因为这会让该分量被湮灭、彻底失去判别力。

4. （近似）等距变映射的稠密性：证明表达力足够时下确界是通有可达的

前面给的都是"存在性的必要条件"，但必要不等于充分（反例 Cex D.3 显示，即便轨道类型包含成立，也可能因为不可约表示重数不足而不存在完美等距变映射）。为把理论接到真实可训练模型上，作者在流形假设下建模数据分布（支撑在有限个光滑紧子流形并 \(M = \bigcup_j M_j\) 上），并松弛定义为几乎处处等距变（almost isovariant）：等距变条件在每个轨道类型 \(M_{(H)}\) 上除去测度为零的子集外都成立，即非预期的对称增大只发生在可忽略的零测集上。

随后作者证明强逼近性质：以 TFN 为例，带光滑激活的 TFN 族在光滑等变映射空间 \(C_G^\infty(X, Y)\) 中是 \(C^\infty\)-稠密的（Thm 5.1，连同各阶导数一致逼近）。在此基础上的核心结论（Thm 5.2）是：对任何具备 \(C^\infty\) 逼近能力的等变参数化 \(F\)，只要对每个 \((H) \in O_G(M)\) 都有 \((p_Y(H)) \in O_G(Y)\)，那么必要条件就变成充分的——存在 \(g \in F\) 几乎处处相对等距变；进一步，若特征空间含有重数 \(r > \max_j\{\dim M_j\}\) 的 \(\tilde Y^{\oplus r}\)，则可取到处处相对等距变的逼近映射。这就把"算出来的下确界"和"训得出的网络"严格地对接了起来：表达力足够 + 重数足够时，输出对称性恰好是那个可预测的下确界，方向信息不丢失。

实验关键数据¶

表示空间可视化（§6.1）¶

用单层随机初始化 TFN 编码 3-fold 结构（置于 \(m=6\) 个平面、每平面绕轴离散旋转 \(res=49/98\) 份），对不同特征阶 \(l_0\) 做降维可视化，结果与 Ex 4.3 的理论预测完全一致：

特征阶 \(l_0\)	观测退化	对应下确界
\(l_0 = 0, 1\)	全退化 Full	\((O(3) \times S_{k+1})\)
\(l_0 = 2, 4\)	轴退化 Axial	\((D_{\infty h} \times S_{k+1})\)
\(l_0 = 10\)	半退化 Half	\((D_{2kh} \times S_{k+1})\)

半退化在 \(res=98\) 与 \(res=49\) 下整体形状相同、但旋转后半程的数据点完全覆盖前半程，直观验证了"区分不出转 \(\pi/k\) 后的自己"。

对称图判别（§6.2）¶

构造 \(k \in \{2,3,4,6\}\) 的 \(k\)-fold 结构 \(G_0\)，随机旋转得 \(G_1\)，用嵌入差范数衡量 ENN 能否区分二者（2D / 3D 旋转分别测试，TFN 与 HEGNN 各 12 种通道/层数配置）：

现象	数值	含义
可区分	嵌入差范数 \(> 10^{-3}\)	结构被分开
不可区分	嵌入差范数 \(< 10^{-6}\)	退化坍缩
二者间隔	相差 \(> 10^3\) 倍	清晰的二值模式

结果呈现干净的二值分布，且因为取的是所有配置的最大值仍 \(< 10^{-6}\)，说明退化与模型选择、通道数、层数无关，是结构性而非训练性问题——与理论预测精确吻合。

QM9 分子属性预测（§6.3）¶

预测各向同性极化率 \(\alpha\)，以 HEGNN 为骨干，先在 \(l \leq 11\) 上预训练共享编码器，再用 (a) 仅 \(l=l_0\)、(b) 全部 \(l \leq l_0\) 两种微调策略各得 12 个预测头。

关键发现¶

多数样本里不同特征分量贡献相近；但对那些分子对称性增大到 \(O(3)\) 的非平凡分量，预测 MAE 显著更高——印证"增大到全群 ⇒ 分量被湮灭 ⇒ 判别力丧失"。
对在 1 阶特征上发生全退化的对称性，再叠加更多 1 阶特征几乎不带来提升，直接验证了 §4.2 的设计指南。
\(k\)-fold 退化是一种结构性退化：换模型、加通道、加层都救不了，只能从特征空间的轨道类型层面预先规避。

亮点与洞察¶

把"等变网络丢方向信息"这个零散的经验现象，统一收敛到一个唯一存在的对称下确界上，并证明它只由特征空间的代数结构决定——这是从"事后观察"到"事前预测"的范式升级。
高重数表示下让 Michel 判据从"必要"升格为"充分"（Prop 4.2），是把抽象群论结论变成可跑算法（链式递归 + 迹公式）的关键技术桥梁，可复用到其它需要判定迷向子群的几何深度学习分析。
稠密性 + 几乎处处等距变的处理很漂亮：用流形假设和零测集把"完美等距变不存在"的反例绕过去，证明"够表达力的网络通有可达下确界"，让纯理论真正落到 TFN/HEGNN 这类实际架构上。
\(k\)-fold 三类退化（全/轴/半）的分类，以及它们随 \(l_0\) 与 \(k\) 奇偶性的精确切换表，给了 ENN 设计者一张"选哪些 irreps 才不丢信息"的查表式指南。

局限与展望¶

充分性结论依赖高重数假设（\(m(V, V_i) > \dim G\)）和流形假设，低重数 / 非流形数据下结论可能退化（反例 Cex D.3 也提示重数不足时完美等距变可能不存在）。
完整的轨道类型计算与三类退化分类主要围绕 \(SO(3)/O(3)\) 与 \(k\)-fold 展开，扩展到更复杂群（如带置换的乘积群在更一般任务上的全谱）仍需逐例分析。
实验集中在合成数据与 QM9 单一属性（极化率），是否在更大规模、更高维科学任务上同样能靠"按指南选特征"带来可观增益，还需更广验证。
指南给的是"避免有害增大"的定性方向，如何在固定算力/通道预算下自动搜索最优特征分量组合，是个自然的工程延伸。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把对称性增大统一收束到唯一对称下确界，并给出可计算算法，是对该问题首个严格且可预测的理论框架。
实验充分度: ⭐⭐⭐⭐ 合成可视化 + 图判别 + QM9 三层验证理论预测一致，但真实任务规模与任务多样性偏窄。
写作质量: ⭐⭐⭐⭐ 理论推导层层递进、概念定义清晰；群论密度较高，对非几何深度学习读者门槛偏高。
价值: ⭐⭐⭐⭐⭐ 给出"选哪些 irreps 才不丢方向信息"的可操作指南，对等变网络的特征设计有直接指导意义。