Reducing Symmetry Increase in Equivariant Neural Networks¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dUgq4bLY4X
代码: 待确认
领域: 学习理论 / 等变神经网络 / 几何深度学习
关键词: 等变网络, 对称性增大, 轨道类型, 对称下确界, 等变映射
一句话总结¶
本文系统刻画了等变神经网络在处理对称输入时"输出对称性反而被放大、丢失方向信息"这一退化现象,证明被放大的对称性存在一个由特征空间结构唯一决定的下确界(symmetry infimum),并给出可计算算法和特征设计指南来预测和规避有害的对称性增大。
研究背景与动机¶
领域现状:等变神经网络(Equivariant Neural Networks, ENNs)通过把物理对称性内嵌进模型结构,在分子动力学、材料设计等科学场景中取得了极佳的数据效率和泛化性,已经成为几何深度学习的基石。其核心约束是等变性:对任意群元 \(g\) 和输入 \(x\),映射满足 \(f(\rho_X(g)x) = \rho_Y(g)f(x)\)。
现有痛点:当输入本身具有对称性时,ENN 的表达力会退化——输出表示会对"超出输入自身对称群"的变换也保持不变,从而丢失信息。一个典型例子是 \(k\)-fold 结构(\(k\) 重对称的多边形点云):理论上它只有特定的二面体对称性,但 ENN 会把它的不同旋转版本映成同一个特征,把朝向信息抹掉。作者把这一现象命名为对称性增大(symmetry increase)。
核心矛盾:这背后的数学本质是——一个对称输入经过等变映射后,其等变性(intrinsic symmetry,由迷向子群 \(G_x\) 刻画)只会增大不会减小(Curie 原理,\(G_x \subseteq G_{f(x)}\))。当特征空间 \(Y\) "撑不住"输入的对称类型时,增大就变得不可避免,进而导致退化。已有工作要么只做了经验观察(Joshi 等),要么只覆盖了最极端的"全退化/坍缩到零"特例(Cen 等的 collapse-to-zero 理论),要么用放松等变约束来回避问题(Kaba & Ravanbakhsh),缺一个严格、可预测、且在等变框架内解决的统一理论。
本文目标:(1) 把对称性增大的下界刻画清楚;(2) 给出可计算的判定算法;(3) 证明在合理正则条件下,按指南设计的特征能真正消除有害的对称性增大。
核心 idea:被放大的对称性存在一个由特征空间代数结构唯一决定的下确界 \(I_G(Y, G_x)\)。只要把特征空间的轨道类型算清楚,就能提前预测会发生哪种退化,并通过挑选特征分量来规避它。
方法详解¶
整体框架¶
本文是纯理论 + 算法工作,目标是回答三个层层递进的问题:对称性增大到底能被压到多低?怎么算出这个下界?以及在真实可训练的 ENN 里能否达到这个下界。整条逻辑链是:给定输入对称群 \(H=G_x\) 和特征空间 \(Y\) → 用代数结构定义并证明存在唯一的对称下确界 \(I_G(Y, H)\)(§3)→ 用 Michel 判据 + 轨道类型算法把这个下确界计算出来,并据此预测 \(k\)-fold 的三类退化(§4)→ 把可计算结果转成特征设计指南(§4.2)→ 在流形假设下证明对足够表达力的 ENN,这个下确界是通有可达的(§5),最后用合成数据与 QM9 实验验证(§6)。
下面这张图把"输入 → 算下确界 → 判退化 → 指导设计 → 可达性保证"的推理管线串起来:
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入对称群 H=Gx<br/>+ 特征空间 Y"] --> B["对称下确界<br/>唯一最小轨道类型 I(Y,H)"]
B --> C["轨道类型可计算算法<br/>Michel 判据 + 链式递归"]
C -->|对照 H 与 I(Y,H)| D["预测退化类型<br/>全退化 / 轴退化 / 半退化"]
D --> E["特征设计指南<br/>挑选分量对齐任务对称性"]
E --> F["稠密性定理<br/>表达力足够时下确界通有可达"]
F --> G["设计出不丢方向信息的 ENN"]
关键设计¶
1. 对称下确界:把"对称性会被放大多少"压成唯一的下界
针对"等变映射只会增大对称性、且增大到哪不可预测"这个根本痛点,作者引入了对称下确界这一核心概念。先在轨道类型上建立偏序:\((H_1) \geq (H_2)\) 当且仅当 \(H_1\) 包含 \(H_2\) 的某个共轭子群——轨道类型越大代表对称性越高。关键观察是,固定点子空间 \(X^H\) 里装着所有"更高对称"的点,而其中存在唯一的最小轨道类型。最小类型唯一性定理(Thm 3.1)保证:对紧李群 \(G\) 的表示 \(X\) 和任意闭子群 \(H\),\(X^H\) 中存在唯一的最小轨道类型,记作 \(I_G(X, H)\)。
有了这个下确界,理想的等变映射可以被精确定义为等距变映射(isovariant map)——严格保持对称性 \(G_x = G_{f(x)}\) 的映射。当实际增大超过下确界,即 \((G_{f(x)}) > I_G(Y, G_x)\) 时,就发生了非预期的对称性增大。作者进一步给出存在等距变映射的必要条件(Thm 3.2):\(O_G(X) \subseteq O_G(Y)\),等价于对所有 \((H) \in O_G(X)\) 都有 \(I_G(Y, H) = (H)\)。这就把"会不会丢方向信息"这个含糊的经验问题,化成了一个可判定的代数包含关系。
特征空间常常带有非平凡核(例如点云任务要求对置换 \(S_n\) 不变,核里天然含 \(S_{k+1}\))。此时绝对的等距变太苛刻,作者用算子 \(p_Y = \pi_Y^{-1} \circ \pi_Y\)(\(\pi_Y: G \to G/\ker\rho_Y\) 是自然投影)把"不可避免的增大"剥离出来:\(G_x \subseteq p_Y(G_x) \subseteq G_{f(x)}\)。目标随之松弛为相对等距变 \(\rho_Y(G_x) = \rho_Y(G_{f(x)})\),即除了核带来的强制增大之外不再额外增大,必要条件相应变为 \(I_G(Y, H) = (p_Y(H))\)(Thm 3.3)。
2. 轨道类型的可计算算法:用 Michel 判据把抽象下确界算出来
下确界虽然存在唯一,但要在表示学习里真正用上,必须能在高重数(high-multiplicity)特征空间里把它算出来——这正是已有 bifurcation 理论(多聚焦不可约表示)覆盖不到的地方。作者的切入点是 Michel 判据(Thm 4.1):闭子群 \(H\) 是迷向子群的必要条件是,对任意相邻闭超群 \(H' \supsetneq H\),固定点子空间维数严格下降 \(\dim V^{H'} < \dim V^H\)。这个判据一般只必要不充分,但作者证明(Prop 4.2):当 \(V\) 是高重数表示(每个非零等型分量的重数 \(m(V, V_i) > \dim G\))时,该必要条件同时充分。
这一充分性带来两个直接好处:一是把判定变成只检查相邻子群的链式递归,固定点维数可用迹公式算;二是该条件在实际中频繁满足(对所有有限群、以及高通道数特征空间都成立)。基于此,作者设计了轨道类型测试(Algo 1)和对称下确界计算(Algo 2):前者逐个检查相邻超群的维数是否严格下降来判断 \((H)\) 是否为轨道类型,后者在 \(H\) 的所有超群里筛出属于 \(O_G(V)\) 的、取其最小者作为 \(I_G(V, H)\)。
用这套算法分析 \(k\)-fold 结构(几何对称 \(D_{kh}\),在 \(Y = V_{l=l_0}^{\oplus r}\) 里),作者得到了 \(k\)-fold 退化的完整分类——这是对前人"只能解释全退化"的关键超越:
| 退化类型 | 对称下确界 | 物理含义 |
|---|---|---|
| 半退化 Half | \((D_{2kh} \times S_{k+1})\) | 区分不出 \(k\)-fold 与绕 \(z\) 轴转 \(\pi/k\) 后的自己 |
| 轴退化 Axial | \((D_{\infty h} \times S_{k+1})\) | 区分不出绕 \(z\) 轴任意角度旋转 |
| 全退化 Full | \((O(3) \times S_{k+1})\) | 区分不出绕任意轴任意角度旋转 |
退化具体落到哪一类,由特征阶 \(l_0\) 与 \(k\) 的大小及奇偶关系决定(Thm/Table 1),从而可以提前预测。
3. 特征设计指南:把可计算结论翻译成"该选哪些特征分量"
光能算还不够,作者把它落成可操作的设计准则。利用直和的轨道类型性质——\(O_G(V_1) \cup O_G(V_2) \subseteq O_G(V_1 \oplus V_2)\) 且 \(I_G(V_1 \oplus V_2, H) \leq I_G(V_i, H)\)——增减特征分量就成了控制对称性增大的直接杠杆:挑选那些下确界与任务所需对称行为对齐的分量即可。
具体分两类任务:对方向相关任务(如几何图判别),必须避免非平凡的对称性增大(即保证相对等距变),办法是为给定输入对称 \((H)\) 选入包含轨道类型 \((p_Y(H))\) 的特征分量,否则会意外丢失朝向信息;对一般任务(如分子属性预测),输出对称性反映了等变特征所在固定点子空间的维数,应避免那些下确界把固定点子空间压得很狠的分量——尤其要警惕"非平凡表示却对称性增大到全群 \(O(3)\)"的分量,因为这会让该分量被湮灭、彻底失去判别力。
4. (近似)等距变映射的稠密性:证明表达力足够时下确界是通有可达的
前面给的都是"存在性的必要条件",但必要不等于充分(反例 Cex D.3 显示,即便轨道类型包含成立,也可能因为不可约表示重数不足而不存在完美等距变映射)。为把理论接到真实可训练模型上,作者在流形假设下建模数据分布(支撑在有限个光滑紧子流形并 \(M = \bigcup_j M_j\) 上),并松弛定义为几乎处处等距变(almost isovariant):等距变条件在每个轨道类型 \(M_{(H)}\) 上除去测度为零的子集外都成立,即非预期的对称增大只发生在可忽略的零测集上。
随后作者证明强逼近性质:以 TFN 为例,带光滑激活的 TFN 族在光滑等变映射空间 \(C_G^\infty(X, Y)\) 中是 \(C^\infty\)-稠密的(Thm 5.1,连同各阶导数一致逼近)。在此基础上的核心结论(Thm 5.2)是:对任何具备 \(C^\infty\) 逼近能力的等变参数化 \(F\),只要对每个 \((H) \in O_G(M)\) 都有 \((p_Y(H)) \in O_G(Y)\),那么必要条件就变成充分的——存在 \(g \in F\) 几乎处处相对等距变;进一步,若特征空间含有重数 \(r > \max_j\{\dim M_j\}\) 的 \(\tilde Y^{\oplus r}\),则可取到处处相对等距变的逼近映射。这就把"算出来的下确界"和"训得出的网络"严格地对接了起来:表达力足够 + 重数足够时,输出对称性恰好是那个可预测的下确界,方向信息不丢失。
实验关键数据¶
表示空间可视化(§6.1)¶
用单层随机初始化 TFN 编码 3-fold 结构(置于 \(m=6\) 个平面、每平面绕轴离散旋转 \(res=49/98\) 份),对不同特征阶 \(l_0\) 做降维可视化,结果与 Ex 4.3 的理论预测完全一致:
| 特征阶 \(l_0\) | 观测退化 | 对应下确界 |
|---|---|---|
| \(l_0 = 0, 1\) | 全退化 Full | \((O(3) \times S_{k+1})\) |
| \(l_0 = 2, 4\) | 轴退化 Axial | \((D_{\infty h} \times S_{k+1})\) |
| \(l_0 = 10\) | 半退化 Half | \((D_{2kh} \times S_{k+1})\) |
半退化在 \(res=98\) 与 \(res=49\) 下整体形状相同、但旋转后半程的数据点完全覆盖前半程,直观验证了"区分不出转 \(\pi/k\) 后的自己"。
对称图判别(§6.2)¶
构造 \(k \in \{2,3,4,6\}\) 的 \(k\)-fold 结构 \(G_0\),随机旋转得 \(G_1\),用嵌入差范数衡量 ENN 能否区分二者(2D / 3D 旋转分别测试,TFN 与 HEGNN 各 12 种通道/层数配置):
| 现象 | 数值 | 含义 |
|---|---|---|
| 可区分 | 嵌入差范数 \(> 10^{-3}\) | 结构被分开 |
| 不可区分 | 嵌入差范数 \(< 10^{-6}\) | 退化坍缩 |
| 二者间隔 | 相差 \(> 10^3\) 倍 | 清晰的二值模式 |
结果呈现干净的二值分布,且因为取的是所有配置的最大值仍 \(< 10^{-6}\),说明退化与模型选择、通道数、层数无关,是结构性而非训练性问题——与理论预测精确吻合。
QM9 分子属性预测(§6.3)¶
预测各向同性极化率 \(\alpha\),以 HEGNN 为骨干,先在 \(l \leq 11\) 上预训练共享编码器,再用 (a) 仅 \(l=l_0\)、(b) 全部 \(l \leq l_0\) 两种微调策略各得 12 个预测头。
关键发现¶
- 多数样本里不同特征分量贡献相近;但对那些分子对称性增大到 \(O(3)\) 的非平凡分量,预测 MAE 显著更高——印证"增大到全群 ⇒ 分量被湮灭 ⇒ 判别力丧失"。
- 对在 1 阶特征上发生全退化的对称性,再叠加更多 1 阶特征几乎不带来提升,直接验证了 §4.2 的设计指南。
- \(k\)-fold 退化是一种结构性退化:换模型、加通道、加层都救不了,只能从特征空间的轨道类型层面预先规避。
亮点与洞察¶
- 把"等变网络丢方向信息"这个零散的经验现象,统一收敛到一个唯一存在的对称下确界上,并证明它只由特征空间的代数结构决定——这是从"事后观察"到"事前预测"的范式升级。
- 高重数表示下让 Michel 判据从"必要"升格为"充分"(Prop 4.2),是把抽象群论结论变成可跑算法(链式递归 + 迹公式)的关键技术桥梁,可复用到其它需要判定迷向子群的几何深度学习分析。
- 稠密性 + 几乎处处等距变的处理很漂亮:用流形假设和零测集把"完美等距变不存在"的反例绕过去,证明"够表达力的网络通有可达下确界",让纯理论真正落到 TFN/HEGNN 这类实际架构上。
- \(k\)-fold 三类退化(全/轴/半)的分类,以及它们随 \(l_0\) 与 \(k\) 奇偶性的精确切换表,给了 ENN 设计者一张"选哪些 irreps 才不丢信息"的查表式指南。
局限与展望¶
- 充分性结论依赖高重数假设(\(m(V, V_i) > \dim G\))和流形假设,低重数 / 非流形数据下结论可能退化(反例 Cex D.3 也提示重数不足时完美等距变可能不存在)。
- 完整的轨道类型计算与三类退化分类主要围绕 \(SO(3)/O(3)\) 与 \(k\)-fold 展开,扩展到更复杂群(如带置换的乘积群在更一般任务上的全谱)仍需逐例分析。
- 实验集中在合成数据与 QM9 单一属性(极化率),是否在更大规模、更高维科学任务上同样能靠"按指南选特征"带来可观增益,还需更广验证。
- 指南给的是"避免有害增大"的定性方向,如何在固定算力/通道预算下自动搜索最优特征分量组合,是个自然的工程延伸。
相关工作与启发¶
- vs Cen 等(collapse-to-zero): 他们的坍缩到零理论只覆盖最极端的全退化;本文的下确界框架把全/轴/半三类退化统一刻画,全退化只是 \(I_G = (O(3) \times S_{k+1})\) 的特例。
- vs Joshi 等(经验观察): 他们经验上发现退化依赖特征空间但没给理论解释;本文给出可计算的轨道类型判定,精确预测在哪个 \(l_0\) 会发生哪类退化,并复现了他们的实验设置。
- vs Kaba & Ravanbakhsh(放松等变约束): 他们用轨道类型描述现象、但解决方案往往要松弛等变性本身;本文坚持在等变框架内,通过特征设计而非破坏等变性来规避退化。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把对称性增大统一收束到唯一对称下确界,并给出可计算算法,是对该问题首个严格且可预测的理论框架。
- 实验充分度: ⭐⭐⭐⭐ 合成可视化 + 图判别 + QM9 三层验证理论预测一致,但真实任务规模与任务多样性偏窄。
- 写作质量: ⭐⭐⭐⭐ 理论推导层层递进、概念定义清晰;群论密度较高,对非几何深度学习读者门槛偏高。
- 价值: ⭐⭐⭐⭐⭐ 给出"选哪些 irreps 才不丢方向信息"的可操作指南,对等变网络的特征设计有直接指导意义。