On Universality of Deep Equivariant Networks¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Q2D1PI6zY1
代码: 无(纯理论论文,无实验代码)
领域: 学习理论 / 等变网络 / 表达能力
关键词: 等变网络、不变网络、万能逼近、分离能力、逐分量分离
一句话总结¶
这篇论文为深度不变 / 等变网络建立了"在分离约束下的万能逼近"定理,指出深度和读出层(readout)是达成万能性的决定性机制,并为等变情形引入了比标准分离更细的"逐分量分离"(entry-wise separability)判据,统一并推广了此前局限于浅层或特定架构的结论。
研究背景与动机¶
领域现状:对称性已成为深度学习的核心组织原则,等变网络(CNN、GNN、PointNet、SE(3)-Transformer 等)通过保证"输入变换 → 输出同步变换"来编码对称性归纳偏置,在分子、点云、图、流形等任务上广泛成功。但人们一直担心:这种归纳偏置除了对称性之外,会不会还偷偷施加了额外的、不想要的表达力限制?
现有痛点:刻画等变网络表达能力的两条主流路线各有硬伤。第一条直接研究万能性(universality,即能否逼近所有与对称性兼容的目标函数),但 Ravanbakhsh、Maron 等人的结果要么要求隐藏层用 regular 表示、要么用高阶张量表示,导致中间表示维度随群规模爆炸,完全不实用。第二条研究分离能力(separation power,即能区分多少对输入),在图学习里通过 Weisfeiler–Leman 测试被研究得很透,但它只是逼近的必要条件。
核心矛盾:分离对逼近是必要的,却不一定充分。Pacini et al. (2025b) 给出了反例:两个浅层不变架构分离能力相同、逼近能力却不同,说明"分离能力相等"并不能推出"能逼近的函数类相等"。这与经典神经网络理论形成鲜明对比——在经典设定下,深度只影响参数效率、不改变可逼近函数类。
本文目标:在不变与等变两种情形下,搞清楚深度和读出层到底如何修复"分离能力 = 逼近能力"这件事,并给出一个统一框架,超越此前一篇一个架构、各自为政的结论。
切入角度:Zaheer、Qi、Segol & Lipman 等人观察到,给受限架构加全连接读出层或增加深度就能把它们变成"分离约束下万能"的模型。作者顺着这条线索深挖:深度和读出层是不是分离约束万能性的通用机制?
核心 idea:把"万能性"重新表述为在分离关系 \(\rho\) 约束下逼近整个 \(C_\rho\) 函数类;对不变网络证明"加一层全连接读出即可万能";对等变网络发现标准分离太粗,于是引入更锐利的逐分量分离,并证明"深度足够"或"特定读出层"两条路都能达成万能。
方法详解¶
整体框架¶
整篇论文是一套关于等变网络表达能力的逼近理论,没有训练流程或网络管线,因此不画 pipeline 图,而是按"先不变、后等变"的逻辑链层层推进。
作者先把所有研究对象统一在置换表示 + 层空间(layer space)的语言下。一个有限群 \(G\) 作用在有限集 \(X\) 上,得到置换表示 \(\mathbb{R}^X\);一个层空间 \(M \subseteq \mathrm{Aff}_G(V, \mathbb{R}^X)\) 是一族满足等变约束的仿射映射(线性层、不变层 \(I\)、卷积层 \(C\)、PointNet 层 \(P\) 都是它的特例)。把多个层空间用逐点激活 \(\tilde\sigma\) 串起来就得到神经空间;让中间宽度自由变化、再取一致收敛闭包,就得到一个架构的万能类 \(U_\sigma(M_1,\dots,M_d)\)。
接着定义评判标准。一族函数 \(U\) 诱导一个等价关系 \(\rho(U)\)(分不开的输入对),若 \(U\) 恰好能逼近所有"尊重 \(\rho\)"的连续函数 \(C_\rho\),就称它分离约束万能。论文的三块核心内容就是:(1) 不变网络靠全连接读出达成 \(C_\rho\) 万能;(2) 指出等变情形下 \(C_\rho\) 这个目标本身刻画不准,需要换成逐分量版本 \(C_{\boldsymbol\rho}\);(3) 用两种不同手段(深度 / 卷积读出)把等变网络打到 \(C_{\boldsymbol\rho}\) 万能。这三块对应下面三个关键设计,论文叙述顺序与之一致。
关键设计¶
1. 分离约束万能性框架 + 不变网络的全连接读出定理:把"分离≠逼近"的病态用一层读出修好
针对的痛点是 Pacini et al. (2025b) 揭示的怪现象:分离能力相同的不变架构,逼近能力却可能严格不等(如 \(U_\sigma(C,I) \subsetneq U_\sigma(P,I) \subsetneq C_{S_n}(\mathbb{R}^n,\mathbb{R})\),三者分离能力却完全一样)。作者先把"万能"形式化为分离约束下的相等:一族函数 \(U\) 的分离关系为
而目标函数类是所有尊重该关系的连续函数 \(C_\rho(V,W)=\{f\in C(V,W)\mid f(\alpha)=f(\beta)\text{ whenever }(\alpha,\beta)\in\rho\}\)。定理 1 证明:对任意不变层 \(I\) 收尾的网络,只要再接一层普通全连接读出 \(L\)(即 \(L=\mathrm{Aff}(\mathbb{R},\mathbb{R})\) 的并联),就有
证明的巧思在于:全连接读出 \(L\) 不改变网络的分离关系 \(\rho\)(前面层已把分离能力定死),却能把任意一组分量函数 \(f_1,\dots,f_h\) 自由地非线性组合,从而补齐"分离够、但逼近不够"的缺口。这一步直接吸收并推广了 Joshi et al.、Chen et al. 的不变万能性结论。
2. 逐分量分离(entry-wise separability):标准分离对等变情形太粗,必须逐个输出坐标看
把视线转到等变情形时,作者发现一个反例(Example 3):取宽度为 1 的卷积层空间 \(C\),深度 \(d\ge 2\) 的纯卷积网络满足
由于恒等映射在 \(U_\sigma^d(C)\) 里,它的分离关系 \(\rho\) 是平凡的(什么都能分开),于是标准目标 \(C_{S_n,\rho}=C_{S_n}(\mathbb{R}^n,\mathbb{R}^n)\);但上式说明无论深度多大都达不到这个目标——标准分离约束万能在等变情形根本无法成立。问题出在:等变函数的"分离能力"是把所有输出坐标揉在一起看的,而真正限制它的是每个输出坐标各自能分开什么。
为此作者引入逐分量分离(Definition 6)。设 \(\pi_x:\mathbb{R}^X\to\mathbb{R}\) 是投到第 \(x\) 个坐标的投影,对神经空间 \(N\) 定义每个坐标的分离关系
并把它们打包成一个关系族 \(\boldsymbol\rho(N)=(\rho_{x_1}(N),\dots,\rho_{x_n}(N))\),对应的目标函数类 \(C_{\boldsymbol\rho}\) 要求每个坐标各自尊重自己的 \(\rho_x\)。由于 \(\rho(N)=\bigcap_x \rho_x(N)\),逐分量分离蕴含标准分离,且可能严格更强;在不变情形(\(G\) 平凡作用于 \(\mathbb{R}\))或所有 \(\rho_x\) 相等时它退化回标准分离。Proposition 2 进一步证明 Example 3 的卷积网络恰好满足 \(U_\sigma^d(C)=C_{\boldsymbol\rho}(\mathbb{R}^n,\mathbb{R}^n)\)——新判据精确刻画了原来刻画不了的类。
3. 两条达成等变万能的路径:深度稳定(定理 2)与卷积读出(定理 3)
有了逐分量分离这把尺子,作者给出两个殊途同归的等变万能定理。定理 2(深度路径):设输出层空间 \(M\)(含恒等映射)反复堆叠,当深度达到使逐分量分离稳定的阈值后——即
则再多堆一层就达成逐分量分离约束万能 \(U_\sigma(\dots,\underbrace{M,\dots,M}_{d+1})=C_{\boldsymbol\rho}(V_0,\mathbb{R}^X)\)。配合 Pacini et al. (2025a) "分离在有限深度后稳定"的结论,Corollary 1 保证存在阈值 \(D\),深度超过它后万能类饱和,再加深也不变——这从理论上排除了"无限加深无限变强"的可能,给出了实践上"在有限深度就触顶"的保证。
定理 3(读出路径):若把输出层换成宽度为 1 的卷积滤波 \(C\),则无需任何深度条件就有 \(U_\sigma(M_1,\dots,M_f,C)=C_{\boldsymbol\rho}(V)\)。关键区别在于:加 \(C\) 层不改变模型的逐分量分离能力(它扮演不变情形里全连接读出的"等变替身"),而堆 \(M\) 层则可能提升分离能力——定理 2 正是为后一种效应付出"等到稳定"的代价。当 \(C\) 退化到一维时 \(C=L\)、\(M=I\),定理 3 恰好特化为不变情形的定理 1,两套结果在此合龙。Remark 1 据此直接复现了 Segol & Lipman (2020) 的 PointNet 万能性 \(U_\sigma(C,P,C)=U_\sigma(P,P,P)=C_{S_n}(\mathbb{R}^n,\mathbb{R}^n)\),并指出定理 2 的深度阈值只是充分而非必要条件。
损失函数 / 训练策略¶
本文为纯理论工作,不涉及损失函数、优化或训练;所有结论以定理 / 命题 / 推论形式给出,完整证明在正文与附录中(作者在可复现性声明中强调无实验、无数据集,所有断言可通过检验证明来验证)。
实验关键数据¶
本论文无实验。下面用两张表归纳其理论结果,替代常规实验表格。
主要定理一览¶
| 定理 / 结论 | 设定 | 达成万能的机制 | 结论形式 |
|---|---|---|---|
| 定理 1 | 不变网络 | 加全连接读出 \(L\) | \(U_\sigma(M_1,\dots,M_d,I,L)=C_\rho(V)\) |
| Example 3 / Prop. 2 | 等变(纯卷积) | —(标准分离失效) | \(U_\sigma^d(C)=C_{\boldsymbol\rho}\subsetneq C_{S_n}\) |
| 定理 2 + Cor. 1 | 等变网络 | 深度达到分离稳定阈值 | \(U_\sigma(\dots,M^{d+1})=C_{\boldsymbol\rho}\),有限深度饱和 |
| 定理 3 | 等变网络 | 宽度 1 卷积读出 \(C\) | \(U_\sigma(M_1,\dots,M_f,C)=C_{\boldsymbol\rho}(V)\) |
对此前结果的统一与推广¶
| 此前工作 | 原结论 | 本文如何统一 |
|---|---|---|
| Pinkus (1999) | 经典万能逼近 | \(U_\sigma(L,L)=C(\mathbb{R},\mathbb{R})\),作为 \(\rho\) 平凡的特例 |
| Segol & Lipman (2020) | 3 层 PointNet 万能 | 由定理 3 + Remark 1 直接复现 |
| Joshi et al. (2023) | 区分 \(G\)-轨道后接头部即不变万能 | 被定理 1 涵盖 |
| Chen / Geerts / Maron | GNN 万能 ↔ Weisfeiler–Leman 分离 | 纳入分离约束万能框架 |
| Pacini et al. (2025b) | 分离相同但逼近不同 | 定理 1 / 逐分量分离给出修复与精确刻画 |
关键发现¶
- 深度和读出层是万能性的决定性机制:在分离能力不变的前提下,二者改变了可逼近函数类——这与经典网络中"深度只省参数、不扩函数类"形成根本对比。
- 等变需要更细的分离判据:标准分离把所有输出坐标揉在一起,对等变情形会严重高估能力;逐分量分离逐坐标审视,才精确刻画万能类。
- 两条路径不等价:堆深度(定理 2)可能提升分离、需等稳定;卷积读出(定理 3)不改分离、可直接达成——后者还揭示定理 2 的深度阈值只是充分条件,常常偏保守。
亮点与洞察¶
- 把"万能性"从"逼近一切"重写成"逼近分离约束下的 \(C_\rho\)",让原本只能逐架构证明的结论有了统一语言,这是全文最关键的视角转换。
- 逐分量分离是一个可迁移的概念工具:凡是输出是结构化对象(每个坐标受不同稳定子群约束)的等变模型,都可以用"逐坐标投影 + 各自分离关系"来分析表达能力,而不必诉诸更重的微分算子刻画(Remark 2)。
- "读出层 = 不变情形全连接读出的等变替身" 这个类比很漂亮:它解释了为什么一维退化时定理 3 自动变成定理 1,把不变与等变两套理论缝在了一起。
- 有限深度饱和(Corollary 1)对实践有指导意义:它告诉工程师"加深到某个阈值后表达力触顶",避免盲目堆深。
局限与展望¶
- 仅限逐点激活 + 置换表示:推广到其他类型表示或更一般的非线性可能需要全新方法(作者明确承认)。
- 结论是渐近的、无定量速率:没有给出逼近速率或样本复杂度界,而这些对理解实际表达力很关键。
- 未触及可训练性:深度足以保证万能,但这样的深网何时能被高效训练仍是开放问题——理论上的"存在"不等于优化上的"可达"。
- 个人观察:定理 2 的深度阈值依赖"分离稳定"这一难以一般性判定的条件,Remark 1 也指出该阈值充分不必要,实际中如何估计稳定深度仍缺乏可操作的判据。
相关工作与启发¶
- vs Ravanbakhsh (2020) / Maron et al. (2019b):他们用 regular 表示 / 高阶张量证明等变万能,代价是隐藏维度随群规模爆炸、不实用;本文用置换表示 + 分离约束,刻画的是实际架构(CNN/GNN/PointNet)的万能类,更贴近落地。
- vs Joshi et al. (2023) / Chen et al. (2019):他们建立了"分离到 WL / 轨道即不变万能"的初步结果,但局限于不变情形;本文的定理 1 涵盖之,并把战线推进到等变情形。
- vs Pacini et al. (2025b):他们发现"分离相同、逼近不同"的病态并用微分算子刻画;本文对等变情形用逐分量分离给出不依赖微分算子的精确刻画,并用读出层 / 深度直接修复该病态。
- vs 经典深度理论(Telgarsky 2016, Yarotsky 2017/2018):经典结论里深度只改善参数效率、不扩函数类;本文揭示在等变 / 分离约束设定下,深度反而能扩张可逼近函数类,是一个值得注意的反差。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 逐分量分离是真正新的判据,统一视角填补了等变万能性理论的空白
- 实验充分度: ⭐⭐⭐ 纯理论论文无实验,但定理证明完整、自洽,按理论标准是充分的
- 写作质量: ⭐⭐⭐⭐ 逻辑链清晰、与既有结果对照到位,但概念密度高、对非理论读者门槛较陡
- 价值: ⭐⭐⭐⭐ 为等变网络表达能力分析提供了通用框架和可迁移工具,长期价值高