Task-Restricted Symmetries in Recurrent Weight Space¶

会议: ICML2026
arXiv: 2606.18457
代码: 未公开
领域: 学习理论 / RNN 权重空间分析
关键词: 权重空间对称性, 循环网络, Schur 分解, 非正规性, 机制可解释性

一句话总结¶

论文用「有序实 Schur 坐标」把训练好的单层 tanh RNN 的循环矩阵拆成谱块与非正规耦合块，通过逐块置零做结构化消融，发现某些非正规耦合可以在几乎不改变任务行为的前提下被删掉（近似函数不变性），而另一些是任务关键方向——而且这种「可删/不可删」的画像随任务和训练解而变，并非循环权重空间的普适对称性。

研究背景与动机¶

领域现状：精确的权重空间对称性（如置换对称、正交变换）已经成为比较和对齐神经网络、乃至直接在参数空间上学习（把训练好的网络当输入的元网络）的实用工具。这类对称性的特点是：变换前后网络实现的函数完全不变。

现有痛点：循环网络里还存在另一类「软」冗余——对循环矩阵 \(W_{hh}\) 做较大的结构化改动，可能只在某个任务分布上、且只是近似地保持行为不变；反过来，同样尺度的改动有时会彻底破坏行为。这类方向落在精确群论对称性之外，却实实在在地塑造了权重空间的功能几何。直接在原始循环坐标里看，这些非正规结构很难跨训练实例做比较，因为 tanh RNN 不像线性网络那样容许任意正交基变换作为精确对称。

核心矛盾：参数空间里的「距离远近」和「功能等价与否」之间是脱节的——大的结构化改动可能保持功能，小的定向改动反而可能改变功能。用原始权重坐标根本看不出哪个改动安全。

本文目标：找一个可复现、可消融、可跨实例比较的坐标系，把循环矩阵里的非正规耦合显式分离出来，然后逐块测试：哪些耦合块删掉后任务行为几乎不变（候选近似不变性），哪些是脆弱的任务关键方向。

切入角度：实正交的 Schur 分解。它对任意实矩阵都给出一个正交基、一组（准）对角谱块、以及严格上三角的非正规耦合，而且即便矩阵高度非正规，Schur 基也始终正交、条件良好（相比之下特征坐标在强瞬态放大时病态）。神经科学早就指出非正规耦合塑造了循环网络的瞬态计算，但缺一个能把它们排序、对齐、消融的坐标。

核心 idea：用「按特征值模长排序的实 Schur 坐标」做诊断基，把非正规耦合分成若干结构化扰动方向，固定输入/读出权重逐块置零，用 rollout 行为的变化量来判定每个耦合块是「近似稳定子」还是「脆弱方向」。

方法详解¶

整体框架¶

方法不是训练一个新模型，而是给已经训练好的单层 tanh RNN 做一套「坐标变换 + 结构化消融 + 行为判据」的诊断流程。单层 tanh RNN 的前向是

\[h_t = \tanh(W_{xh}x_t + W_{hh}h_{t-1}), \quad \hat{y}_t = W_{hy}h_t, \quad h_0 = 0,\]

偏置全设 0。诊断只动循环矩阵 \(W = W_{hh}\)，输入映射 \(W_{xh}\) 和读出映射 \(W_{hy}\) 始终不变。整体上分三步：(1) 把 \(W\) 换到有序实 Schur 坐标，分离谱块与非正规耦合；(2) 选定一组耦合块置零、重构 \(W\)、在原读出坐标下重跑网络；(3) 用 rollout 行为差异判定这组消融是「近似稳定子」还是落在脆弱方向。整个判定绑定在某个任务分布 \(\mathcal{D}\) 上，所以得到的是任务限定、近似的等价类，而不是参数空间的全局群作用。

关键设计¶

1. 有序实 Schur 坐标：把非正规耦合变成可排序、可比较的扰动方向

痛点是原始循环坐标和特征坐标都不好用——后者在强瞬态放大时病态，导致跨训练实例没法稳定比较，消融也变成对基敏感的操作。论文用实 Schur 分解 \(W = QTQ^\top\)（\(Q\) 正交，\(T\) 实准上三角），再把 \(T\) 拆成 \(T = B + N\)：\(B\) 是块对角的 \(1\times1\) 和 \(2\times2\) 实特征值块，\(N\) 是严格块上三角的非正规耦合。Schur 块按特征值模长非增排序，用一个相对阈值 \(\alpha\) 把领头的谱块分成参考扇区 \(R=\{i:|\lambda_i|\ge\alpha\rho(W)\}\)（\(\rho(W)\) 是谱半径，\(R\) 对应类旋转的领头子空间）和补扇区 \(C\)。在这个有序划分下，非正规耦合自然分成三块：扇区内 \(T_{RR}\)、从补扇区流入领头扇区的定向跨块 \(T_{C\to R}\)、以及补扇区内 \(T_{CC}\)。正交的 Schur 基即便对强非正规矩阵也条件良好，于是这些耦合就成了可复现、可跨实例对齐的结构化扰动方向。主实验固定 \(\alpha=0.9\)，且是先验选定而非为某个消融结果调出来的（阈值只影响 \(R/C\) 划分，邻近阈值检查给出一致的定性画像）。

2. 固定编码/解码的结构化消融：在不重训读出的前提下做因果干预

有了坐标还得有干预手段。对一组 Schur 耦合块 \(S\)，干预就是把 \(N\) 中对应的条目置零，重构 \(\widetilde{W}_{hh}(S) = Q\widetilde{T}(S)Q^\top\)，然后不改输入和读出权重地重新评估网络。这一点很关键：固定编码器/解码器，测的才是「原始输入-输出映射在原读出坐标下是否被保住」。如果消融后再重新拟合一个线性/岭回归读出，那回答的是另一个问题——扰动后的潜动力学是否仍在新读出下含有任务信息，二者不能混。所有扰动都在训练之后施加，不重训任何权重，因此是对训练好的控制器做的纯机制干预。

3. 近似函数不变性的判据与两个度量：区分「稳定子」与「脆弱方向」

怎么判定一个耦合块该不该删？论文给出 \(\epsilon\)-稳定子的定义：设 \(f_W\) 是网络在任务分布 \(\mathcal{D}\) 上的 rollout 函数，\(d_\mathcal{D}\) 是 rollout 差异、\(\epsilon\) 是容差，当 \(d_\mathcal{D}(f_W, f_{\widetilde{W}_{hh}(S)})\le\epsilon\) 时干预 \(S\) 是 \(\mathcal{D}\) 上的 \(\epsilon\)-稳定子。一个耦合块若置零后差异很小、同时删掉了不可忽略的 Schur 质量，就是候选近似函数不变性；若性能急剧变化，则它处在该训练解的脆弱功能方向上。对神经科学风格任务，用「未解释方差比」\(\mathrm{FVU}=\mathbb{E}\|\hat{y}-y\|^2/\mathbb{E}\|y-\bar{y}\|^2\) 衡量保留集误差，并报告两个摘要量：\(\Delta\mathrm{FVU}=\mathrm{FVU}(\widetilde{W}_{hh})-\mathrm{FVU}(W_{hh})\) 捕捉训练尺度下的原始退化；归一化敏感度

\[S_{\Delta T} = \frac{\Delta\mathrm{FVU}}{\|\Delta T\|_F/\|T\|_F}\]

衡量每单位被删 Schur 质量带来的退化，用来揪出「质量很小却影响巨大」的小扇区。\(\Delta\mathrm{FVU}\) 是主行为效应，\(S_{\Delta T}\) 是辅助放大镜。

损失函数 / 训练策略¶

本文不引入新训练目标。被诊断的 RNN 用标准方式训练：copy 任务在 \(N_h\in\{56,64,72\}\) 下用四种循环构造（dense default / dense orthogonal / dense normal / Cayley 参数化保正交）；神经科学风格任务用 \(N_h=64\)、正交初始化、Adam（学习率 \(10^{-3}\)）、batch 64、30 epoch、每 epoch 128 个 batch、每个任务 3 个种子。所有消融都在训练完成后施加。

实验关键数据¶

主实验¶

在 dense orthogonal、\(N_h=72\) 的 copy 任务解上，逐块消融对自主重放准确率（前 128 个生成符号）的影响如下。可见单独删 \(T_{CC}\) 几乎不掉点（近似稳定子），而删 \(T_{C\to R}\) 把模型推到明显更低准确率的功能类。

消融配置	自主重放准确率	解读
完整模型	1.00	基准
\(-T_{CC}\)	1.00	几乎损失保持，候选近似不变性
\(-T_{RR}\)	0.876	中间功能类
\(-T_{RR}, -T_{CC}\)	0.875	与单删 \(T_{RR}\) 几乎一致
\(-T_{C\to R}\)	0.639	推入低准确率功能类
\(-T_{C\to R}, -T_{CC}\)	0.639	与单删 \(T_{C\to R}\) 一致
\(-T_{RR}, -T_{C\to R}\)	0.624	接近三块全删
三块全删	0.624	最低

阈值敏感性检查（Table 1）显示在 \(\alpha\in\{0.85,0.90,0.95\}\) 下定性画像不变：dense orthogonal 删 \(T_{C\to R}\) 始终掉到 0.634，而 Cayley 构造的补扇区耦合几乎为零，同样消融下重放准确率始终 1.00。

跨任务消融¶

三个神经科学风格任务上单块消融的原始退化 \(\Delta\mathrm{FVU}\)（均值，完整模型 FVU 分别为 flip-flop 0.0048、sine 0.0036、context-integration 0.0104）：

任务	\(-T_{C\to R}\) 的 \(\Delta\mathrm{FVU}\)	\(-T_{CC}\) 的 \(\Delta\mathrm{FVU}\)	主导脆弱块
3-bit flip-flop	\(9.45\times10^{-2}\)	\(4.96\times10^{-2}\)	\(T_{C\to R}\)（\(T_{RR}\) 几乎无影响）
正弦生成	1.73	2.08	原始退化 \(T_{CC}\) 大，归一化敏感度 \(T_{C\to R}\) 最高（21.1）
上下文相关积分	0.37	0.94	\(T_{CC}\) 主导（符合慢积分变量靠补扇区内递归支撑）

关键发现¶

没有一个 Schur 耦合块是普适安全的：copy 任务里 \(T_{CC}\) 近似可删、\(T_{C\to R}\) 不可删；但在正弦生成、上下文积分里 \(T_{CC}\) 反而是主导脆弱块。可删/不可删完全取决于任务和训练解。
归一化敏感度能揪出小而关键的扇区：正弦生成里 \(T_{C\to R}\) 原始退化不是最大，但 \(S_{\Delta T}=21.1\) 最高——它质量小却影响大。
参数化方式决定冗余结构：Cayley 保正交构造几乎没有非正规补扇区耦合，所以这些消融对它几乎没影响；dense orthogonal 解才呈现出可删的 \(T_{CC}\) 冗余。

亮点与洞察¶

用 Schur 坐标而非特征坐标是点睛之笔：正交、条件良好、可跨实例对齐，把「难比较的非正规结构」变成「可排序、可消融的扰动方向」，绕开了特征坐标在强瞬态放大下病态的坑。
固定读出 vs 重拟合读出这条区分很克制也很诚实：只有固定编码/解码，消融才在测「原函数是否被保住」，而不是「潜动力学是否还含任务信息」——这两个问题作者明确分开。
把结论框定为「任务限定的近似不变性」而非「普适对称性」：作者反复强调消融画像随任务和训练解而变，不能读成「非正规分量通常可忽略」。这种自我克制让结论更可信。
可迁移思路：这套「正交诊断基 + 结构化消融 + 每单位质量敏感度」可以用于分析其他循环/状态空间模型里哪些结构是功能冗余、哪些是关键瓶颈。

局限与展望¶

低维任务的混淆：作者承认这些任务低维，训练网络可能只用了低维隐状态子空间，于是 Schur 消融保住性能可能是因为它避开了与读出对齐的活动方向，而非该耦合真的没有计算作用。实验没有把「子空间解释」和「Schur 坐标解释」分开——要分开需测被删 Schur 方向到隐状态主成分、读出对齐子空间、任务条件活动流形上的投影。
范围窄：只测了普通单层 tanh RNN、简单低维任务、窄宽度范围、少量训练解；没测 LSTM/GRU/门控架构、大序列模型、高维真实序列任务。所以证据支持的是「Schur 消融作为训练好的循环控制器的诊断工具」，而非关于非正规结构的普适论断。
改进方向：把诊断推广到门控与状态空间模型，并结合活动流形分析来分离子空间与耦合两种解释。

评分¶

新颖性: ⭐⭐⭐⭐ 把实 Schur 坐标用作循环权重空间的诊断基、并定义任务限定近似不变性，角度新颖
实验充分度: ⭐⭐⭐ 任务覆盖四种循环计算、有阈值与跨任务消融，但架构与规模都窄、解数量少
写作质量: ⭐⭐⭐⭐ 概念定义清晰、对结论范围的自我约束很诚实
价值: ⭐⭐⭐⭐ 为「循环网络功能冗余/脆弱方向」提供了可复现的机制诊断工具