ICLR 2026 可解释性 RNN 简单性偏置动力学塌缩相似度惩罚不动点吸引子神经计算假设

Discovering Alternative Solutions Beyond the Simplicity Bias in Recurrent Neural Networks¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=8fViWZ0yZJ
代码: 待确认
领域: 可解释性 / 神经科学计算建模
关键词: RNN, 简单性偏置, 动力学塌缩, 相似度惩罚, 不动点吸引子, 神经计算假设

一句话总结¶

针对任务训练 RNN 反复塌缩到同一种"最简单"动力学解的问题，本文提出迭代神经相似度去相关（INSD）：通过在线惩罚后训练 RNN 对已有解的线性可预测性，挖掘出依赖动态演化子空间而非固定点吸引子的全新解类，并在困难/分布外任务条件下有时反超标准解。

研究背景与动机¶

领域现状：用神经科学风格任务训练 RNN，已成为为大脑神经回路计算机制"生成假设"的主流手段——人们希望训练多个 RNN 得到一批互相竞争、可拿去和实验数据比对的多样化解。

现有痛点：最近的工作发现任务训练 RNN 有强烈的简单性偏置（simplicity bias），倾向用最少的低维动力学结构（不动点吸引子、极限环）并尽量复用动力学基元来解题。这一偏置强到会让不同种子、不同初始化尺度训练的网络塌缩到几乎完全相同的最简解，即"动力学塌缩"（dynamic collapse）。这种解虽好解释，却让"生成多样假设"的初衷落空。

核心矛盾：简单解未必符合生物回路的归纳偏置——例如 RNN 在记忆任务里一律用稳定吸引子的持续活动来记信息，但真实神经记录显示记忆的群体表征往往是高度动态的。而单纯调初始化尺度、随机种子、架构这些常规旋钮，既无法摆脱塌缩（即便在高度混沌区初始化也照样塌缩），改架构得到的"看似不同"的解又常实现同一套底层动力学（不动点拓扑相同）。

本文目标：找到一种能系统性突破简单性偏置、挖出真正功能不同的替代解的训练方法。

核心 idea：[在解空间里做"格拉姆-施密特"] 把寻找新解类比成在 RNN 解空间里的正交化——每训练一个新 RNN，就显式惩罚它的神经活动被已有解线性预测的程度，从而把新解"推离"已有解的张成范围。

方法详解¶

整体框架¶

先正常训练一个参考 RNN 解任务；之后每训练一个新 RNN，在标准 MSE 任务损失之外加一项"神经相似度惩罚"，逼它的活动既要解出任务、又要在去掉输出相关成分后与所有已有解线性不相关；如此迭代即得 alt-1、alt-2……一系列替代解（即 INSD）。

flowchart LR
    A[参考 RNN<br/>仅 MSE 损失] --> B[收集已有解<br/>firing rates R1...]
    B --> C[训练 alt-k RNN<br/>L + λ·Σ S R_k⊥, R_i⊥]
    C --> D{继续迭代?}
    D -->|是| B
    D -->|否| E[替代解集合<br/>ref/alt-1/alt-2...]

关键设计¶

1. 读出零空间投影：只在"任务无关"成分上施压。 若直接对全部活动做相似度惩罚会与解题冲突——参考 RNN 已近乎完美输出 \(y(t)\approx y^\star(t)\)，那么任何想解出同一任务的新 RNN，其活动必然要能线性预测参考解的"输出相关"（output-potent）成分，否则就解不了题。因此本文先把两个网络的 firing rate 都投影到各自读出权重的零空间，得到 \(R_1^\perp, R_2^\perp\)，只在这部分施加惩罚，损失写作 \(L' = L + \lambda S(R_2^\perp, R_1^\perp)\)，迭代到第三个网络则同时惩罚对前两者的相似度。这样既保住任务性能，又把"逼新解换一套表征"的压力集中到与任务输出无关的自由度上。

2. 用"反向"线性可预测性当相似度度量，避开灌水陷阱。 一个棘手的退化解是：新网络用一个子空间照抄参考解，再用剩余自由度灌入与任务无关的高维噪声动力学，就能把 CKA、RSA 以及 [参考→新解] 方向的线性预测分数都压到接近 0，看似"不同"实则换皮。本文识破这点：线性预测在两个方向上对"无关动力学"的敏感度是不对称的，于是改用 [新解→参考] 方向的可预测性作惩罚。线性可预测性定义为 \(r^2(X,Y)=1-\min_M \|XM-Y\|^2/\|Y\|^2 = \|U_X Y\|^2/\|Y\|^2\)，其中 \(U_X=X(X^\top X)^+X^\top\) 投影到 \(X\) 的列空间；为数值稳定再加岭正则 \(U_{X,\rho}=X(X^\top X+\rho I)^{-1}X^\top\)。这个非对称选择让新解无法靠"塞无关维度"来糊弄度量，必须真正改变表征几何。

3. 迭代去相关 = 解空间正交化。 整套流程类比格拉姆-施密特：参考解给出第一条"基向量"，alt-1 被推到与之线性不相关的方向，alt-2 再被同时推离 ref 和 alt-1，逐次去相关使得每个新解都占据解空间中此前未被覆盖的区域。这一思路与计算机视觉的 Barlow Twins 去冗余、以及算法公平里的线性对抗概念擦除一脉相承，但被搬到了"RNN 任务解"这个全新空间上。

4. 配套动力学系统分析做"真不同"判定。 为验证新解并非标准解的伪装，本文对每个解数值求解不动点/慢点，报告其稳定性、雅可比特征谱与主导特征模态，并用线性可预测性矩阵 + 动力学相似度分析（DSA）的 MDS 嵌入，从表征几何与动力学结构两个维度交叉检验替代解与标准解群的距离。

实验关键数据¶

在三个经典神经科学任务上验证：上下文相关积分（context-dependent integration）、3-bit flipflop（离散记忆）、MemoryPro（模拟量延迟记忆）。每个任务都对每种初始化尺度 \(g\in\{0.01,0.5,1.0,1.5\}\) 各训 10 个标准 RNN 作对照。

主实验：替代解在结构上确实迥异¶

任务	标准解（原型解）	INSD 替代解
上下文相关积分	两条线吸引子，按上下文分别积分相关刺激	振荡动力学，不用慢点/不动点记累积输入；不动点不稳定且带振荡模态
3-bit flipflop	8 个稳定不动点排成立方体 + 鞍点做状态转移	立方体几何消失，复特征模态的不稳定不动点产生振荡；alt-1 无稳定输出态、alt-2 角点不动点不再吸引
MemoryPro	环吸引子持续编码角度，响应期旋出变为输出相关	记忆期表现为旋转动力学，角度沿活动一起旋转编码（动态而非静态），环吸引子被振荡不稳定不动点取代

标准解之间线性可预测性几乎为 1（高度互相可预测），而相似度惩罚解对标准群的可预测性与可被预测性都显著下降。
DSA 的 MDS 嵌入中，标准解按初始化尺度聚类，而替代解与标准群的动力学不相似度远超各簇内变异尺度。
上下文任务中，标准解可在固定回归子空间稳定编码两路刺激相干性；alt-1 仅相关刺激能勉强线性解码，无关刺激估计常与真实条件不符，且权重子空间与回归子空间近正交；任务上下文需额外非线性特征化（RBF 核）才能在 alt-1 上高精度解码。

关键发现：分布外条件下有时反超标准解（Fig. 5）¶

任务	训练内条件	困难/分布外条件
上下文相关积分	标准解通常更优	alt-2 在高噪声下中等超过标准群，且对延长试次时长鲁棒
3-bit flipflop	各模型近乎持平	alt-2 在高噪声下取得中等但显著的相对增益
MemoryPro	标准解更优	alt-1 在高噪声+高记忆负载的最难试次显著超过标准群（但低负载下显著欠佳）；alt-2 始终不优，疑似单纯没学好

关键发现¶

简单解只是众多可行解之一，绝非任务唯一答案；INSD 能稳定挖出依赖"动态演化子空间"而非固定点吸引子来保存信息的解类。
替代解对标准解的残余可预测性，一旦投影到读出零空间就被抹掉——说明它们能预测的只是任务必需的输出相关成分，其余表征真正不同。
分布外性能的"互有胜负"证明替代解是功能上真正不同，而非标准解的隐蔽近似。
跨任务的一个共性现象是：替代解普遍用不稳定振荡不动点取代标准解的稳定/慢不动点，把任务变量维持在不断旋转演化的子空间里，而非静止吸引子状态——这与生物记忆表征"高度动态"的实验观察更吻合。
在 MemoryPro 上，alt-1 的角度编码方向会随活动一起旋转、并间歇性获得输出相关性，定量印证了"动态记忆"假设在可训练模型中是可实现的。

亮点与洞察¶

把"生成多样假设"从碰运气变成可控算法：以往靠调种子/尺度/架构祈祷出现不同解，INSD 用一条显式去相关损失主动把解推开，方法极简却直击动力学塌缩痛点。
对相似度度量退化解的洞察很精彩：识别出"用无关维度灌水可把对称度量刷到 0"的陷阱，并用线性可预测性的方向非对称性巧妙绕开，这条经验对一切"用表征相似度做正则"的工作都有借鉴价值。
读出零空间投影是点睛之笔：清晰区分"任务必需的共享成分"与"可自由变化的成分"，让方法在不牺牲任务性能的前提下最大化解的多样性。
对神经科学的方法论意义：直接挑战"简单可解释解 = 大脑用的解"这一隐含假设，为动态记忆等与实验记录更吻合的假设提供了可生成的模型候选。

局限与展望¶

替代解的解释难度上升：放弃固定点吸引子后，振荡/旋转动力学虽更丰富却更难用现有降维与动力学工具解读，反而牺牲了简单解的可解释性优势。
未必收敛到"好"解：alt-2 在 MemoryPro 上各条件均不优，作者也承认它可能只是"没学好任务"，说明 INSD 不保证每个替代解都是有意义的功能解。
只在小规模 rate-based RNN 与三个经典任务上验证，缺少更大规模网络、脉冲网络或更真实任务的检验，与真实神经数据的定量对照也尚未展开。
超参敏感性未充分刻画：惩罚强度 \(\lambda\)、岭参数 \(\rho\)、迭代轮数对解多样性与任务性能的权衡有待系统扫描。
展望：把 INSD 当作"假设生成器"接入实际神经数据筛选流程，或推广到去相关其他度量（DSA、CCA）以探索不同维度的解多样性。

评分¶

新颖性: ⭐⭐⭐⭐ 把"解空间正交化"思路与读出零空间投影、方向非对称可预测性结合，方法虽简但角度新颖、直击塌缩痛点
实验充分度: ⭐⭐⭐⭐ 三任务 × 多初始化尺度 × 多分析手段（不动点拓扑/DSA/线性解码/OOD 性能）交叉验证，证据链完整；缺大规模与真实数据对照
写作质量: ⭐⭐⭐⭐ 动机清晰、对度量退化解的论证严谨、图文对应到位
价值: ⭐⭐⭐⭐ 为神经计算假设生成提供了可控的多样化工具，对一切"表征相似度正则"工作有方法论启发