Mechanistic Interpretability of RNNs Emulating Hidden Markov Models¶

会议: NeurIPS 2025
arXiv: 2510.25674
代码: GitHub
领域: 人体理解
关键词: RNN可解释性, 隐马尔可夫模型, 噪声驱动动力学, 随机共振, 组合动力学基元

一句话总结¶

训练vanilla RNN复现隐马尔可夫模型（HMM）的发射统计量，然后通过逆向工程揭示RNN利用噪声维持的轨道动力学、"kick neuron"电路和自致随机共振机制来实现离散随机状态转换的计算原理。

研究背景与动机¶

领域现状：RNN在神经科学中被广泛用于建模神经群体动力学、生成关于神经计算的假说。过去的工作主要聚焦于确定性的、输入驱动的简单任务（如运动判别、达到运动等）。

现有痛点：自然行为通常表现为离散隐状态之间的随机转换（如HMM所描述），而RNN依赖连续状态空间——两者看似不兼容。对于RNN如何产生自发的、随机的离散行为知之甚少。

核心矛盾：HMM用离散状态+随机转换建模行为，RNN用连续轨迹建模动力学——如何桥接？

本文目标：RNN能否用连续动力学实现离散随机状态转换？如果能，其内部机制是什么？

切入角度：直接训练RNN拟合HMM的输出分布，然后多层次逆向工程。

核心 idea：RNN通过噪声维持的闭合轨道动力学实现离散状态，慢速噪声积累+快速kick neuron触发组成"动力学基元"，多个基元组合可模拟复杂HMM结构。

方法详解¶

整体框架¶

训练管线：RNN接收i.i.d.高斯噪声输入 \(x_t \sim \mathcal{N}(0, I_d)\)，经ReLU循环更新隐状态，线性投影到3维输出，通过Gumbel-Softmax转换为类别样本。用Sinkhorn divergence（最优传输距离）作为损失函数训练。
逆向工程：从全局动力学→局部动力学→单神经元/连接→计算原理四个层次分析。

关键设计¶

训练范式（噪声驱动RNN + Sinkhorn Loss）：
- 功能：训练RNN学习HMM的概率性输出行为
- 为什么：目标序列是概率性的，传统的逐步监督损失不适用；需要比较分布而非单个样本
- 怎么做：使用Sinkhorn divergence——一种正则化的最优传输距离，通过软化的耦合矩阵使优化可微： \(h_t = \text{ReLU}(h_{t-1}W_{hh}^T + x_t W_{ih}^T), \quad y_t = h_t A^T\) 参数 \(\Theta = \{W_{hh}, W_{ih}, A\}\) 通过最小化预测输出与HMM目标序列之间的Sinkhorn divergence优化
- 区别：标准RNN训练用确定性损失，本文首次引入最优传输损失训练RNN复现概率行为
HMM架构族：
- 线性链HMM：2-5个状态，带宽对角转移矩阵，系统考察从最大离散到准连续的频谱
- 全连接HMM：3状态，每个状态可转移到任意其他状态
- 循环HMM：4状态，双向闭环转移结构
全局动力学发现——噪声维持的轨道动力学：
- 无输入时，RNN活动收敛到单一不动点（无法实现离散状态切换）
- 有随机输入时，轨迹沿闭合轨道运动，轨道上出现慢速区域（对应不同输出类）
- 轨道半径与输入方差线性缩放
- 训练过程中经历明显的相变：从稳定不动点→不稳定→轨道动力学出现
局部动力学发现——三个功能区域：
- Clusters（驻留时间>8步）：稳定的慢速区域，对应不同输出概率分布，对噪声敏感
- Kick-zones（驻留时间2-8步）：位于cluster下游，有少量不稳定方向，是状态转换的触发区
- Transitions（驻留时间<2步）：短暂的快速通道，近乎确定性地导向下一个cluster，对噪声不敏感
"Kick Neuron"电路：
- 发现两组三联体kick neurons，其预激活值在cluster中强负、在kick-zone近零、在transition中变正
- 连接结构：组内互相兴奋，组间互相抑制
- 更大的"噪声积累群体"（~70个神经元）通过结构化连接调制kick neuron的门控开启
- 因果干预验证：消除kick neuron（\(\mu=0\)）→轨迹被困在cluster中；增强（\(\mu=2\)）→轨迹过冲

损失函数 / 训练策略¶

损失函数：Sinkhorn divergence（最优传输距离的正则化版本）
网络：vanilla RNN，隐状态维度 \(|h| \in \{50, 150, 200\}\)，输入维度 \(d \in \{1, 10, 100, 200\}\)
Gumbel-Softmax温度 \(\tau = 1\)
主要分析聚焦于 \(|h|=150, d=100\) 配置

实验关键数据¶

主实验¶

RNN复现HMM发射统计量：

指标	描述	结果
Sinkhorn距离	全局重建误差	收敛到接近0
转移矩阵误差	3×3发射转移矩阵	与目标HMM高度吻合
边缘频率	稳态分布	精确匹配
输出易变性	输出变化比例	与目标一致

所有四种指标在所有HMM架构（线性链/全连接/循环）上均验证成功。

消融实验¶

因果干预实验（Kick Neuron验证）：

干预类型	调制因子\(\mu\)	效果	关键特征指标变化
消融kick neuron	\(\mu=0\)	轨迹困在当前cluster，无法转换	临界特征值对消失
消融噪声积累群体	\(\mu=0\)	同上，验证因果一致性	同上
增强kick neuron	\(\mu=2\)	轨迹过冲到目标cluster之外	临界特征值对保持
控制组（非积累群体）	\(\mu=0\)	cluster切换正常，保持kick neuron噪声驱动	无显著变化

关键发现¶

RNN通过单一不动点+噪声驱动的闭合轨道实现离散状态表示，而非预期的多稳态吸引子
训练过程中发生明显的相变（二次下降），对应不稳定特征值出现和轨道动力学涌现
组合动力学基元：相同的"慢噪声积累+快kick触发"基元可组合产生复杂的离散隐结构（全连接/循环HMM可分解为多个线性链基元的组合）
该机制构成自致随机共振（SISR）：无需外部周期信号，噪声自身驱动准周期振荡

亮点与洞察¶

桥接离散与连续：优雅地展示了连续动力系统如何实现离散随机转换，弥合了RNN和HMM之间的概念鸿沟
多层次逆向工程：从群体动力学到单神经元连接的完整因果链条，机制可解释性做到了标杆水平
组合基元思想：一个"动力学基元"被模块化复用来构建复杂结构，类似于编程中的函数复用
生物学启示：大脑皮层本身具有内在噪声（随机离子通道、概率性突触传递），本文机制与随机共振的生物学现象高度呼应
训练方法创新：Sinkhorn divergence用于训练概率性RNN行为的方法可推广到其他随机过程建模

局限与展望¶

仅使用vanilla RNN（ReLU激活），未验证GRU/LSTM等更复杂架构是否发展出相同机制
HMM规模有限（2-5个状态），扩展到数十/数百状态的HMM时机制是否仍然成立？
未在真实神经数据或行为数据上验证——当前仅在合成HMM输出上进行
Gumbel-Softmax的温度参数固定为1，不同温度对学习结果的影响未探索
高维输入更利于收敛，但其物理意义（对应神经回路中的什么？）尚不清楚

评分¶

新颖性: ⭐⭐⭐⭐⭐ 开创性地训练RNN模拟HMM并发现噪声驱动轨道动力学和组合基元
实验充分度: ⭐⭐⭐⭐⭐ 多层次分析（全局/局部/单神经元/计算原理）+因果干预验证
写作质量: ⭐⭐⭐⭐⭐ 逻辑层层递进，图示精美直观，叙事一气呵成
价值: ⭐⭐⭐⭐⭐ 对计算神经科学和可解释AI均有深远启发意义