Temporal Geometry of Deep Networks: Hyperbolic Representations of Training Dynamics for Intrinsic Explainability¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Xq64xkQCak
领域: 可解释性 / 元网络 / 双曲几何
关键词: 内在可解释性, 训练动力学, 双曲嵌入, 参数图, 元学习

一句话总结¶

本文把一个 MLP 的整段训练轨迹看成一串"参数图"快照，并用一个保持排列对称性的双曲图注意力元网络（GTH-GMN）把它们嵌入 Poincaré 球，从而在负曲率空间里还原网络在训练过程中的自组织几何，既能在 INR 分类、泛化预测、正弦回归等任务上匹配强基线，又能直接从嵌入的径向/角向结构读出可解释信号。

研究背景与动机¶

领域现状：近年兴起一类"把神经网络当作数据"的元网络（meta-network）研究——把目标网络的权重当输入，去预测它的泛化性能、分类它代表的隐式神经表示（INR）、或为迁移学习生成权重。从最早把权重拉平成单个张量，到后来强制排列等变（reorder 神经元不改变功能），再到把神经元/偏置当节点、权重当边的图元网络（GMN、NFN、DWSNet 等），这条线越做越尊重权重空间的对称性。

现有痛点：这些方法几乎都有两个共同短板。其一，它们只看训练轨迹上的单个 checkpoint做零样本预测，把优化过程中留下的时间轨迹白白浪费了；其二，它们几乎全用欧氏嵌入，而欧氏空间要表达层级结构、重尾分布需要很高维度，投影时还会扭曲结构，导致很难"看懂"网络内部的自组织。

核心矛盾：神经网络的信息不仅编码在最终权重里，也编码在训练时走过的轨迹里；而权重的拓扑天然带有层级（hierarchy）、模块化、小世界、重尾这些复杂网络先验——这些恰恰是欧氏几何最不擅长保真表达的。换句话说，"想要可解释的几何表征"和"用欧氏空间 + 单快照"之间存在根本张力。

本文目标：构造一个能吃下整段训练轨迹、在低曲率空间里保结构嵌入、同时尊重权重空间对称性的元网络，让"网络如何随训练自组织"这件事本身成为研究对象，并产出可直接解读的几何表征。

切入角度：网络科学早就指出，许多复杂网络可以嵌入到"距离对应连接概率"的隐度量空间里，而双曲空间能以极低失真保层级关系。作者赌的是：神经参数图也有类似的小世界 + 模块化倾向，那么把它们嵌进双曲球、用"距离偏置"的学习方式，就能得到紧凑又可解释的表征。

核心 idea：把"训练"视为参数图在负曲率空间里的一条轨迹，用双曲图注意力 + 注意力核的时序演化，做出一个对快照内神经元排列等变、对历史快照排列不变的双曲时序元网络（GTH-GMN）。

方法详解¶

整体框架¶

GTH-GMN 接收一个 MLP 的训练轨迹（一串 epoch 上的权重快照），输出一个紧凑的时序双曲表征，可接下游做分类 / 泛化预测 / 回归。整条管线是：先把每个 checkpoint 转成一张带符号权重的参数图，再把这串图嵌入 Poincaré 球用双曲图注意力做空间聚合；注意力核的参数本身用 GRU 沿时间演化以维持时序平滑；同时一个带符号权重回归头把几何距离绑定到权重大小、把方向绑定到切空间内积；最后 Fermi-Dirac 解码器把双曲距离译成连边概率，并用两阶段（欧氏 + 黎曼）优化交替更新参数与节点坐标。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["MLP 训练轨迹<br/>(逐 epoch 权重快照)"] --> B["时序参数图构建<br/>神经元/偏置为节点·带符号权重为边"]
    B --> C["双曲图注意力层<br/>测地距离打分 + 爱因斯坦陀螺中点聚合"]
    C --> D["注意力核时序演化<br/>GRU 沿快照更新 Q/K/V 核"]
    D --> E["带符号权重回归<br/>幂律幅值 + 切空间极性"]
    E --> F["Fermi-Dirac 链接解码<br/>+ 两阶段欧氏/黎曼优化"]
    F --> G["紧凑时序双曲表征<br/>→ 下游分类/泛化预测/回归"]

关键设计¶

1. 时序参数图构建：把训练轨迹变成保对称的带符号图序列

针对"单快照浪费时间轨迹"的痛点，本文在每个 epoch \(t\) 都把 MLP 转成一张图快照 \(G_t = (X_t, E_t, W_t)\)：神经元和偏置都是节点 \(u \in V_t\)，权重是带符号标签 \(w^\star_{uv,t}\) 的边，权重为零则不建边。输入/输出层固定、隐藏层神经元重排只产生等变图结构，从而天然尊重排列对称性。关键在于节点特征的设计——为了不把权重本身泄漏进模型（否则等于作弊），每个节点特征只放层标签 \(\ell(u)\)、类型 \(\tau(u)\) 以及对邻接边强度做标准化得到的 z 分数 \(\mathrm{es}_{\text{abs}}(u,t)\)、\(\mathrm{es}_{\text{sgn}}(u,t)\)，即 \(x_{u,t}=(\ell(u),\tau(u),\mathrm{es}_{\text{abs}}(u,t),\mathrm{es}_{\text{sgn}}(u,t))\)；边属性也刻意极简，只编码"是不是偏置边、是否跨层"。有向对通过反平行方向取平均对称化，缺失方向补零。这样得到的序列 \(\{G_t\}_{t=1}^{T}\) 既捕捉自组织，又对隐藏层排列不变。所有描述子先嵌入原点切空间 \(T_0 B_c^d\)（离散标签走可学习嵌入、强度特征过小 MLP + 残差块），让归一化/dropout 这些不稳定操作留在平直的欧氏空间，曲率只在后续双曲消息传递时引入。

2. 双曲图注意力层：用测地距离决定"谁影响谁"、用陀螺中点做曲率一致的聚合

普通注意力的线性映射和欧氏平均在弯曲流形上都不成立——两点欧氏相加的结果通常掉出流形、也不对应任何测地中点。本设计遵循"在切空间算、需要几何时才搬到球上、在有良定义重心的模型里聚合"三步。先把欧氏参数 \(W,b\) 实现为双曲仿射映射：\(\Phi^{(t)}_{W,b}(x)=\exp_{\Phi^{(t)}_W(x)}\!\big(\mathrm{PT}_{0\to\Phi^{(t)}_W(x)}(b)\big)\)，其中 \(\Phi^{(t)}_W(x)=\exp_0(W\log_0(x))\)，由它产出每个节点的双曲 query/key/value。注意力打分用负测地距离 \(\theta^{(t)}_{u\to v}=-d_c(q_u,k_v)+b_{uv}\)——越近相似度越高，softmax 后越近的节点拿到指数级更大的权重；再乘一个门控 \(g_{uv}\) 重新归一化，给跨层/偏置这类结构上更重要的边加权。聚合时不能线性平均，而是映到 Klein 模型用爱因斯坦陀螺中点（闭式重心）：经 Poincaré↔Klein 映射 \(\kappa(z)=\frac{2\sqrt{c}\,z}{1+c\|z\|^2}\) 与洛伦兹因子 \(\gamma(y)=1/\sqrt{1-\|y\|^2}\) 加权求重心后映回。这一拆分的解释学后果很关键：注意力用测地线决定影响关系、聚合尊重全局曲率，于是层级结构、枢纽节点、边界效应都被保留下来。

3. 注意力核时序演化：用 GRU 让核随时间漂移而不存历史嵌入

为了在不同快照间维持时序平滑、又不爆内存，本文不存整段双曲嵌入序列，而是借鉴 EvolveGCN 的思路用 GRU 元演化注意力核参数。对每层 \(\ell\)、每个头 \(r\)，维护一个循环状态：先把上一步节点表征均值池化成 \(p^{(t-1)}_\ell=\frac{1}{N}\sum_i X^{(t-1)}_{\ell,i}\)，再用 \(u^{(t)}_{\ell,r}=\mathrm{GRU}(p^{(t-1)}_\ell, u^{(t-1)}_{\ell,r})\) 更新状态，最后由一个 MLP 从该状态吐出新一轮的 Q/K/V 参数 \(W^{(t)}_{\ell,r,k/q/v}=\phi_{\text{MLP}}(W_{\text{out}}u^{(t)}_{\ell,r}+b_{\text{out}})\) 再喂回双曲仿射映射。这样注意力核能沿优化轨迹平滑漂移，既保排列不变性，又把内存压到紧凑的循环状态，让长轨迹也能高效学习——这正是它优于"对每个 checkpoint 独立编码"的地方。

4. 带符号权重回归：把权重幅值绑成双曲距离的幂律、把极性放进切空间

只判断"边是否存在"不够，加权网络还需恢复连接的强度和极性。真实网络里这些幅值常呈重尾分布，而双曲距离正好是它天然的几何代理。本设计先从切空间特征预测节点相关的尺度/衰减因子 \(s_i=f_\sigma(X_i)\)、\(k_i=f_\kappa(X_i)\)，并让幂律斜率随局部上下文微调 \(\alpha_{uv}=\alpha_0+\delta_\alpha\cdot\tanh(\phi_{\text{MLP}}([X_u,X_v,e_{uv}]))\)；于是预测幅值服从重尾幂律 \(|w^{(t)}_{uv}|=\exp(\log\nu+s_u+s_v)\exp(-(1-\frac{\alpha_{uv}}{d})(k_u+k_v))\,(d^{(t)}_{uv})^{-\alpha_{uv}}\)，其中 \(d^{(t)}_{uv}=d_c(z_u,z_v)\) 是 Poincaré 距离——大幅值对应短双曲距离。极性则因流形距离恒正而被放到切空间建模：把 \(z_v\) 经对数映射搬到 \(z_u\) 的切空间得 \(\delta^{(t)}_{u\to v}=\log_{z_u}(z_v)\)，按共形因子归一化源特征后用双曲一致的内积给出符号 logit \(s^{(t)}_{uv}=\beta\langle\delta^{(t)}_{u\to v},\xi_u\rangle\)，最终 \(\hat{w}^{(t)}_{uv}=|w^{(t)}_{uv}|\tanh(s^{(t)}_{uv})\)。这就把每条权重几何忠实地拆成"强度（径向距离）+ 方向（切空间夹角）"，让嵌入获得语义：枢纽外漂、强边径向聚集、兴奋/抑制表现为角向差异。

损失函数 / 训练策略¶

链接预测用 Fermi-Dirac 解码器 \(\psi^{(t)}(u,v)=\big(1+\exp(\frac{d_c(z_u,z_v)-R}{T})\big)^{-1}\)（半径 \(R\)、温度 \(T\) 均可学），配二元交叉熵 + 同层/均匀双分布的动态负采样。总目标是 Fermi-Dirac 交叉熵 + 幅值监督 + 符号监督 + 几何正则（斜率先验、时序平滑项、"强连接对应更短双曲距离"的排序损失）的加权和，并用退火 ranking margin、逐步加难负采样的课程稳定训练。优化分两阶段：第一阶段欧氏反传更新所有核、回归头、解码器；第二阶段在 Poincaré 球上用黎曼优化（共形因子缩放梯度 + RAMSGrad 风格的矩估计 + 指数映射更新 + 矩向量平行移动）直接精修节点坐标 \(z^{(t)}\)，从而把欧氏注意力栈的稳定性和双曲嵌入的动力学解耦。

实验关键数据¶

主实验¶

INR 分类：把每张图像拟合成浅层 INR，记录其参数随优化的演化轨迹（\(T\in[80,100]\) 个 checkpoint），元网络只看权重演化、从不看图像本身，再训一个小分类器预测类别。

数据集	指标	本文 (Temporal)	之前最强 (NFN_NP)	提升
MNIST INR	Test Acc (%)	95.6 ± 0.18	92.9 ± 0.22	+2.7
Fashion-MNIST INR	Test Acc (%)	80.72 ± 0.29	75.6 ± 1.07	+5.1

正弦回归（预测 \(a\sin(bx)\) 的频率/幅值）：

方法	Test MSE	说明
DWSNets	1.39 ± 0.06	排列等变元网络
GMN	1.13 ± 0.08	图元网络（强基线）
GTH-GMN (ours)	1.06 ± 0.24	均值最优，方差偏大

泛化预测 / 分析¶

CIFAR-10 泛化预测：每个 trial 是在 CIFAR-10 子集上训的 MLP，用 Kendall's \(\tau\) 衡量预测准确率与真实准确率的秩相关。

方法	Kendall's τ	说明
NFN_HNP	0.934 ± 0.001	直接操作原始权重张量
NFN_NP	0.922 ± 0.001	同上
StatNN	0.915 ± 0.002	统计特征
GTH-GMN (ours)	0.846 ± 0.004	偏重全局几何与时序一致性

关键发现¶

INR 分类是本文最亮的战场：在 MNIST/Fashion 上都明显超过 NFN、DWSNet 等强基线，说明 INR 在训练中如何自组织本身就编码了类别相关的几何结构。
CIFAR-10 泛化预测上 \(\tau=0.846\) 反而低于 NFN 系列——作者诚实地把它解释为权衡：本文强调全局几何与时序一致性、自编码式 MSE 重建带来平滑偏置，会丢掉与准确率强相关的细粒度张量微结构；而排列等变的 neural functional 直接吃原始权重张量，保留更多微结构但几何可解释性差。
正弦回归均值最优但方差偏大，根因是双曲球里"有效步长随半径增大"，早期小差异会被曲率 + 循环核放大成发散轨迹；可用更保守的黎曼步长、更强时序正则或轻量集成缓解。
可视化（13 层 MLP 的 INR，\(t=11\) vs \(t=97\)）显示各层随训练在径向和角向上逐步分离、节点向边界漂移，直观印证了"训练即几何自组织"。

亮点与洞察¶

把"训练轨迹"而非"单快照"当作可解释性的载体，是一个被以往元网络忽视的信息维度——同一个网络的演化方式本身就携带类别/泛化信号。
用双曲几何天然承接网络科学的层级 + 重尾 + 小世界先验，让"短距离 = 强连接"成为内建归纳偏置，嵌入因此可直接读：枢纽外漂、强边径向聚集、兴奋/抑制呈角向差异，甚至能指示冗余/剪枝机会。
"幅值放径向距离、极性放切空间内积"这种把一条带符号权重几何忠实分解的手法，可迁移到任何需要在双曲空间建模有符号/有向边的场景（脑网络、知识图谱等）。
用 GRU 演化注意力核而非存储历史嵌入，是把长序列双曲学习压进可承受内存的实用技巧。

局限与展望¶

作者承认 CIFAR-10 泛化预测落后于直接操作原始张量的 neural functional，几何可解释性是以一部分预测精度为代价换来的。
双曲 + 循环耦合带来的高方差（正弦任务）说明训练稳定性仍是痛点，需要更细致的黎曼步长控制。
实验仅覆盖 MLP（虽然附录称可扩展到其他架构），CNN/Transformer 这类更复杂结构上的有效性尚未充分验证。
"可解释信号"目前还停留在定性观察（径向漂移、角向分离对应什么），缺乏与下游可解释性任务的定量对接。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把神经参数图的时序轨迹嵌入双曲空间、并保排列对称的元网络，视角独特。
实验充分度: ⭐⭐⭐⭐ 三类任务覆盖分类/回归/泛化预测，但 CIFAR-10 落后且仅限 MLP。
写作质量: ⭐⭐⭐⭐ 几何动机和公式交代清晰，对自身权衡也很诚实。
价值: ⭐⭐⭐⭐ 为"内在可解释性"提供了一条几何化的新路径，启发性强。