跳转至

Estimating Dimensionality of Neural Representations from Finite Samples

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=iM4o9a83F7
代码: github.com/badooki/dimensionality
领域: interpretability(神经表征维度估计 / 神经科学 + LLM 可解释性)
关键词: 维度估计、Participation Ratio、有限样本偏差、神经流形、表征几何

一句话总结

针对"参与比(Participation Ratio)这一全局维度度量在有限样本下严重有偏"的老问题,本文推导出对行采样、列采样、噪声同时去偏的无偏估计量 \(\gamma_{\text{both}}\),让维度估计在样本数变化时几乎保持不变,并可扩展到稀疏矩阵与局部维度。

研究背景与动机

领域现状:神经表征可以看作高维空间里的一个"神经流形",其全局维度(有效秩)是理解大脑与深度网络计算的核心量——它关联分类/回归性能、线性可分性、BCI 解码器设计,也是 LLM 逐层可解释性(如有害内容线性探针)的重要指标。参与比 PR 是其中最常用的"软计数"度量。

现有痛点:所有全局维度估计量都对样本矩阵的行数 \(P\)(刺激数)和列数 \(Q\)(神经元数)敏感。实验上只能记录一部分神经元、呈现一部分刺激,得到的是真实无穷矩阵 \(\Phi^{(\infty)}\) 的一个随机子矩阵 \(\Phi\in\mathbb{R}^{P\times Q}\),PR 的朴素估计随 \(P,Q\) 系统性偏移。局部维度法(如 TwoNN)虽对样本量不敏感,却测不了全局维度且对噪声极敏感。

核心矛盾既抗有限样本、又抗噪声的全局维度估计量一直缺失;以往的去偏尝试(Dahmen 2020、Pospisil & Pillow 2024)依赖强分布假设、只修了行采样、且分子分母各自仍有偏。

本文目标:用估计论的方式给 PR 做严格去偏,只需极弱假设,同时校正行、列采样偏差与噪声偏差。

核心 idea:PR 的分子分母都可写成"对若干索引求和"的形式;偏差恰恰来自索引重合(overlapping indices)的项——把求和限制在互不相等的索引上,就能得到分子分母的无偏估计。

方法详解

整体框架

中心化后的真实维度写成比值 \(\gamma = A/B\),其中 \(A,B\) 都是对四个行索引 \(\{i,j,l,r\}\)、两个列索引 \(\{\alpha,\beta\}\) 的张量 \(v^{\alpha\beta}_{ijkl}:=\Phi_{i\alpha}\Phi_{j\alpha}\Phi_{k\beta}\Phi_{l\beta}\) 求平均。朴素估计 \(\gamma_{\text{naive}}\) 直接把无穷矩阵换成子矩阵,导致每一项都有偏。本文用"只对互异索引求和"构造无偏的 \(A_{\text{both}},B_{\text{both}}\),并配套噪声校正、重要性采样、稀疏矩阵三大扩展。

flowchart TD
    A[样本矩阵 Φ: P×Q 子矩阵] --> B[朴素 PR γ_naive]
    B --> C{偏差来源:<br/>索引重合项}
    C --> D[限制到互异行/列索引求和]
    D --> E[无偏分子 A_both / 分母 B_both]
    E --> F[γ_both = A_both / B_both]
    F --> G1[噪声校正: 双 trial 交叉项]
    F --> G2[重要性采样 / 局部维度]
    F --> G3[稀疏矩阵 / 有限母矩阵]

关键设计

1. 朴素估计的"并联电阻"标度律:点破偏差结构。 作者先证明朴素 PR 满足一个极直觉的标度律: $\(\mathbb{E}_\Phi\!\left[\frac{1}{\gamma_{\text{naive}}}\right]\approx \frac{1}{P}+\frac{1}{Q}+\frac{1}{\gamma}\)$ 也就是 \(\gamma_{\text{naive}}\) 近似是 \(P,Q,\gamma\)调和平均(如同并联电阻)。这一式子直接说明:样本越少,\(1/P+1/Q\) 越大,估计维度被压得越低,从而把"为什么有偏、偏多少"讲清楚。

2. 互异索引求和的无偏估计 \(\gamma_{\text{both}}\):核心去偏。\(A_{\text{naive}}\) 中某一项展开成矩阵元,对 \(i\neq j,\ \alpha\neq\beta\) 的项,因行列采样独立可因式分解为想要估计的量 \(\mathbb{E}[\phi^2]^2\);而"索引重合"的剩余项不可分解,正是偏差源。于是定义只对互异索引求和的算子(\(\sum^{\#}\) 表示自由索引取值两两不同): $\(\langle v^{\alpha\beta}_{ijlr}\rangle_{\text{both}}=\frac{1}{\#\text{summands}}\sum^{\#}_{i,j,l,r}\sum^{\#}_{\alpha,\beta} v^{\alpha\beta}_{ijlr}\)$ 得到无偏的 \(A_{\text{both}},B_{\text{both}}\),最终 \(\gamma_{\text{both}}=A_{\text{both}}/B_{\text{both}}\)。注意两个无偏量相除会引入一个不可避免但可忽略的比值偏差。若只采样了行(神经元全观测),可只对行索引去偏得 \(\gamma_{\text{row}}\),反之为 \(\gamma_{\text{col}}\)

3. 互异求和的向量化实现:让方法能跑。 直接对互异索引求和无法向量化,作者用容斥把它展成普通全索引求和的组合,例如 $\(\sum^{\#}_{i,j,k} u_{ijk}\equiv \sum_{ijk}u_{ijk}-\sum_{ij}u_{iij}-\sum_{ij}u_{ijj}-\sum_{ij}u_{iji}+2\sum_i u_{iii}\)$ 每一项都能用 einsum 算。四行两列共六组互异约束,展开式更长但同理可写出,全局估计的时间复杂度与朴素法同阶 \(O(\min(P,Q)^2\max(P,Q))\)

4. 三大扩展:噪声 / 重要性采样 / 稀疏。 (a) 噪声校正:只需同一刺激-神经元集合的两次 trial \(\Phi^{(1)},\Phi^{(2)}\),把 \(v^{\alpha\beta}_{ijkl}\) 重定义为交叉乘积 \(\Phi^{(1)}_{i\alpha}\Phi^{(2)}_{j\alpha}\Phi^{(1)}_{k\beta}\Phi^{(2)}_{l\beta}\),即可把噪声偏差从朴素平均的 \(O(1/\sqrt N)\) 降到 \(O(1/P+1/Q)\)。(b) 重要性采样 / 局部维度:当观测分布 \(\rho^{\text{obs}}\) 偏离目标分布 \(\rho\) 时,给每个样本加权 \(s_i\)(用 IS 权重 \(r(x)=\rho_X/\rho^{\text{obs}}_X\))即得 \(\gamma^{S}_{\text{both}}\);给某点邻域内的样本赋大权、远处赋零权,就得到抗噪的局部(内禀)维度 \(\gamma^{\text{local}}_{\text{both}}(r)\),弥补 TwoNN 怕噪声的缺陷。(c) 稀疏/有限母矩阵:只要把"summand 数"定义为不含缺失元的项数,去偏在稀疏(缺测、推荐系统 user-item)矩阵下依然无偏;母矩阵有限 \(R\times C\) 时给出无放回采样的对应估计。

实验关键数据

主实验

数据集 / 设置 任务 \(\gamma_{\text{both}}\) 表现 对照 结论
合成线性模型 \(d=50,\sigma_\epsilon^2=0.2\) 恢复真维度 \(P,Q\) 范围内恢复到 ≈50 naive/row/col 随样本严重漂移 无需知道 \(\phi\) 与分布即可恢复
小鼠 V1 钙成像 (Stringer 2019) 子采样不变性 \(P,Q\) 几乎恒定 naive 双重有偏 跨模态有效
猕猴 IT 微电极 (Majaj 2015) 子采样不变性 平台值最稳 row/col 只修一边 同上
猕猴 V4 LFP (Papale 2025) 子采样不变性 最不敏感 naive 最偏 同上
人类 IT fMRI (Hebart 2023) 子采样不变性 \(P,Q\) 恒定 naive 残留偏差 跨模态有效
Llama3 base + FLORES+ (9 语言) LLM 逐层维度 小样本下揭示更细粒度逐层结构 naive 整体低估 仅采样输入,\(\gamma_{\text{row}}\approx\gamma_{\text{both}}\)

消融实验

配置 现象 说明
\(P\) 固定 \(Q\) \(\gamma_{\text{row}}\) 近似不变但仍随 \(Q\) 行去偏只修行采样
\(Q\) 固定 \(P\) \(\gamma_{\text{col}}\) 不变、对 \(P\) 列去偏对称
LLM 只采样输入 \(\gamma_{\text{col}}\) 与 naive 一样差,\(\gamma_{\text{row}}\) 与 both 一样好 印证去偏来源可分解
局部维度 RFF 合成 (SNR≈3.33) \(\gamma^{\text{local}}_{\text{both}}\) 在小半径恢复真 \(d\) TwoNN 因噪声显著高估、naive 局部低估

关键发现

  • \(\gamma_{\text{both}}\) 在四种神经记录模态(钙成像 / LFP / spike / fMRI)上都对样本量最不敏感,用更少样本即可逼近全量维度。
  • LLM 逐层维度呈"中层升高、后层回落"的峰形(与 Valeriani 2023、Skean 2025 一致),朴素估计会把这一结构压平。
  • 局部维度上,本文方法在小半径极限下远低于 TwoNN,因 TwoNN 对噪声极敏感而过估。

亮点与洞察

  • 把"偏差"精确归因到索引重合:一个看似工程化的"对互异索引求和"操作,背后是干净的可分解性论证,理论与实现都简洁。
  • 调和平均/并联电阻类比极具洞察力,让"样本越少维度越被压低"变得可量化、可预测。
  • 统一框架:同一套互异求和 + 加权机制,顺手覆盖噪声校正、重要性采样、局部维度、稀疏矩阵四类现实场景。
  • 全局估计零额外代价\(\gamma_{\text{both}}\) 与朴素法同阶复杂度,几乎是"免费午餐"。

局限与展望

  • 局部维度需算两两距离,时间 \(O(rP^2Q)\)、内存 \(O(rP(P+Q))\),比 TwoNN 贵(虽可并行)。
  • 噪声校正要求同一刺激-神经元集合至少 2 次 trial,在某些数据上不可得。
  • PR 只刻画谱的一、二阶矩;要还原更多谱信息需估更高阶谱矩(作者指向 Chun 2025 的后续)。
  • 稀疏与有限母矩阵估计需假设缺失发生与采样独立、且需知道 \(R,C\),现实中未必满足。

相关工作与启发

  • vs TwoNN / 局部内禀维度:TwoNN 对样本量不敏感但测不了全局且怕噪声;本文用加权求和把全局估计量改造成抗噪的局部估计量,正面补齐短板。
  • vs 既往 PR 去偏(Dahmen 2020;Pospisil & Pillow 2024):那些方法需强分布假设、只修行采样、分子分母仍有偏;本文仅需极弱假设、行列噪声三方齐修、分子分母分别无偏。
  • vs 子采样饱和曲线 / ad-hoc 外推(Woo 2023;Lehky 2014):把"目测饱和"这种经验做法替换成有理论保证的无偏估计。
  • 启发:对任何"比值型谱统计量随样本有偏"的问题(如基于谱熵的表征度量 Skean 2025),互异索引去偏 + 双 trial 交叉项的思路都可能迁移。

评分

  • 新颖性: ⭐⭐⭐⭐ 把全局维度估计的有限样本偏差做成严格无偏、且行/列/噪声三方齐修,弱假设下的统一框架是实打实的方法贡献。
  • 实验充分度: ⭐⭐⭐⭐ 合成 + 四种神经记录模态 + LLM 逐层 + 局部维度全覆盖,但缺与更多现代维度度量的横向对照、且多为"收敛/不变性"定性比较。
  • 写作质量: ⭐⭐⭐⭐ 偏差归因与"并联电阻"类比讲得透彻,公式推导清晰;张量索引记号偏重,对非神经科学读者门槛略高。
  • 价值: ⭐⭐⭐⭐ 维度估计是神经科学与 LLM 可解释性的高频工具,给出近乎零成本的无偏替代品,落地价值高且已开源。