跳转至

Convex Efficient Coding

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Se3YaqtjqE
代码: https://github.com/WilburDoz/Convex_Efficient_Coding_ICLR_2026
领域: 计算神经科学 / 神经编码理论 / 凸优化
关键词: 高效编码、表征相似度矩阵、凸优化、可辨识性、半非负矩阵分解

一句话总结

本文把一大类"神经表征优化"问题(高效编码、半非负矩阵分解、非负稀疏编码等)重写成在表征相似度矩阵 \(Q\)(神经响应两两点积构成的矩阵)上的凸优化,从而既保留了深度网络的灵活性又拿回了线性模型的可分析性,并用它一次性给出半非负矩阵分解的首个充要可辨识性条件、为单神经元调谐分析提供理论辩护、以及解释视网膜 ON-OFF 编码的稀疏度阈值。

研究背景与动机

领域现状:神经科学里"规范性(normative)"理论把神经活动看成某个优化问题的解,最经典的就是高效编码假说——神经元用"在效率约束下最优地编码所需信息"的方式来响应。这类理论复杂度跨度极大:从 Atick & Redlich 那种能解析求解的简单线性模型,到 Lindsay 那种任务优化的深度神经网络。

现有痛点:复杂模型(深度网络、稀疏编码、非负矩阵分解)灵活但几乎"解析不可攻"——你训练出来一个网络,却说不清它为什么长成这样、什么条件下才会出现 Gabor 滤波器、单个神经元的调谐曲线到底能不能反映群体的功能。简单模型可解析但表达力有限。两者之间存在一条难以跨越的鸿沟。

核心矛盾:直接在神经活动 \(\{z^{[i]}\}\) 上做优化,问题通常是非凸的——比如把两个神经元互换、再相应地换一下读出权重,得到的两个解都满足约束,但它们的凸组合却不满足约束(本文用一个 \(2\times2\) 例子明确给出)。非凸意味着没有全局最优保证、没法做干净的可辨识性分析。

切入角度:作者接过 Sengupta et al. (2018) 的一个关键观察——与其在神经活动上优化,不如在表征点积相似度矩阵 \(Q_{ij}=(z^{[i]})^\top z^{[j]}\) 上优化。Sengupta 当年只针对一个定制的"相似度匹配"目标证明了凸性,应用面很窄。

核心 idea:把"换变量 + 经典凸松弛"这套手法系统化——证明一大族目标和约束在 \(Q\) 空间里都是凸的,可以像积木一样自由组合出各种感兴趣的优化问题,而它们全部保持凸。凸性带来全局最优唯一性,进而打开三个具体神经科学问题的解析大门。

方法详解

整体框架

整篇论文的逻辑骨架分两层:先建机器,再用机器

机器是这样的:考虑对 \(N\) 个数据点、每个用 \(d_z\) 维神经活动 \(z^{[i]}\in\mathbb{R}^{d_z}\) 表示的表征。一个典型的高效编码问题要求某些目标 \(y^{[i]}\) 能从表征里线性解码\(y^{[i]}=W_{\text{out}}z^{[i]}\)),同时为了生物现实性约束活动非负\(z^{[i]}\ge 0\))、并惩罚能耗(发放率 + 突触权重的 \(L_2\) 范数)。这个写在活动 \(z\) 上的问题是非凸的。换成相似度矩阵 \(Q_{ij}=(z^{[i]})^\top z^{[j]}\) 后,只要神经元数大于数据点数(\(d_z>N\),即 \(Q\) 的秩不受额外限制),每一项约束和目标都能逐一证明是 \(Q\) 的凸函数 / 凸集,于是整个问题变凸。凸性的红利是:所有局部最优的 \(Q\) 都是全局最优——这是后面所有可辨识性结论的地基。

机器造好后,作者把它对准三个问题: - 应用一(第 3 节):把一个原本没被看作凸的问题——"非负仿射自编码"(一种半非负矩阵分解)——放进这套框架,导出它的首个充要可辨识性条件("紧散布 tight scattering")。 - 应用二(第 4 节):用同一套理论把群体级的表征相似度单神经元调谐曲线精确挂钩,说明在什么条件下"看单个神经元在编码什么"是有意义的。 - 应用三(第 5 节):利用框架里非线性问题也保持可解这一点,解析地回答视网膜为什么把单变量劈成 ON / OFF 两个通道、什么时候不劈。

这是一篇理论论文,核心产出是定理和条件,而不是 pipeline;因此下面的关键设计就是"一个核心机制 + 三个由它衍生的结论"。

关键设计

1. 在表征相似度矩阵 \(Q\) 上做凸化:把一族神经优化问题统一变凸

痛点是:直接对神经活动 \(z\) 优化高效编码问题是非凸的,没法保证全局最优、也没法做干净分析。本文的做法是换变量到 \(Q_{ij}=(z^{[i]})^\top z^{[j]}\),然后逐项验证凸性。以最简单的"线性可解码 + 能耗最小"问题为例:

\[\min_{W_{\text{out}},\,\{z^{[i]}\}}\ \big(\langle\|z^{[i]}\|^2\rangle_i + \lambda\|W_{\text{out}}\|_F^2\big)\quad \text{s.t. } z^{[i]}\ge 0,\ W_{\text{out}}z^{[i]}=y^{[i]}.\]

换到 \(Q\) 之后:发放能耗 \(\langle\|z^{[i]}\|^2\rangle_i=\tfrac{1}{N}\operatorname{Tr}[Q]\)\(Q\) 的线性(故凸)函数;权重能耗取最小范数读出(伪逆 \(W_{\text{out}}=YZ^\dagger\))后变成 \(\|W_{\text{out}}\|_F^2=\operatorname{Tr}[Y^\top Y\,Q^\dagger]\),可证是 \(Q\) 的凸函数;非负约束对应"完全正矩阵(completely positive)"集合 \(\{Q=Z^\top Z,\,Z\ge 0\}\),这是个凸集;线性可解码约束限定 \(Q\) 落在"存在某子空间编码标签"的凸集里。凸函数与凸集的组合仍凸,所以问题整体凸。

为什么这一步是全文的支点:凸性保证局部即全局,于是"最优表征"唯一、可被精确刻画——这才让"什么时候能恢复真因子""什么时候单神经元调谐唯一"这类问题有了确定答案。更妙的是,这套验证是模块化的:作者在附录里给出一整套可凸组合的目标 / 约束积木,从而能把正则化线性 / 仿射网络、非负 PCA、半非负矩阵分解、非负稀疏编码、甚至宽的单隐层 ReLU 网络都纳入同一族凸问题——许多此前文献里没被认出是凸的问题,在这里被重新框定为凸。

2. 紧散布条件:半非负矩阵分解的首个充要可辨识性

矩阵分解 \(Y=AS\) 天然不唯一(插入任意可逆 \(B\)\((AB,B^{-1}S)\) 仍可行),必须加结构才"可辨识"。作者研究的具体形式是非负仿射自编码(数据 \(X=AS\) 喂给一个两层仿射、隐层非负的自编码器,最小化重建误差下的 \(L_2\) 权重与活动范数),问的是:什么条件下最优解里隐层活动恰好恢复源,即 \(Z=\Pi S+b\mathbf{1}\)\(\Pi\) 是每行至多一个非零的"矩形置换"矩阵)。

以往工作只在混合矩阵 \(A\) 正交时给出条件,且都只是充分必要、不是两者兼备。本文借助第 1 步的凸性,把条件推广到任意线性混合 \(A\),并给出充要的"紧散布"刻画(Definition 1):由数据协方差 \(\Sigma\)、各源的最小值、以及混合 Gram 矩阵 \(A^\top A\) 构造一个对称矩阵 \(F=\lambda D(A^\top A)D-\lambda(A^\top A)^{-1}-\Sigma\),它定义一个椭球 \(E=\{x\mid x^\top F^{-1}x=1\}\);当且仅当源的凸包 \(\operatorname{Conv}(\bar S)\) 吞没这个椭球(外加一个"只在坐标轴方向相切"的技术条件)时,源可辨识(Theorem 1)。直觉是:源分布要足够"方正/铺开",否则更划算的线性变换会把它们混起来;而混合 \(A\) 会扭曲这个判据——若两个源的编码方向正/负对齐(\(A_i^\top A_j\neq 0\)),权重正则会鼓励它们对齐,从而可能让本该模块化的解变成混合、或反之。这是据作者所知第一个对半非负矩阵分解既充分又必要的可辨识性条件,且因为关联的是经验数据集,本身是有限样本结论。

3. 非负性打破旋转对称:从群体相似度反推唯一的单神经元调谐

神经科学常通过"把神经活动和任务变量做相关"来推断功能,但机器学习早就指出这条链很脆:同一个函数可由许多网络实现,它们的内部表征可能毫不相关;最简单地,把整个群体旋转一下,调谐曲线全变了,表征相似度却不变——那观察到的"神经基"还有意义吗?

本文分两步辩护。群体级:正则化会让无关神经元活动趋零,从而表征相似度矩阵 \(Q\) 唯一(推广 Braun et al. 2025,本文证明远不止线性网络、而是一大族凸问题都有唯一 \(Q\))。单神经元级:要让"实现同一函数的每个网络都有相同的单神经元调谐",还须打破旋转对称,而这恰由非负约束完成。形式化为:设最优表征 \(Z^\*\) 满足 \(Z^{\*\top}Z^\*=Q^\*\),任何同样最优的 \(Z\) 必为正交变换 \(Z=OZ^\*\);问 \(O\) 何时被迫是置换矩阵(即所有最优解只是把同一组神经元重排)。Theorem 2 给出充分条件:若调谐曲线对某个椭球 \(E\) 满足与第 2 点同款的紧散布(凸包吞没椭球 + 轴向相切),则任何保持非负的正交 \(O\) 都只能是置换——也就是说,调谐曲线"彼此够不一样"时,任何旋转都会把某些活动推成负的,于是最优调谐唯一。网格细胞模块化是个漂亮的落地:取两个不同模块的网格细胞,当且仅当它们的晶格频率不是整数倍关系时满足可辨识条件——这就解释了为何网格细胞按离散模块组织(若一个模块是另一个的整数倍,群体反而该用混合编码更优),与"为高效编码空间模块频率须非整数倍"的已有发现吻合。

4. ON-OFF 编码的稀疏度阈值:用可解的非线性模型确认一个老猜想

视网膜常把单个变量劈成两个方向相反整流的神经元(ON / OFF 通道),已知在某些设定下更省能;但并非所有变量都 ON-OFF 编码,Sterling & Laughlin 猜测是稀疏度在决定劈不劈,此前的理论要么是不可解的网络、要么靠穷举枚举,导不出决定性参数。本文用框架里的一个非负、仿射可解码单变量表征问题:

\[\min\big(\langle\|z(I)\|^2\rangle_{p(I)}+\lambda\|w\|_F^2\big)\quad\text{s.t. } w^\top z(I)+b=I,\ z(I)\ge 0,\]

通过 KKT 条件解出唯一最优解,发现两个区制:变量稠密时劈成 ON / OFF 通道能压低发放率;变量足够稀疏(如 \(I\ge 0\) 且常常 \(I=0\))时,让 \(I=0\) 的编码用低发放率更划算,于是退化成单通道。作者解析地导出这个相变的稀疏度阈值,并与仿真吻合:

\[\Pr(I=0) > \frac{\langle I\rangle_{p(I)}^2}{\langle I^2\rangle_{p(I)}}.\]

这正面确认了 Sterling & Laughlin 的猜想,也展示了"框架里的非线性问题仍可解析攻克"这一卖点的实战价值。

实验关键数据

这是一篇理论论文,没有 benchmark 跑分;"实验"是用小规模数值仿真去验证定理预测(代码已开源)。下面汇总三处理论—仿真对照的核心结论。

可辨识性(第 3 节,对应 Fig. 1)

设置 紧散布条件 数值最优解的行为 与 Theorem 1 是否吻合
正交编码源 满足 模块化(每个神经元编码单一源) 吻合
反对齐混合源 不满足 混合(本该模块化却被混起来) 吻合
适度对齐混合源 满足(扭曲后) 恢复源(本不可辨识却变可辨识) 吻合

关键发现:混合矩阵 \(A\) 的对齐方向会扭曲可辨识边界——对齐可以"救活"原本不可辨识的源,反对齐可以"毁掉"原本可辨识的源;这正是把判据从正交 \(A\) 推广到任意 \(A\) 的价值所在。

单神经元调谐唯一性 & 网格细胞(第 4 节,对应 Fig. 2)

调谐情形 是否满足紧散布 能否找到保持非负的非平凡旋转
两个分离的位置细胞 满足 否(调谐唯一)
两个重叠的位置细胞 不满足 是(可旋转出不同调谐、相同 \(Q\)
频率非整数倍的两模块网格细胞 满足 否(模块可辨识)
频率整数倍的两模块网格细胞 不满足 是(退化为不可辨识)

关键发现:非负性是把"群体相似度"和"单神经元身份"锁在一起的那把钥匙;没有它,旋转对称使单神经元分析失去依据。

ON-OFF 相变(第 5 节,对应 Fig. 3)

数值解给出的发放率曲线随稀疏度变化:低稀疏时群体含 ON + OFF 两类神经元;稀疏度上升时 ON 神经元编码范围扩大、OFF 收缩,直到越过阈值 \(\Pr(I=0)>\langle I\rangle^2/\langle I^2\rangle\),OFF 神经元消失、只剩单通道——阈值位置与解析公式 (11) 精确对上。

亮点与洞察

  • 换变量是整篇论文的"四两拨千斤":非凸难题搬到 \(Q\) 空间后凸性"自动浮现",而且验证是模块化的——这意味着任何能写成凸目标 / 凸约束组合的新神经编码问题,都能即插即用拿到全局最优保证。这套"先证一族凸积木、再自由拼装"的思路完全可迁移到其他规范性建模。
  • 充要可辨识性是真正的硬突破:以往矩阵分解可辨识性结论几乎全是"只充分"或"只必要";本文借凸性拿到半非负矩阵分解的首个充要条件,且是有限样本的,理论分量很重。
  • 给"看单神经元调谐"这件神经科学日常操作提供了正式辩护:把"非负性打破旋转对称⇒单神经元身份唯一"讲清楚,回应了"该在哪个层级研究大脑"的长期争论。
  • 理论直接结算成可证伪的神经科学预言:网格细胞为何离散成模块(频率非整数倍)、视网膜何时 ON-OFF 编码(稀疏度阈值)都被解析地说清,而不是停在抽象定理。

局限与展望

  • 依赖"神经元数 > 数据点数"(\(d_z>N\):只有这样 \(Q\) 的秩不受限、问题才凸。一旦限制神经元数量(即限制 \(Q\) 的秩),约束就变非凸。作者建议未来用核范数(奇异值之和)这一凸松弛替代秩约束;第 3 节也给了个定制旁路——若无约束解本就只用了少量神经元,它在限神经元设定下仍最优。
  • 计算上仍不可处理:凸重写本应带来高效算法,但判定一个矩阵是否属于"完全正矩阵"集合是 NP-hard,验证第 4 节那种充分散布条件往往也是 NP-hard。所以本文的凸性目前主要是分析工具而非实用求解器;可借助逐级逼近的外包络层级或转而直接在 \(Z\) 上优化再用散布条件证全局最优。
  • 偏神经科学口味,对纯 ML 的直接战力有限:作者明确指出,与 Pilanci & Ergen 那条"用权重变量把 ReLU 网络写成凸问题"的路线相比,本文优化的是表征而非权重,换来灵活性的同时也牺牲了对机器学习的直接相关性。

相关工作与启发

  • vs Sengupta et al. (2018):本文的直接源头。Sengupta 只对一个定制的"相似度匹配"目标证明了在 \(Q\) 上的凸性、应用窄;本文把它扩成一大族可凸组合的目标 / 约束,并据此攻下三个新问题。
  • vs Whittington et al. (2023) / Dorrell et al. (2025):同样研究非负仿射自编码的矩阵分解,但只处理正交 \(A\) 的简单情形;本文推广到任意 \(A\) 并给出充要条件。
  • vs Donoho & Stodden (2003)、Hu & Huang (2023) 等散布类可辨识性:那些条件是相对于独立于 \(A\) 的集合定义的散布、且只充分;本文是唯一把散布判据同时适配到混合矩阵 \(A\) 与数据协方差的工作,从而拿到充要条件。
  • vs Pilanci & Ergen (2020) 等 ReLU 网络凸重构:两条路线都把神经网络优化写成凸问题,但用的变量不同(他们用权重的某种变换,本文用表征相似度矩阵),且他们紧贴标准网络设定、本文走更灵活的"优化表征"神经科学路线。
  • vs Braun et al. (2025):本文在群体级唯一表征相似度上扩展了它的论证(从正则化线性网络扩到一大族凸问题)。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把一族神经编码问题统一凸化、并据此拿下半非负矩阵分解首个充要可辨识性,是方法论级别的贡献
  • 实验充分度: ⭐⭐⭐ 理论论文,仿真只为验证定理;无 benchmark,但每个定理都有对应数值确认
  • 写作质量: ⭐⭐⭐⭐ 逻辑链清晰、"造机器→用机器"结构利落,但定理与附录密度高,门槛偏高
  • 价值: ⭐⭐⭐⭐⭐ 同时给神经科学(单神经元分析辩护、网格细胞模块、ON-OFF 编码)和 ML(可辨识性、凸分析)带来可复用的工具与结论