ICLR 2026 计算生物拓扑深度神经网络微电刺激视觉假体高级视觉皮层因果干预灵长类行为

Model-Guided Microstimulation Steers Primate Visual Behavior¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=S4B7Iq7S3C
代码: 待确认
领域: 计算神经科学 / 视觉假体 / 类脑模型
关键词: 拓扑深度神经网络, 微电刺激, 视觉假体, 高级视觉皮层, 因果干预, 灵长类行为

一句话总结¶

用带皮层拓扑结构的深度视觉模型在"硅内"预演微电刺激实验，挑出最能改变行为的刺激位点与图像，再把这些预测搬到活体猕猴的下颞叶皮层上验证——结果模型预测的行为偏移与猴子真实选择显著相关，并首次实现模型在环（model-in-the-loop）引导的高级视觉皮层刺激。

研究背景与动机¶

领域现状：视觉假体的思路是绕过受损的视觉通路（视网膜、视神经、外侧膝状体），直接电刺激视觉皮层来"种"出视觉感受。已有工作在早期视觉皮层（V1/V2）做微电刺激，能可靠诱发光幻视（phosphene）、简单几何形状甚至字母。这套方法依赖视网膜拓扑（retinotopy）——视野上相邻的点在皮层上也相邻，因此知道想在视野哪里出点，就知道该刺激哪个电极。

现有痛点：早期视觉皮层的方法被两件事卡死——一是能植入的电极数量有限，二是 V1/V2 只编码朝向、位置这类低级局部特征，刺激它们只能产生"散点状"的简单视觉元素，根本拼不出物体级别的复杂感受（人脸、工具、场景）。要恢复真正有用的视觉，得去刺激编码复杂物体的高级视觉皮层（如下颞叶 IT）。

核心矛盾：但高级视觉皮层里视网膜拓扑几乎失效了——它的组织原则变成了"动物性 vs 非动物性""类别选择性"这类抽象语义特征。少了 retinotopy 这个"地图"，研究者就失去了"刺激哪里会诱发什么感受"的指导原则，使得在高级皮层做有目的的刺激成了一个未解难题。

本文目标：建立一套计算框架，用模型来代替缺失的"地图"，预测在高级视觉皮层哪个位点、配合哪张图像做刺激，能可靠地把动物的知觉选择推向指定方向，并在活体猕猴上验证。

核心 idea：[模型在环的因果预演] 训练一个把神经元摆在二维皮层片上的拓扑深度网络（TDANN），用它在硅内模拟"电极刺激→神经活动空间扰动→下游行为变化"的完整因果链，把模型上最优的刺激位点反向映射回真实电极阵列，再在猴子身上跑——从"事后解释刺激"升级到"事前预测刺激"。

方法详解¶

整体框架¶

整个系统是一个闭合"模型↔大脑"回路的三阶段流程：先用被动观看数据把拓扑模型的"皮层片"和猴子真实植入的电极阵列一一对齐；再在对齐后的模型里穷举预演——对每个候选位点生成沿神经调谐方向变化的图像序列、模拟微电刺激、读出模型的二选一（2AFC）行为偏移并排序；最后把得分最高的"位点+图像序列"组合反向映射回猴子下颞叶电极，在活体 2AFC 识别任务里下发双相电刺激（与假刺激随机交替），看行为是否真的被推向预测方向。

flowchart LR
    A[被动观看 4000 张图<br/>猴子 IT 电极记录] --> B[模型-大脑对齐<br/>Ridge 预测+逐位点相关<br/>建立电极一一对应]
    B --> C[硅内预演<br/>GAN 生成 7 图序列<br/>扰动模块模拟刺激<br/>读出ΔAUC 行为偏移]
    C --> D[排序选 top 位点-序列]
    D --> E[反向映射回猴子电极]
    E --> F[活体 2AFC 任务<br/>双相电刺激 vs 假刺激]
    F --> G[对比模型预测 vs 真实ΔAUC]

关键设计¶

1. 拓扑深度网络（TDANN）：给神经元一张可被刺激的"皮层地图" 整套框架的地基是把 ResNet18 的每层单元在训练前就钉死在一张二维平面（模型皮层片）上，再用一个空间损失逼着"皮层上挨得近的单元、响应也要更相似"。具体做法是在每层采样局部邻域里的单元对 $(i,j)$，算它们跨刺激的响应相似度 $r_{ij}$（Pearson 相关）和反距离权重 $D_{ij}=1/(d_{ij}+1)$，空间损失定义为 $SL_k = 1 - \mathrm{Corr}(r, D)$，总损失 $\text{Loss} = L_{task} + \sum_k \alpha_k SL_k$（自监督 SimCLR 任务损失 + 空间损失，$\alpha_k=0.25$）。这样训出来的模型早期层会自发长出朝向偏好的"风车"（pinwheel）图样、深层会长出类别选择性"补丁"——和真实视觉皮层的功能组织高度相似。正因为表征被嵌进了空间，模型才有资格去模拟"局部电流扰动如何在皮层片上扩散"这件事。

2. 扰动模块：把电极电流翻译成皮层片上的活动涨落 这是把"刺激参数"接进模型的物理接口。一个离电极皮层距离为 $d$ 的单元，其活动增量遵循经验性的电流-距离关系： $$\Delta r(d) = \min\!\big(r_{base} + \gamma \cdot f_{pulse},\, r_{max}\big)\cdot \exp\!\Big(-\frac{d}{\lambda(I)}\Big)$$ 其中 $r_{base}=30$Hz（IT 基线放电率），$f_{pulse}$ 是刺激脉冲频率，$\gamma$ 把脉冲频率线性转成放电率增量，活动被钳在 $r_{max}=200$Hz 防止失真；空间衰减常数 $\lambda(I)$ 随刺激电流 $I$（µA）增大而变大——电流越强，活动扩散越广。一句话：刺激点活动随脉冲率上升、随皮层距离指数衰减，参数全部由前人灵长类 IT 刺激实验标定，让模型扰动尽量贴近真实电生理。

3. GAN 图像序列 + 选择性打分：沿调谐方向"撬动"知觉 光有刺激还不够，得配上能让刺激效果显形的图像。作者借 StyleGAN-XL 建了一个 IT 多单元活动（MUA）与 512 维 GAN 隐向量之间的线性映射，然后沿某个目标位点的响应方向加/减最多 5 个标准差（其他位点活动钉住不动），生成 7 张沿该位点神经调谐维度平滑变化的自然图像序列。每个序列再用一个"斜率-噪声比"（slope-to-noise）选择性分数排序，偏好那些单调、位点专属的调制。这一步让"刺激某位点"和"看某张图"在同一个隐空间里对齐，从而能预测刺激会把知觉沿哪个语义维度推。

4. 模型-大脑对齐与反向映射：让硅内预测能落到真实电极上 框架可信的前提是模型位点和猴子电极得严丝合缝对上。作者用刺激前 2–4 天采的 4000 张图被动观看响应，先对每个"模型实例×电极阵列"组合用 10 折交叉验证的 ridge 回归算线性可预测性 $R^2$（范围跨度很大，monkey1 为 [-0.06, 0.27]，说明这步筛选很关键），保留 $R^2$ 最高的模型-阵列配对；再把模拟 Utah 阵列在模型皮层片上滑动+旋转，逐电极（64 通道）相关后取平均，选相关最高的摆放，建立模型与猴子电极的一一对应。预演挑出的最优位点正是靠这个映射"翻译"回真实电极编号。

5. 生成式可视化：把"刺激后看见什么"画出来 为了定性回答"刺激改变了什么知觉内容"，作者搭了两条生成管线：一是改造 Brain2GAN，用拓扑模型深层激活替代真实神经记录、配 StyleGAN-XL 的解耦 w 空间重建图像；二是基于 Stable Diffusion v1.5 + IP-Adapter，把深层特征 ridge 回归到 CLIP 视觉嵌入再去噪生成。关键是固定文本提示、噪声、超参，只改模型里的模拟刺激，于是图像差异直接反映刺激引起的内部表征变化。还设了打乱扰动的对照（保住扰动幅度但破坏其拓扑结构），验证人脸样内容的浮现确实依赖对人脸选择性区域的空间结构化刺激，而非全局非特异性调制。

实验关键数据¶

设置：2 只猕猴，下颞叶植入 Utah 阵列，做 2AFC 视觉识别任务；刺激与假刺激 50%/50% 随机交替；效果用 $\Delta\text{AUC}$（扰动−未扰动）刻画。两个实验仅在候选电极的空间约束上不同（实验1 曼哈顿距离 1.6mm，实验2 收紧到 1.2mm 以纳入更多候选位点）。

主实验：模型预测 vs 真实行为偏移（实验1）¶

对象	模型–行为相关 Pearson r	p 值	r²	置换检验 p
Monkey 1	0.58	0.024	0.34	0.019
Monkey 2	0.53	0.019	0.28	0.017
合并两猴	0.53	0.0012	—	—

模型预测越强的"位点+图像序列"组合，在猴子身上行为效应也越强；但实验1里行为偏移本身未显著大于 0（Wilcoxon, p>0.05）。

行为定向偏置（实验2，仅 Monkey 1）¶

指标	结果
行为偏移 > 0（Wilcoxon 符号秩）	p = 0.043（显著）
效应量 Cohen's d	0.671
逐位点预测力	p > 0.05（不再显著）

实验2 证明模型选出的参数确实能在活体诱发可靠的、朝目标方向的行为偏移；但因信号质量下降、候选位点增多，逐位点的预测力消失了。

关键发现¶

跨模态印证：对模型中人脸选择性位点施加 1000µA 模拟刺激，生成图像会冒出"幻觉人脸"——给猫加第二张脸、放大熊脸、把虫子/水果变成人脸；低选择性对照位点与打乱扰动对照都不会产生这种结构化人脸内容。这与人类患者电刺激人脸选择区报告的 "facephenes"（幻脸）现象定性吻合。
拓扑非必需于线性对齐：去掉空间损失的非拓扑 ResNet18 在 IT 线性可预测性上相当（R²≈0.27），说明拓扑带来的增益在于能模拟刺激的空间扩散，而非提升线性拟合。
模型总体高估了行为效应的绝对幅度（相关存在但斜率偏大）。

亮点与洞察¶

从"事后解释"到"事前预测"：以往拓扑模型只被用来离线复现刺激效果，本文首次把它放进实验回路、用模型预测去指挥活体刺激实验，是方法论上的范式推进。
替缺失的 retinotopy 找了个替代地图：高级视觉皮层没有视网膜拓扑可依，作者用训练出来的拓扑模型 + 扰动模块，重建了"刺激位点→知觉后果"的可计算映射，这正是高级皮层视觉假体最缺的指导原则。
生成式可视化把不可言说的"知觉内容"显形：固定一切、只动模型刺激，用 GAN/Diffusion 把内部表征变化翻译成图像，并和真实患者幻脸报告对上，提供了难得的跨"硅内-人类"语义级证据。

局限与展望¶

样本极小：仅 2 只猴、十余个位点，且因植入信号退化（电极已拔除）无法补实验，统计效力天然受限，置信区间很宽。
两个核心效应未能同时达成：实验1有逐位点预测力但行为偏移不显著，实验2行为偏移显著但逐位点预测力消失——尚未在同一实验里同时拿到两者，作者归因于信号退化。
模型系统性高估效应幅度，刺激-行为的定量映射仍需校准。
全局状态干扰难以完全排除：虽用随机交替设计弱化注意/唤醒等非特异效应，但只能"argue 不太可能"而非彻底证伪。
可视化无神经真值支撑：因缺乏刺激时的猴子神经记录，幻脸可视化只是模型 IT 表征的定性解读，与真实知觉的对应仍是推断。
展望：更稳定的长期植入、更大规模位点、把生成式预测纳入闭环优化，指向能诱发复杂物体知觉的下一代视觉假体。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次实现模型在环、事前预测的高级视觉皮层微电刺激，并跨硅内-活体-人类幻脸三方印证，方法论原创性强。
实验充分度: ⭐⭐⭐ 概念验证扎实（含置换检验、打乱对照、非拓扑对照），但仅 2 只猴、位点少、两核心效应未同时达成，统计效力受限。
写作质量: ⭐⭐⭐⭐ 三阶段框架叙述清晰，公式与图示到位，诚实交代了高估与信号退化等问题。
价值: ⭐⭐⭐⭐⭐ 为下一代能诱发复杂物体知觉的视觉假体奠定方法基础，对计算神经科学与脑机接口都有重要指向意义。