MindPilot: Closed-loop Visual Stimulation Optimization for Brain Modulation with EEG-guided Diffusion¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7jdmXx869Q
代码: https://github.com/ncclab-sustech/MindPilot
领域: 计算神经科学 / 脑机接口 / EEG-guided 生成
关键词: EEG, 闭环脑调控, 黑盒优化, 扩散模型, 视觉刺激设计

一句话总结¶

MindPilot 把人脑当成一个不可微的黑盒函数，用非侵入式 EEG 信号作为优化反馈、配合一个"伪模型 (pseudo-model)"提供替代梯度，闭环迭代地生成/检索能把大脑神经状态推向指定目标的自然图像，首次在语义与频谱两类神经目标上验证了"用图像反向调控大脑"的可行性。

研究背景与动机¶

领域现状：绝大多数脑机接口 (BCI) 研究做的是"解码"——把神经信号翻译成行为或意图；而反方向的"编码调控"——用精心设计的刺激去主动驾驶大脑活动——在视觉域几乎是空白。已有的闭环视觉神经调控工作要么是侵入式的（小规模皮层电极、只盯低层神经元放电），要么只能用闪烁光栅这种低层刺激，无法生成语义丰富、能调动高级脑区表征的自然图像。

现有痛点：把图像设计成可靠驱动神经响应的工具，面临三重困难——(1) 主观状态缺乏明确的量化指标；(2) 真实 EEG 反馈又噪声大又不稳定；(3) 大脑本身是不可微的，无法像优化神经网络那样直接反传梯度。文本条件扩散模型虽然给可控生成带来了空前灵活性，但它们是为语言提示优化的，与"以神经反馈为目标"这件事正交。

核心矛盾：可控生成需要可微的、有明确奖励的优化信号，而大脑既给不出梯度、也给不出干净的标量奖励。

本文目标：建立一个通用、连续、高保真的闭环框架，直接用非侵入 EEG 驱动自然图像合成，把大脑潜在状态稳定地推向指定目标。

核心 idea：【黑盒+伪模型】 把大脑（或其 EEG 读出）看作黑盒前向过程 \(x=g(u)\)，用一个"伪模型"在 CLIP 隐空间里提供替代梯度，从而在不要求显式奖励和真梯度的前提下，对语义相似度、EEG 频谱等多种神经目标做无梯度迭代优化。

方法详解¶

整体框架¶

MindPilot 把"用图像调控大脑"形式化为一个黑盒优化问题：给定图像 \(u\)，大脑产生 EEG 响应 \(x=g(u)\in\mathbb{R}^{C\times T}\)，再经特征编码器 \(f\) 提取神经特征；目标是找到使响应特征与目标特征余弦相似度最大的图像 \(u^\*=\arg\max_u \mathrm{sim}(f(g(u)), y_{\text{target}})\)。整个系统在每轮迭代里循环四步：黑盒建模（图像→合成 EEG）、特征提取（EEG→语义/频谱特征）、引导生成（在隐空间更新图像嵌入）、更新刺激（选高分图像回灌生成器），如此闭环收敛。

flowchart LR
    U[候选图像 u] --> G[黑盒代理 g<br/>图像→合成EEG]
    G --> F[EEG编码器 f<br/>提取语义/PSD特征]
    F --> SIM[相似度评分<br/>sim 与 y_target 比对]
    SIM --> UP[伪模型替代梯度<br/>更新图像嵌入]
    UP --> GEN[SDXL+IP-Adapter<br/>生成/检索新刺激]
    GEN --> U
    TGT[目标 EEG x_target] --> F

关键设计¶

1. 黑盒代理模型：用神经网络替身大脑，让大规模闭环实验成为可能。 真实实时采 EEG 又贵又不现实，MindPilot 训练一个图像→EEG 的代理 \(g\) 来当大脑替身：拿预训练视觉骨干（AlexNet/ResNet50/CORnet-S 到 ViT/CLIP/DINO 等九种），把分类层换成 \(C\times T\) 的回归头，在 THINGS-EEG2 上以 MSE 拟合真实 17 通道×250 时间点的 EEG。关键观察是即便简单 CNN 也能达到有竞争力的预测精度（AlexNet 的 Pearson \(R\) 反而最高），说明框架不绑定特定骨干，是"任意 image-to-EEG 预测器都能即插即用"的闭环配方。

2. 闭环评分更新（直接奖励 + 扩散传播）：把稀疏的 top-k 反馈摊给整个图库。 从均匀先验出发，每张图维护一个分数 \(S_t(u)\)。先做直接奖励——只对相似度最高的 top-k 图像用指数滑动平均更新分数 \(S'_t(u_i)=(1-\alpha)S_t(u_i)+\alpha\,\mathrm{sim}(f(g(u_i)),y_{\text{target}})\)；再做传播更新——按 CLIP 嵌入相似度把 top-k 的奖励"扩散"给数据库里相似的图像 \(S_{t+1}(u_j)=(1-\beta)S'_t(u_j)+\frac{\beta}{|I_{best}|}\sum_{i\in I_{best}}S'_t(u_i)\frac{\exp(s(u_i,u_j))}{\sum_l \exp(s(u_i,u_l))}\)。最后用 softmax 把分数转成下一轮的采样概率 \(P_{t+1}\)。这套机制让"和多个高分图都像"的图像获得更强的分数提升，大幅提高了样本效率。

3. 黑盒引导扩散（伪模型替代梯度）：绕开不可微大脑，用 GP 代理算梯度。 既然没法在黑盒编码模型上直接求梯度，MindPilot 用一个高斯过程 (GP) 代理在 CLIP 隐空间预测奖励梯度，构造伪目标嵌入 \(\hat z^\*=z_K-\eta\nabla\hat f(z_K;Z_n)\)，其中 \(\hat f(z_K;Z_n)=k(z_K,Z_n)^T(K(Z_n,Z_n)+\lambda I)^{-1}y\) 是 GP 对历史样本及其奖励的闭式预测，奖励定义为 \(y_i=\mathrm{sim}(f(g(u_i)),y_{\text{target}})\times\gamma\)。再用 SDXL-Lightning + IP-Adapter 把这个伪目标作为引导去生成新图，从而把"无梯度黑盒优化"接进扩散去噪管线。

4. 交互式搜索 + 启发式进化：从冷启动到连续生成的双阶段策略。 面对未知目标图像，先用受交互检索启发的"轮盘赌"相似度加权采样（Algorithm 1），从随机候选出发逐步把采样分布收紧到逼近目标的刺激上；当固定图库不够用时，切到启发式进化生成（Algorithm 2）——对图像嵌入做交叉和"变异"再从图像空间采样新图，并保留各维度原始 CLIP 特征的相对序，确保变异后的图像在语义上仍然连贯、可被人类理解。

实验关键数据¶

主实验表格（EEG 语义驱动生成 vs 专用解码器，Subject-01）¶

方法	类型	SSIM↑	AlexNet(2)↑	Inception↑	CLIP↑	SwAV↓
ATM-S（上界，直接解码 GT EEG）	EEG-to-image	0.32	0.80	0.72	0.76	0.58
CongCapturer	EEG-to-image	0.33	0.73	0.65	0.68	0.59
Chance-level	调控基线	0.28	0.49	0.50	0.48	0.69
MindPilot (Ours)	调控	0.35	0.70	0.58	0.67	0.60

注：ATM-S/CongCapturer 是"看着 GT EEG 直接重建图像"的理论上界，而 MindPilot 必须在看不到 GT 的情况下迭代搜索；即便如此，它在 SSIM 上反超上界、在 CLIP 二选一上 0.67 逼近 ATM-S 的 0.76。

消融实验表格（语义闭环迭代相似度，10 被试均值）¶

阶段	语义相似度 SS	强度相似度 IS
Random（初始）	0.6012	0.9354
Step-1	0.7370	0.9680
Step-Best	0.8451	0.9946
平均提升	+10.91%	+2.65%

关键发现¶

收敛性 & 对齐性：相似度分数随迭代稳定上升、显著超过随机采样；EEG 嵌入与 CLIP 表征跨被试显著相关（\(R=0.23, P<0.01\)），证明 CLIP 相似度是有效的神经对齐代理。
频谱目标也能调控：除语义特征外，对 EEG 功率谱密度 (PSD) 目标优化同样在 10 被试上显著提升相似度，且在刺激后 0–500 ms 早期窗口神经对齐最明显——说明框架能超越"检索"去主动设计匹配频谱目标的刺激。
真人闭环验证：10 名被试的实时实验里，模型导出的相似度与人类主观评分强相关；在目标更明确的情绪调控任务上，伪模型奖励与人评相关 \(R=0.714\)，群体情绪从 0.45→0.60 被显著正向调控；而细粒度"心理匹配"任务表现中等，作者把它定性为非侵入 EEG 在 sim-to-real 语义鸿沟下的现实基线。

亮点与洞察¶

问题翻转得漂亮：把成熟的"EEG 解码"反过来做成"EEG 编码调控"，并干净地形式化成黑盒优化，是个有想象力的新问题设定。
三个"不可能"被工程化绕开：无量化指标→用相似度评分；EEG 噪声→用代理模型+EMA 平滑；大脑不可微→用 GP 伪模型造替代梯度。每一招都对准一个具体痛点。
即插即用的通用性：黑盒代理不绑骨干、目标可换（语义/频谱/甚至主观情绪评分），让同一框架覆盖检索、生成、情绪调控多任务。
诚实的失败分析：作者没有回避心理匹配任务的中等表现，反而把它解释成非侵入 EEG 的物理上限，并用情绪调控任务的强效果对比，论证"只要神经目标可定义，闭环就稳健"。

局限与展望¶

代理模型预测力有限：表 1 里最好的 Pearson \(R\) 也只有 ~16%（虽然时间分辨分析在 ~100ms 能到 0.6），整体窗口的弱相关意味着代理与真脑仍有不小 gap，闭环效果受此天花板约束。
sim-to-real 鸿沟：细粒度语义匹配在真人上只达到中等水平，非侵入 EEG 的信噪比限制了高保真语义调控。
超参未充分搜索：\(\alpha=\beta=0.1\) 等是经验设定，作者自承未做彻底搜索，调参空间还可能带来增益。
被试规模小：真人实验仅 10 人，泛化性与个体差异需更大样本验证。
展望：双向脑机接口、神经信号引导的生成建模、认知增强与神经康复都是其指向的应用方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个非侵入 EEG 引导自然图像闭环调控框架，问题设定与黑盒+伪模型方案都很新。
实验充分度: ⭐⭐⭐⭐ 仿真+9 种代理+真人三层验证，覆盖语义/频谱/情绪三类目标；但代理预测力弱、真人仅 10 人、细粒度匹配偏弱。
写作质量: ⭐⭐⭐⭐ 问题动机讲得清楚，框架图与公式到位，对局限诚实；个别记号（伪模型/GP 部分）需结合附录才好读。
价值: ⭐⭐⭐⭐⭐ 为双向脑机接口、神经引导生成开了一条可落地的新路，应用想象空间大。