Zebra: Towards Zero-Shot Cross-Subject Generalization for Universal Brain Visual Decoding¶

会议: NeurIPS 2025
arXiv: 2510.27128
代码: GitHub
领域: 其他
关键词: fMRI解码, 零样本泛化, 对抗训练, 表征解耦, 脑视觉解码

一句话总结¶

提出 Zebra，首个零样本脑视觉解码框架，通过对抗训练与残差分解将 fMRI 表征解耦为主体不变和语义特定成分，无需对新被试做微调即可实现跨被试的视觉重建泛化。

研究背景与动机¶

fMRI-to-Image 重建是计算神经科学与计算机视觉的前沿方向，旨在将大脑视觉皮层的 BOLD 信号逆向工程为图像。然而，现有方法面临一个关键挑战：无法跨个体泛化。

当前方法（MindEye2、MindTuner 等）普遍采用两阶段方案：先在多被试数据上预训练统一模型，再对特定被试微调。这种范式存在严重限制：（1）每个新患者都需要 AI 专家进行微调；（2）微调过程耗时（约一天），阻碍脑机接口的实时应用；（3）没有能跨人类被试学习神经表征的通用特征空间。

核心论点：尽管个体间大脑活动存在差异，人类皮层以一种跨被试一致的、拓扑组织的方式编码语义信息（神经科学证据）。因此，可以通过显式分离主体不变成分和语义特定成分来实现零样本泛化。

现有方法在零样本设置下均失败：MindTuner 的主体特定设计在新被试上直接失效；NeuroPictor 虽能将不同被试 fMRI 变换为统一形状，但对主体噪声敏感，无法学到不变表征。

方法详解¶

整体框架¶

Zebra 基于一个基线框架（fMRI-PTE 编码器 + unCLIP 扩散先验 + SDXL 解码器），在此基础上增加两个核心模块：Subject-Invariant Feature Extraction (SIFE) 和 Semantic-Specific Feature Extraction (SSFE)。训练仅在训练集被试上进行一次，测试时直接对未见被试推理。

关键设计¶

主体不变特征提取（SIFE）：通过残差分解和对抗训练分离主体不变特征。自注意力模块 \(\mathcal{F}_i\) 提取不变特征 \(\bm{E}_i = \mathcal{F}_i(\bm{E})\)，残差得到主体特定特征 \(\bm{E}_s = \bm{E} - \bm{E}_i\)。

对抗训练确保 \(\bm{E}_i\) 不含主体信息——主体判别器 \(\mathcal{D}_{dis}\) 尝试从 \(\bm{E}_i\) 识别被试身份，不变提取器 \(\mathcal{F}_i\) 则阻止识别：

\[\min_{\theta_{\mathcal{E}}, \theta_{\mathcal{F}}} \max_{\theta_{\mathcal{D}_{dis}}} \left\{ \mathcal{L}_{dis}^{\bm{E}} := -\mathbb{E}_{x,s} [s \log \mathcal{D}_{dis}(\mathcal{E}(\mathcal{F}_i(\bm{E})))] \right\}\]

同时训练分类器 \(\mathcal{D}_{cls}\) 使 \(\bm{E}_s\) 保留主体信息（\(\mathcal{L}_{cls}^{\bm{E}}\)），形成互补约束。

表征保持锚（Representation Preservation Anchor）：对抗训练可能扭曲原始特征空间。通过辅助 fMRI 重建任务保持特征空间的信息完整性：

\[\mathcal{L}_{rec} = \mathbb{E}_{(x, \hat{x})} [|\hat{x} - x|]\]

使用两层反卷积 + 线性预测头重建输入信号，确保 \(\bm{E}\) 在对抗训练下仍保留生物学保真度和语义连贯性。

语义特定特征提取（SSFE）：对 \(\bm{E}_i\) 进一步注入语义信息。通过 vision projector 将脑特征投影到 CLIP 视觉空间，得到语义特定特征 \(\bm{F}_s = \mathcal{P}_s(\bm{E}_i)\) 和语义不变特征 \(\bm{F}_i = \mathcal{P}_i(\bm{E}_s)\)。使用 BiMixCo 损失将 \(\bm{F}_s\) 与 OpenCLIP 嵌入对齐（\(\mathcal{L}_{spe}^{\bm{F}}\)），并通过梯度反转层（GRL）阻止 \(\bm{F}_i\) 与 CLIP 特征对齐（\(\mathcal{L}_{inv}^{\bm{F}}\)），强制更多语义信息流入 \(\bm{F}_s\)。

损失函数 / 训练策略¶

总损失整合七个组件：

\[\mathcal{L} = \mathcal{L}_{rec} + \mathcal{L}_{dis}^{\bm{E}} + \mathcal{L}_{cls}^{\bm{E}} + \mathcal{L}_{inv}^{\bm{F}} + \mathcal{L}_{spe}^{\bm{F}} + \mathcal{L}_{sem} + \lambda \mathcal{L}_{prior}\]

其中 \(\mathcal{L}_{sem} = \mathcal{L}_{cls} + \mathcal{L}_{\text{CLIP}_v} + \mathcal{L}_{\text{CLIP}_t}\)，\(\lambda=30\)。训练 60 epochs，8 张 H800 GPU，batch size 128，AdamW 优化器，lr=1e-4。推理时使用 SDXL unCLIP 两阶段解码。

实验关键数据¶

主实验（NSD 数据集，被试 1/2/5/7 平均）¶

方法	训练方式	PixCorr↑	SSIM↑	Alex(2)↑	Alex(5)↑	Incep↑	CLIP↑
NeuroPictor⋆	零样本	0.057	0.297	71.4%	74.7%	62.5%	66.0%
Our baseline	零样本	0.074	0.316	70.8%	74.0%	63.5%	62.5%
Zebra	零样本	0.131	0.375	74.6%	81.2%	72.2%	71.5%
MindEye2	少样本(1h)	0.195	0.419	84.2%	90.6%	81.2%	79.2%
MindTuner	全微调	0.322	0.421	95.8%	98.8%	95.6%	93.8%

Zebra 零样本显著超越其他零样本方法（PixCorr +0.074，Incep +9.7%），且部分指标接近全微调模型。

消融实验¶

基线	SIFE对抗	SIFE锚	SSFE对抗	SSFE锚	PixCorr	Alex(5)	CLIP
✓					0.089	74.7%	63.2%
✓	✓				0.129	77.4%	66.8%
✓	✓	✓			0.134	78.3%	69.3%
✓	✓	✓	✓		0.142	79.6%	70.8%
✓	✓	✓	✓	✓	0.153	81.8%	72.3%

关键发现¶

训练被试数从 4 增到 7 时所有指标稳步提升（CLIP: 63.7% → 72.3%），说明更多被试数据有助于提升泛化
UMAP/t-SNE 可视化确认 \(\bm{E}_i\) 跨被试高度混合（无被试聚类），\(\bm{E}_s\) 则清晰按被试聚类
零样本推理每张图约 1 秒，而传统微调方案需超过 12 小时
Zebra 在低层感知指标上优势更大，语义准确性仍弱于少样本方法

亮点与洞察¶

问题定义开创性：首次提出零样本脑视觉解码问题，将 fMRI 解码从需要被试特定微调推向即插即用
神经科学驱动的设计：基于"皮层跨个体一致性编码语义"的神经科学证据，通过对抗+残差分解实现表征解耦
表征保持锚巧妙：解决了对抗训练容易破坏特征空间的经典问题，fMRI 重建作为锚点保持信息完整性
从实用角度看，零样本方案对临床应用（脑机接口、神经康复）有巨大价值

局限与展望¶

语义保真度仍弱于少样本方法，在罕见物体类别上表现不佳
仅在 NSD 数据集（8 个被试）上验证，被试数量有限
仅聚焦图像重建，未探索文本或视频等更复杂模态
需要更多被试和 fMRI 记录来全面捕捉真实世界视觉体验

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次零样本脑视觉解码，问题定义和方法均有开创性
实验充分度: ⭐⭐⭐⭐ 定量/定性/消融/可视化全面，但数据集和被试规模偏小
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，方法展示直观，实验组织合理
价值: ⭐⭐⭐⭐⭐ 对脑机接口和临床神经科学具有重大实用意义