NeuroFlow: Toward Unified Visual Encoding and Decoding from Neural Activity¶

会议: CVPR 2026
arXiv: 2604.09817
代码: https://michaelmaiii.github.io/NeuroFlow-S (项目页)
领域: 医学图像 / 脑机接口 / fMRI 视觉解码
关键词: 视觉编码解码、fMRI、流匹配、跨模态对齐、变分自编码器

一句话总结¶

NeuroFlow 把"看图→脑信号"（编码）和"脑信号→看图"（解码）统一进同一个流模型：先用变分骨干 NeuroVAE 把 fMRI 压进一个语义结构化的隐空间，再用跨模态流匹配 XFM 在视觉隐分布与神经隐分布之间学一条可逆的连续流，正向积分做编码、反向积分做解码，仅用 MindEye2 约 25% 的参数就同时拿下两个任务的 SOTA 或可比表现。

研究背景与动机¶

领域现状：理解视觉的神经编码（external stimulus → neural activity）与解码（neural activity → stimulus）是神经科学与脑机接口的核心问题。fMRI 因其高空间分辨率成为主流测量手段。当前主流做法把编码和解码当成两个独立任务：编码模型（如 SynBrain、MindSimulator）用预训练视觉特征 + 体素回归预测脑响应；解码模型（如 MindEye、MindEye2、BrainDiffuser）把脑信号映射到 CLIP 等视觉-语言嵌入空间再用生成模型还原图像。

现有痛点：即便有工作想把两个方向连起来，也依旧是两套独立网络——要么在像素-体素空间做细粒度映射（重建模糊、缺语义），要么虽然桥接了神经/视觉隐空间，却用两条独立的线性回归分别处理编码和解码方向，没有共享表示。这导致两个本应互补的过程各练各的，无法建模二者的一致性。

核心矛盾：编码和解码本质上是同一映射的正反两个方向（贝叶斯关系下，神经分布是视觉表示的似然，视觉后验又可从神经分布反推），但现有范式把它们割裂。更深层的问题出在主流的"条件 noise-to-data 扩散"策略上：它只在某一个经验分布和高斯噪声之间建立随机对应（单向建模），且训练时从带噪经验分布出发去噪、推理时却从纯高斯噪声出发，存在训练-推理分布鸿沟。

本文目标：用单一模型统一编码与解码，且满足两个必备性质——(i) 共享隐空间：两个过程在同一隐空间里联合优化、互相支撑；(ii) 编码-解码一致性：合成的神经信号必须能反向还原成连贯的图像。

核心 idea：把编码和解码重写成共享隐空间里一条时间相关、可逆的流——正向积分（\(z_v \to z_n\)）做编码、反向积分（\(z_n \to z_v\)）做解码，两个任务只靠时间方向的正负区分，从而抛弃"以噪声为起点、靠条件引导"的扩散范式。

方法详解¶

整体框架¶

NeuroFlow 要解决的是"用一个模型既能由图生成脑信号、又能由脑信号还原图像"。它由三个部件拼成：一个冻结的视觉骨干（CLIP 编码 + UnCLIP 解码）把图像在语义隐空间和像素之间来回转换；一个可训练的神经骨干 NeuroVAE 把 fMRI 投影进语义对齐的概率隐空间；中间用跨模态流匹配 XFM 在视觉隐分布 \(z_v\) 与神经隐分布 \(z_n\) 之间学一条可逆流。

训练分两阶段、推理是第三阶段：Stage-1 先单独训 NeuroVAE，建立结构化的神经隐空间并保证语义一致的 fMRI 重建；Stage-2 冻住两个骨干，只训 XFM 这条流；Stage-3 推理时同一个 XFM 流——时间正向走就是编码、时间反向走就是解码。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IMG["视觉刺激图像"] --> VB["冻结视觉骨干<br/>CLIP 编码 → 视觉隐 z_v"]
    FMRI["fMRI 体素信号"] --> NV["NeuroVAE<br/>概率变分骨干<br/>fMRI → 神经隐 z_n / z_c"]
    VB --> XFM["跨模态流匹配 XFM<br/>z_v ↔ z_n 间可逆连续流"]
    NV --> XFM
    XFM -->|"正向积分 Δt>0<br/>z_v→z_n（编码）"| ENC["合成 fMRI 活动"]
    XFM -->|"反向积分 Δt<0<br/>z_n→z_v（解码）"| DEC["UnCLIP 还原图像"]

关键设计¶

1. NeuroVAE：用概率变分骨干把 fMRI 压成语义结构化的神经隐空间

要让编码和解码共享隐空间，第一步得给 fMRI 一个"干净、语义对齐、还能采样"的表示，而不是死记体素级噪声。NeuroVAE 是个变分自编码器：神经编码器 \(E_n\) 给定 fMRI \(x_{\text{fMRI}} \in \mathbb{R}^{1\times n}\) 估计一个后验 \(q(z_n \in \mathbb{R}^{m\times d} \mid x_{\text{fMRI}})\)，一个线性投影再把通道维聚合成紧凑隐向量 \(z_c \in \mathbb{R}^{1\times d}\)，解码器 \(D_n\) 据此重建 \(\hat{x}_{\text{fMRI}}\)。这里有个关键的双隐向量分工：\(z_n\) 走解码方向、\(z_c\) 走编码方向，把编码通路从解码过程里解耦出来，让 fMRI 合成有任务专属的抽象。引入概率（变分）建模是为了刻画"同一刺激跨试次脑响应不同"的一对多关系，而把后验拉向标准高斯则在隐空间里注入噪声、保持平滑，为后续连续流匹配铺路。相比只做编码的 SynBrain，NeuroVAE 额外加了紧凑隐 \(z_c\)、循环一致损失和一些结构改动来支持双向建模。

2. 跨模态流匹配 XFM：把编码/解码改写成共享隐空间里一条可逆的流

这是全文最核心的创新，直接针对"条件 noise-to-data 扩散单向、且训练-推理分布鸿沟"的痛点。XFM 不再从高斯噪声出发，而是直接在视觉隐分布 \(z_v\) 和神经隐分布 \(z_n\) 之间学一个时间相关向量场 \(v_\theta(z,t)\)，满足 ODE：

\[\frac{dz(t)}{dt} = v_\theta(z_t, t), \quad z_0 = z_v,\ z_1 = z_n.\]

向量场用 Scalable Interpolant Transformer (SiT) 参数化，中间状态由余弦插值定义 \(z_t = \alpha_t z_0 + \sigma_t z_1\)，其中 \(\alpha_t = \cos^2(\frac{\pi}{2}t)\)、\(\sigma_t = \sin^2(\frac{\pi}{2}t)\)，目标场 \(v^*(z_t,t) = \frac{d\alpha_t}{dt} z_0 + \frac{d\sigma_t}{dt} z_1\)。可逆性来自 ODE 解的唯一性：同一条学好的向量场，正向积分（\(\Delta t > 0\)，\(t_0 \to t_1\)）实现编码 \(z_v \to z_n\)，反向积分（\(\Delta t < 0\)，\(t_1 \to t_0\)）实现解码 \(z_n \to z_v\)。换句话说，编码和解码不再是两个网络、两套训练，而是同一条流的两个时间方向——一致性由流匹配原理"硬"约束，而非靠额外的对齐损失去凑。这也符合编码解码的贝叶斯关系：神经分布是视觉表示的似然，反向就能推出视觉后验。

3. 对比 + 循环一致对齐：先把两个分布粗对齐，XFM 才有流可学

XFM 能直接在两个分布间架流的前提是它们已经被粗略对齐，否则向量场无从学起。NeuroVAE 用两个对比目标完成这件事：对比损失 \(\mathcal{L}_{\text{clip}} = \text{SoftCLIP}(z_n, z_v)\) 把神经隐拉去和视觉语义一致；循环一致损失 \(\mathcal{L}_{\text{cyc}} = \text{SoftCLIP}(\hat{z}_n, z_v)\)（其中 \(\hat{z}_n = E_n(\hat{x}_{\text{fMRI}})\)）则要求重建出来的 fMRI 再编码一遍仍保持语义，逼模型关注语义模式而不是过拟合体素级细节。消融显示：去掉这两个对比目标，检索几乎全崩（Raw 86.4%→0.3%，Syn 96.4%→0.5%），XFM 在没有任何引导下也建不起两分布间的直接流——可见这层粗对齐是 XFM 的前置必需品。

损失函数 / 训练策略¶

Stage-1（NeuroVAE） 用复合目标优化：

\[\mathcal{L}_{\text{VAE}} = \mathcal{L}_{\text{mse}} + \alpha \mathcal{L}_{\text{kl}} + \beta \mathcal{L}_{\text{clip}} + \lambda \mathcal{L}_{\text{cyc}}.\]

其中 \(\mathcal{L}_{\text{mse}} = \|\hat{x}_{\text{fMRI}} - x_{\text{fMRI}}\|_2^2\) 保体素保真度，\(\mathcal{L}_{\text{kl}}\) 把后验拉向 \(\mathcal{N}(0,I)\) 注入随机性，\(\mathcal{L}_{\text{clip}}\)/\(\mathcal{L}_{\text{cyc}}\) 做语义对齐。权重 \(\alpha=0.001\)（只软约束高斯先验、保留采样能力）、\(\beta=\lambda=1000\)（强推语义组织与语义一致重建）——作者强调这样设是把"互相冲突的目标转成互补"：\(\mathcal{L}_{\text{clip}}\) 与 \(\mathcal{L}_{\text{kl}}\) 平衡语义结构 vs 随机采样，\(\mathcal{L}_{\text{mse}}\) 与 \(\mathcal{L}_{\text{cyc}}\) 平衡体素细节 vs 语义保真。

Stage-2（XFM） 在冻结骨干上最小化均匀时间采样下的流匹配误差：

\[\mathcal{L}_{\text{XFM}} = \mathbb{E}_{t\sim U(0,1)}\big[\|v_\theta(z_t,t) - v^*(z_t,t)\|_2^2\big].\]

推理用 Euler 解 ODE：\(z_{t+\Delta t} = z_t + \Delta t\, v_\theta(z_t,t)\)，\(\Delta t\) 的符号决定方向。训练硬件极省：单张 A100-40G、全程 5 小时内完成；NeuroVAE 用 AdamW 训 50 epoch（lr=1e-4、weight decay=0.05、batch 64），XFM 同配置训 50k 步。

实验关键数据¶

数据集为 Natural Scenes Dataset (NSD)，4 名完成全部 session 的被试（Sub-1/2/5/7），每人 9000 张训练图、1000 张共享测试图（每图 3 试次模拟神经变异）。解码评估语义保真度用 Inception Score (Incep)、CLIP 相似度、EfficientNet 距离 (Eff↓)、SwAV 距离 (SwAV↓)；编码评估的是"图→fMRI→图"的编码-解码一致性；检索指标看 fMRI 隐与视觉隐的 top-1 余弦相似命中率（Raw=原始 fMRI，Syn=合成 fMRI）。

主实验¶

方法	类型	解码 Incep↑	解码 CLIP↑	编码 Incep↑	编码 CLIP↑	检索 Raw↑	检索 Syn↑
MindSimulator	编码 E	-	-	93.1%	91.2%	-	-
SynBrain	编码 E	-	-	95.7%	94.3%	84.8%	92.5%
BrainDiffuser	解码 D	91.3%	90.9%	-	-	18.8%	-
MindEye	解码 D	94.6%	93.3%	-	-	90.0%	-
MindEye2	解码 D	95.4%	93.0%	-	-	98.8%	-
NeuroFlow	E&D	95.6%	94.2%	98.6%	98.7%	80.6%	97.0%

NeuroFlow 是唯一一个 E&D 统一模型：解码侧 Incep/CLIP 都拿到最佳、Eff/SwAV 也有竞争力；编码侧大幅超过所有专门编码模型。一个反直觉的结果是用合成 fMRI 反而比原始 fMRI 解码/检索得更好（编码 Incep 98.6% vs 解码 95.6%；检索 Syn 97.0% vs Raw 80.6%），说明 NeuroFlow 能从稀疏冗余的真实 fMRI 里蒸出任务相关的语义、合成出比原信号更"干净"的神经信号。代价是 Raw 检索略有牺牲（80.6%，低于 MindEye2 的 98.8%）。

效率对比¶

方法	类型	预训练	架构	参数量
SynBrain	E	×	VAE+Transformer	690M
MindEye	D	×	MLP+DP	1.00B
MindEye2	D	✓	Linear+MLP+DP	2.60B
NeuroFlow	E&D	×	VAE+XFM	660M

NeuroFlow 不需预训练、仅 660M 可训练参数（约 MindEye2 的 25%），却同时做编码+解码且性能可比或更优。

消融实验（Subject 1）¶

配置	解码 CLIP↑	编码 CLIP↑	检索 Raw↑	检索 Syn↑	说明
Full NeuroFlow	95.0%	98.7%	86.4%	96.4%	完整模型
w/o \(z_c\)	94.0%	96.6%	84.1%	90.4%	去紧凑隐，各任务一致小掉
w/o \(\mathcal{L}_{\text{kl}}\)	79.6%	57.1%	75.1%	11.5%	去变分采样，编码侧崩
w/o \(\mathcal{L}_{\text{cyc}}\)	93.7%	95.5%	81.4%	88.9%	去循环一致，中度退化
w/o \(\mathcal{L}_{\text{clip}}\text{-}\mathcal{L}_{\text{cyc}}\)	58.8%	51.3%	0.3%	0.5%	去对比对齐，检索全崩
w/o \(\mathcal{L}_{\text{XFM}}\)	83.7%	58.1%	86.4%	14.1%	去流匹配，编码合成崩

关键发现¶

对比对齐（\(\mathcal{L}_{\text{clip}}\)-\(\mathcal{L}_{\text{cyc}}\)）是地基：去掉后检索从 86.4%/96.4% 直接塌到 0.3%/0.5%，没有粗对齐 XFM 根本无流可学，编码解码全废。
XFM 是统一的引擎：去掉后 Syn 检索 96.4%→14.1%、编码 CLIP→58.1%，只能产出扭曲轮廓，证明它才是真正缝合两个方向的关键模块。
变分采样（\(\mathcal{L}_{\text{kl}}\)）对编码方向至关重要：去掉后 Syn 检索 96.4%→11.5%，概率隐空间是一对多跨模态对齐与连续流匹配的前提。
采样轨迹有可解释性：编码轨迹逐步压制早期视觉响应、转向 FFA/EBA 等类别选择区；解码轨迹从一张"语义草图"（而非高斯噪声）起步逐渐精修成真实图像——路径更短、更稳。
脑功能层面可信：合成 fMRI 保留了皮层功能选择性，选择性激活 FFA（人脸）、EBA（身体）、OPA/PPA（场景）等高阶功能区并抑制早期视觉区，与已知皮层组织一致。

亮点与洞察¶

"换时间方向 = 换任务"的统一范式：把编码/解码归约为同一条可逆 ODE 流的正反积分，是非常优雅的形式化——一致性不靠额外 loss 拼凑，而是由流匹配 + ODE 唯一性天然保证，这个思路可迁移到任何"成对正反映射"任务（如文本↔语音、低分↔高分图像）。
绕开 noise-to-data：直接在两个经验分布间架流，既消除了训练-推理分布鸿沟，又让解码从"语义草图"而非纯噪声起步，缩短采样路径、稳定轨迹——对所有"条件扩散从噪声生成"的范式是一记有力的反例。
合成信号优于原始信号：用 NeuroVAE 合成的 fMRI 比真实 fMRI 解码效果还好，说明变分隐空间起到了"去噪 + 语义蒸馏"的作用，这对处理低信噪比生物信号是可复用的洞察。
双隐向量解耦（\(z_n\) 解码 / \(z_c\) 编码）：用一个紧凑分支隔离编码专属信息，是个轻量但有效的工程巧思。

局限性 / 可改进方向¶

Raw 检索被牺牲：为换取统一建模，原始 fMRI 的检索精度（80.6%）明显低于 MindEye2（98.8%），在"直接用真实脑信号做语义检索"的场景下不占优。
只在语义层评估：解码/编码指标都聚焦语义保真，论文坦言未显式纳入低层视觉信息；像素级结构虽因 UnCLIP 解码器而尚可，但缺乏对低层重建质量的直接量化。
数据规模受限：仅在 NSD 的 4 名被试上验证，跨被试泛化、跨数据集（EEG/MEG）迁移能力未知；fMRI 本身是神经活动的间接代理（BOLD 信号）。
可改进方向：引入低层视觉先验补结构细节、探索 few-shot/跨被试适配、把可逆流框架推广到其他神经成像模态。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把视觉编码与解码统一进单一可逆流模型，"换时间方向即换任务"的形式化很漂亮。
实验充分度: ⭐⭐⭐⭐ NSD 上主结果/效率/消融/轨迹/脑功能分析齐全，但仅 4 被试、单数据集，跨域泛化未验证。
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，三阶段架构和流匹配公式交代到位。
价值: ⭐⭐⭐⭐⭐ 为双向视觉脑机接口提供了高效统一范式与可解释的机制洞察。