ICLR 2026 医学图像 subject-agnostic brain decoding fMRI-to-video ventral-dorsal stream CLIP 层级对齐对比学习跨被试泛化

A Cognitive Process-Inspired Architecture for Subject-Agnostic Brain Visual Decoding¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=H1GLFKk0xE
代码: https://github.com/xmed-lab/VCFLOW
领域: 脑视觉解码 / fMRI-to-video / 神经科学应用
关键词: subject-agnostic brain decoding, fMRI-to-video, ventral-dorsal stream, CLIP 层级对齐, 对比学习, 跨被试泛化

一句话总结¶

VCFLOW 把人脑视觉皮层的"腹侧—背侧双通路"机制搬进解码模型，将 fMRI 信号拆成早期视觉 / 腹侧 / 背侧三路并分别对齐 CLIP 不同层级特征，再用一个 redistribution 适配器分离"被试无关语义"与"被试身份"，从而首次实现无需对新被试重训的 fMRI-to-video 重建：相比逐人训练只掉约 7% 精度，却把单段视频生成从 12 小时训练压到 10 秒推理。

研究背景与动机¶

领域现状：fMRI-to-video 重建近两年快速进展（MinD-Video、NeuroClips、NEURONS），目标是从脑信号恢复连续动态视觉体验，兼顾细粒度视觉、抽象语义与时序连贯。
现有痛点：这些方法几乎都是 subject-specific —— 面对一个新病人需要 ≥12 小时的个体专属数据与重训，才能建出可用模型。这在大规模筛查、临床康复、精神分裂/幻觉/认知障碍检测等下游场景里完全不实用。
核心矛盾：直接把现有 subject-specific 模型改造成共享空间（如 NEURONS*）在未见被试上表现很差，因为它们抽不出跨被试通用的语义；而 GLFA 这类数据级功能对齐又依赖把所有被试 fMRI 一起预训练，违背了真正"subject-agnostic"的设定，缺乏语义层级与鲁棒性。
本文目标：构建一个真正 subject-agnostic 的解码器，能在认知特征层面对新被试鲁棒解码，零重训、秒级推理。
核心 idea：【神经科学先验驱动架构】 视觉皮层天然分早期视觉 / 腹侧（高层语义）/ 背侧（运动与空间）三类区域，分别对应 CLIP 的低层 / 高层 / 视频运动特征；【语义—身份解耦】 用一个 token 级 redistribution 块把"通用语义"与"被试身份"显式拆开，对比学习提纯被试无关表示。

方法详解¶

整体框架¶

VCFLOW 由三个串联模块组成：先用 HCAM（层级认知对齐模块） 按腹背双通路把 fMRI 拆成早期视觉/腹侧/背侧三路特征并各自对齐 CLIP 对应层级；再用 SARA（被试无关再分布适配器） 把个体语义映射进共享的、被试不变的语义空间；最后由 HED（层级显式解码器） 把多语义维度特征通过显式辅助任务（caption / 分类 / 分割 / 模糊视频）解码并融合，送入 Stable Diffusion 重建视频。

flowchart LR
    A[fMRI: 全脑体素] --> B[ViT 全脑表示 Ebrain]
    A --> C[ROI 划分<br/>早期/腹侧/背侧]
    C --> D[HCAM<br/>三路特征 + CLIP 层级对齐]
    B --> E[SARA<br/>语义/身份 token 解耦]
    D --> E
    E --> F[HED<br/>显式辅助任务解码]
    F --> G[Stable Diffusion<br/>视频重建]

关键设计¶

1. 功能 ROI 划分 + 多层级特征抽取：把双通路假说写进体素分组。 受人脑双通路假说启发，方法把全脑体素序列 \(X\in\mathbb{R}^{B\times S\times V}\) 按 ROI 选取索引 \(I_{\text{ROIs}}\) 切成早期视觉、腹侧、背侧三组：\(X_{\text{ROIs}}=X[:,:,I_{\text{ROIs}}]\)。但作者强调"直接只用某子集体素抽某维度信息会破坏语义完整性"，所以并非硬切——全脑表示 \(E_{\text{brain}}\) 由 ViT 对整段体素抽取作为全局上下文，三路子集再各自投影到同一隐空间得到 \(E_{\text{early}},E_{\text{ventral}},E_{\text{dorsal}}\)。全局表示经 SARA 后再过一个 DALL·E 2 式的 diffusion prior 转进 OpenCLIP 嵌入空间，最后用可学习的 cross-attention 把全局上下文注入三路，得到 \(F_{\text{early}},F_{\text{ventral}},F_{\text{dorsal}}\)。这样既保留层级特异性，又不丢全局语义连贯。

2. 层级认知对齐：每一路对齐 CLIP 的"对应认知层级"而非统一终层。 这是全文最贴神经科学的一刀——高层语义（腹侧）天然对齐 CLIP vision 终层嵌入 \(F_{\text{clip}}^{(L)}\)；低层结构（早期视觉）难对齐，于是改对齐 CLIP ViT 早期层 嵌入 \(F_{\text{clip}}^{(l)}\)，依据是"深度网络层级与人脑视觉层级存在对应"这一神经科学发现；背侧运动则对齐 CLIP 视频嵌入，显式建模运动分量。对齐统一用 BiMixCo 损失（MixCo 数据增强构造的双向对比目标）加速收敛。直觉上，它把"CLIP 的特征金字塔"和"视觉皮层的认知金字塔"逐层对上号，而不是粗暴地把所有脑信号都压到一个语义终点。

3. SARA 再分布适配器：token 级地把"通用语义"和"被试身份"分家。 借鉴 ViT register token 思路，输入特征 \(E\in\mathbb{R}^{B\times S\times L\times C}\) 先沿 token 维扩展 \(E_{\text{exp}}=\text{Expand}(E)\in\mathbb{R}^{B\times S\times(L+L_{\text{redis}})\times C}\)，再过 redistribution 层产出两组 token：\([T_{\text{sem}},T_{\text{subj}}]=\text{Redistribution}(E_{\text{exp}})\)，前者是被试无关语义 token、后者是被试专属 token。三个损失各司其职：\(L_{\text{align}}=\text{BiMixCo}(T_{\text{sem}},F_{\text{clip}})\) 让语义 token 贴 CLIP；跨被试的对称 InfoNCE（滑窗遍历相邻被试）\(L_{\text{generic}}=\frac{1}{2(S-1)}\sum_{i=2}^{S}\big[\text{InfoNCE}(T^{\text{norm}}_{i-1,\text{sem}},T^{\text{norm}}_{i,\text{sem}})+\text{InfoNCE}(T^{\text{norm}}_{i,\text{sem}},T^{\text{norm}}_{i-1,\text{sem}})\big]\) 把不同被试的语义对齐到同一空间（被试越多越稳）；同时一个 subject 分类器用交叉熵 \(L_{\text{subj}}\) 监督 \(T_{\text{subj}}\) 保留个体判别性，避免把身份信息一并抹掉。总损失 \(L_{\text{SARA}}=\lambda_{\text{align}}L_{\text{align}}+\lambda_{\text{subj}}L_{\text{subj}}+\lambda_{\text{generic}}L_{\text{generic}}\)。解耦后只取语义 token 给新被试用，身份分量被显式剥离，这正是 subject-agnostic 的关键。

4. HED 层级显式解码：用辅助任务把抽象嵌入"逼"出可读模态。 直接拿嵌入重建难以充分整合多认知层级，HED 给每路特征配显式辅助任务：腹侧 \(F_{\text{ventral}}\) 接 image caption 生成 + 物体类别分类（\(L_{\text{caption}},L_{\text{cls}}\)）；早期视觉 \(F_{\text{early}}\) 接分割任务捕捉边缘纹理形态（\(L_{\text{seg}}\)）；背侧 \(F_{\text{dorsal}}\) 先投影到帧维 \(\tilde F_{\text{dorsal}}\in\mathbb{R}^{B\times F\times S\times L_{\text{clip}}\times C_{\text{clip}}}\) 再投到 VAE 隐空间与模糊视频对齐（\(L_{\text{motion}}\)）。总损失 \(L_{\text{HED}}=\lambda_{\text{caption}}L_{\text{caption}}+\lambda_{\text{cls}}L_{\text{cls}}+\lambda_{\text{seg}}L_{\text{seg}}+\lambda_{\text{motion}}L_{\text{motion}}\)，并按 NEURONS 的策略渐进调权。把抽象脑特征显式落到文本/分割/模糊视频这些"中间产物"上，等于给每个认知维度都加了一个可解释的监督锚点。

实验关键数据¶

数据：预训练用图像数据 DIR + GOD（8 被试、1250 图、200 类），主任务用 cc2017 fMRI-video 数据集（每被试 8640 训练 / 1200 测试样本）。评测分帧级（语义 N-way top-K、SSIM、PSNR）和视频级（Kinetics-400 动作分类、CLIP-pcc 时序连贯）。

主实验表格（cc2017，subject-agnostic，三被试平均）¶

方法	w/o Pretrain	帧 50-way↑	帧 2-way↑	SSIM↑	PSNR↑	视频 50-way↑	视频 2-way↑	CLIP-pcc↑
fMRI-PTE-V	×	11.1%	76.6%	0.147	-	17.8%	84.1%	-
GLFA（全被试预训练）	×	11.6%	77.5%	0.173	-	18.2%	84.1%	-
NEURONS*	✓	10.1%	74.9%	0.380	9.612	16.1%	83.6%	0.931
GLFA*	✓	9.6%	74.8%	0.137	-	17.0%	84.0%	-
VCFLOW	✓	14.0%	77.9%	0.396	10.478	18.2%	84.5%	0.940

相对 subject-agnostic baseline GLFA*：帧 50-way +45.8%、SSIM +189.1%；相对 NEURONS*：帧 50-way +38.6%、视频 50-way +13.0%。
甚至超过了"作弊"用全被试 fMRI 预训练的 GLFA（帧 50-way +20.7%、SSIM +128.9%），说明语义层级对齐+解耦比数据级功能对齐更有效。

消融实验表格（subj 2,3→1，subject 1 结果）¶

Pretrain	HCAM	SARA	HED	帧 50-way↑	SSIM↑	PSNR↑	视频 50-way↑	CLIP-pcc↑
✓				11.3%	0.401	9.720	12.6%	0.908
✓	✓			10.4%	0.382	9.866	15.3%	0.918
✓	✓	✓		11.8%	0.357	9.583	14.7%	0.919
✓	✓	✓	✓	12.4%	0.389	10.442	15.2%	0.934
✓✓	✓	✓	✓	14.2%	0.389	10.469	18.9%	0.944

关键发现¶

HCAM 提升语义理解、SARA 增强跨被试迁移（CLIP-pcc/PSNR），HED 带来最大增益（高层语义与重建质量）；充分预训练再叠加全模块进一步把帧 50-way 从 12.4% 拉到 14.2%。
皮层投影可视化：早期视觉嵌入对应 V1–V4，腹侧嵌入激活 FFA/PPA，背侧嵌入对齐 MST 等运动区——解码特征与神经认知结构高度一致，提供了可解释证据。
效率：单段视频 10 秒推理、零重训，相比逐人 12 小时训练仅平均掉约 7%。

亮点与洞察¶

任务定义的首创性：第一个把 fMRI-to-video 形式化为 subject-agnostic 设定，直击临床落地的真正瓶颈（新病人零重训）。
神经科学先验落到架构而非口号：腹背双通路、CLIP 层级对应不只是动机叙事，而是直接决定了"哪路 ROI 对齐 CLIP 哪一层"，且被皮层投影可视化反向验证。
语义/身份显式解耦：redistribution + 跨被试 InfoNCE + subject 分类器三件套，把"要泛化的语义"和"要保留的身份"分开优化，这是它能超过用全被试预训练的 GLFA 的根因。
显式辅助任务做监督锚点：caption/分类/分割/模糊视频把抽象脑特征落地成可读中间模态，既提质又增可解释性。

局限与展望¶

仅在 cc2017 这一个 fMRI-video 数据集、3 个被试上做主评测，被试规模小，跨数据集/跨扫描仪的真正泛化仍待验证。
ROI 划分依赖既有神经科学先验与功能对齐预处理（fMRI-PTE），对预处理管线和 ROI 选择较敏感。
仍掉约 7% 精度，离 subject-specific 上限有差距；临床部署还需考虑信号质量、采集协议差异等现实因素。
diffusion prior + Stable Diffusion 链路较重，"10 秒推理"建立在已对齐的嵌入上，端到端临床流水线成本仍需评估。

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义 subject-agnostic fMRI-to-video，神经科学双通路先验落到架构与 CLIP 层级对齐的映射设计扎实，身份/语义解耦角度新颖。
实验充分度: ⭐⭐⭐ 主实验对比充分且消融清晰、含皮层可视化验证，但被试/数据集规模偏小，泛化证据有限。
写作质量: ⭐⭐⭐⭐ 动机—神经科学—方法—验证的逻辑链顺畅，图示（双通路、框架、推理、皮层投影）到位。
价值: ⭐⭐⭐⭐ 直击临床落地痛点（零重训、秒级推理），对脑机解码的可扩展应用有明确现实意义。