跳转至

Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=AT7hCh6HB7
代码: https://github.com/XuZhang2/MindHier
领域: 脑信号解码 / fMRI-to-Image 重建 / 视觉自回归生成
关键词: fMRI-to-Image、尺度自回归(VAR)、层级对齐、由粗到细、CLIP、NSD

一句话总结

MindHier 把 fMRI-to-image 重建从"扩散模型 + 单一静态引导"换成"尺度自回归(next-scale prediction) + 层级化神经引导",让大脑信号按"先森林后树木"的层级逐尺度注入生成过程,在 NSD 上拿到 SOTA 语义指标的同时推理快 4.67×、结果还更确定性。

研究背景与动机

领域现状:从 fMRI 信号重建出受试者看到的图像,是连接计算机视觉与认知神经科学的核心任务。近几年的主流做法几乎全是扩散模型:把 fMRI 编码成一个 CLIP 空间里的神经嵌入,然后用这个嵌入作为"固定引导",从高斯噪声一步步去噪还原出图像。

现有痛点:作者指出这种"单一静态引导"范式有两个根本缺陷。其一,fMRI 信号本身是层级化的——不同脑区分别编码粗粒度语义内容和细粒度感知细节,但现有方法把这种丰富的多层级信息坍缩成一个向量,信息严重浪费。其二,引导信号是时间不变的,而生成模型是多阶段动态过程:早期需要全局语义约束,后期需要精确的结构和纹理线索。固定引导在早期冗余、在后期不足,造成"表示"与"生成"之间的错配。雪上加霜的是,扩散模型本身能注入引导的控制点很有限。

核心矛盾:fMRI 的层级结构 + 生成的阶段性需求 ↔ 现有方法用一个固定向量贯穿全程,既丢了层级又对不上阶段。

本文目标:设计一个能在不同生成阶段注入不同层级神经特征的重建框架,让全局语义先建立、局部细节后精修。

核心 idea用尺度自回归(VAR)替代扩散 —— VAR 的"next-scale prediction"天然提供了一串离散、可控的尺度(分辨率)控制点;再把 fMRI 编码成多层级特征,深层语义引导小尺度、浅层细节引导大尺度,使整个重建过程模拟人类感知的"森林先于树木"(Forest before Trees)层级原理。

方法详解

整体框架

MindHier 是一个两阶段训练的由粗到细重建框架。阶段一训练一个层级 fMRI 编码器(HFE),把 fMRI 信号解耦成一组从全局语义到局部细节的多层级特征,并用层级对齐损失把它们对到冻结 CLIP 的不同层;阶段二冻结该编码器,微调一个尺度自回归生成器(基于 Switti/VAR 预训练),通过带掩码的交叉注意力把不同层级的 fMRI 特征按"深层引导粗尺度、浅层引导细尺度"的方式注入 K 个尺度的生成。

flowchart TD
    A[fMRI 信号] --> B[层级 fMRI 编码器 HFE<br/>M 个级联 Transformer block]
    B --> E1[e1 浅层: 细节/Trees]
    B --> EM[eM 终端: 语义/Forest]
    subgraph S1[阶段一: 层级到层级对齐]
        E1 -.MSE.-> C1[CLIP 浅层特征]
        EM -.MSE+SoftCLIP.-> C2[CLIP 深层+文本]
    end
    subgraph S2[阶段二: 尺度感知由粗到细引导]
        EM ==> SC1[尺度1 小分辨率<br/>Start Token 播种森林]
        E1 ==> SCK[尺度K 大分辨率<br/>精修树木]
        SC1 --> AR[尺度自回归生成器]
        SCK --> AR
    end
    AR --> IMG[重建图像]

关键设计

1. 层级 fMRI 编码器(HFE):把一团脑信号解耦成"森林到树木"的特征金字塔。 不同于把 fMRI 压成单个向量,HFE 用 \(M\) 个级联的 Transformer block,把每个 block 的输出 \(\{e_1,\dots,e_M\}\) 都当作层级表示的一部分。这里借用了 ViT 的既有规律——浅层处理局部信息、深层聚合全局信息:终端输出 \(e_M\) 编码最抽象的全局语义("森林"),靠前的 \(e_1,\dots\) 保留细粒度感知细节("树木")。一次前向就拿到整套层级特征,这也是后面推理高效的根源之一。

2. 层级到层级对齐(Hierarchy-to-Hierarchy Alignment):用 CLIP 的层级当蓝图,逐层监督 HFE。 光有层级架构不够,还需要层级化的训练目标来"逼"编码器学到结构化分解。作者用两个互补损失联合优化。结构对齐用级联 MSE,把 HFE 第 \(m\) 个 block 的输出 \(e_m\) 与 CLIP 视觉编码器对应层 \(v_{g_m}\) 做点对点对齐(特征都做 \(\ell_2\) 归一化以稳定训练): $\(\mathcal{L}_{\text{MSE}}=\sum_{m=1}^{M}\big\|\ell_2(e_m)-\ell_2(v_{g_m})\big\|_2^2\)$ 其中映射 \(g_m=8+4m\) 把 fMRI 对到 CLIP ViT-L/14 的第 \(\{12,16,20,24\}\) 层。语义对齐则给终端特征 \(e_M\) 加一个 SoftCLIP 对比损失,在 CLIP 共享空间里同时对齐图像特征 \(v\) 和文本 caption 特征 \(t\),提供一个全局语义锚点: $\(\mathcal{L}_{\text{SoftCLIP}}=-\frac{1}{B}\sum_{i=1}^{B}\Big[\log\frac{\exp(e_i\cdot v_i/\tau)}{\sum_j\exp(e_i\cdot v_j/\tau)}+\log\frac{\exp(e_i\cdot t_i/\tau)}{\sum_j\exp(e_i\cdot t_j/\tau)}\Big]\)$ 这套"深层对深层"当蓝图先定布局、"浅层对浅层"当渲染器填纹理的自上而下对齐,是后续重建质量的关键。

3. 尺度感知由粗到细神经引导:把层级特征按分辨率精准灌进自回归。 VAR 把图像量化成 \(K\) 个多尺度 token map \(R=\{r_1,\dots,r_K\}\),每个位置查 \(N{=}4096\) 的码本取最近码字,自回归分解为 \(p(r_1,\dots,r_K)=\prod_k p(r_k|r_{<k})\)。MindHier 的创新在于把每个尺度的条件换成尺度专属特征 \(s_k\): $\(p(R|E)=\prod_{k=1}^{K} p(r_k\mid r_{<k},\,s_k)\)$ 引导按两个认知启发的阶段动态选取:播种"森林"(\(k{=}1\)) 用最抽象的语义特征 \(e_M\) 作为特殊 Start Token 来初始化最低分辨率尺度,给整张图定下连贯的全局基底;精修"树木"(\(1<k\le K\)) 则在更高分辨率尺度上通过多头交叉注意力逐步注入细节特征 \(s_k=e_{h_k}\),索引 \(h_k=M-\lfloor M(k-1)/K\rfloor\) 巧妙地把靠前 block 的细节特征对到靠后的生成阶段。工程上用一个选择性注意力掩码实现:粗尺度只允许 attend 深层语义特征、细尺度只 attend 浅层细节特征。最后把各尺度量化向量求和 \(\hat{f}=\sum_k \text{lookup}(Z,\hat r_k)\) 再经解码器 \(D\) 得到图像 \(\hat I\),整体用交叉熵预测真值 token map 训练。

实验关键数据

主实验(NSD 新测试集,跨 Subject 1/2/5/7 平均)

方法 PixCorr↑ SSIM↑ Incep↑(%) CLIP↑(%) Eff↓ SwAV↓ 推理(s)↓
Takagi[CVPR23] 0.246 0.410 83.8 82.1 0.811 0.504 15.08
MindBridge[CVPR24] 0.151 0.263 92.4 94.7 0.712 0.418 15.98
Wills Aligner[AAAI25] 0.271 0.328 94.3 94.8 0.649 0.373 -
MindHier (Ours) 0.235 0.381 95.9 96.4 0.606 0.329 2.64
†MindEye2[ICML24] 0.322 0.431 95.4 93.0 0.619 0.344 12.14
†MindHier (Ours) 0.326 0.461 95.9 95.4 0.613 0.345 2.64

(† 表示额外用了 MindEye2 的辅助低层特征。)在高层语义指标(Incep/CLIP/Eff/SwAV)上全面 SOTA,推理时间 2.64s 相比 MindEye2 的 12.14s 快 4.67×

诊断实验(Subject 1)

编码器设计 CLIP↑ SwAV↓ 结论
Single Feature(单特征) 95.1% 0.346 基线
Hierarchical(仅终端监督) 95.4% 0.339 小幅提升
Hierarchical(全级联监督) 97.2% 0.321 层级 + 逐层监督缺一不可
CLIP 层映射 CLIP↑ PixCorr↑ 结论
\(g_m{=}16{+}2m\) 95.4% 0.226 太晚→语义同质、缺辨识度
\(g_m{=}6m\) 94.8% 0.283 太早→低层略好、语义降
\(g_m{=}8{+}4m\) {12,16,20,24} 97.2% 0.273 中间偏深最平衡
引导方向 CLIP↑ SwAV↓
由粗到细(Coarse-to-Fine) 97.2% 0.321
反转(Fine-to-Coarse) 96.1% 0.330

关键发现

  • 层级 + 逐层监督是核心增益:从单特征到全级联监督,CLIP 从 95.1%→97.2%,证明只有架构没有逐 block MSE 监督只能拿到小幅提升。
  • CLIP 层映射存在低层↔高层权衡:对齐过早的层低层指标略好但语义掉,过晚的层语义同质化,中间偏深的 {12,16,20,24} 最优。
  • 由粗到细方向不能反:反转成先细后粗后 CLIP 掉 1.1 个点,但模型没有崩溃,说明尺度自回归 + 注意力本身有韧性,能部分补偿次优引导。
  • 确定性优势:从 fMRI 特征直接初始化(而非随机噪声),四次重复试验结果几乎一致,而扩散基线 MindBridge 跨试验颜色外观大幅漂移。

亮点与洞察

  • 范式迁移而非局部改进:第一个把"next-scale prediction"的视觉自回归(VAR)系统性引入 fMRI-to-image,并论证它比扩散更契合大脑信号的层级性——尺度即天然控制点。
  • 认知对齐有据可循:把神经科学的"Forest before Trees"(Navon 1977)全局先于局部的感知原理,落成了"深层特征播种小尺度、浅层特征精修大尺度"的计算框架,而非生搬硬套。
  • 三重平衡:在语义保真、确定性稳定、推理速度三者间建立了少见的平衡,把 fMRI 解码从离线分析推向了实时脑机接口的可能性。
  • 效率来源清晰:层级编码器一次前向出全部特征 + 自回归把绝大部分算力压到低分辨率尺度,两点共同带来 4.67× 加速。

局限与展望

  • 低层结构指标非最优:在 PixCorr/SSIM 等像素级低层指标上不及 MindEye2 等扩散方法,需要借辅助低层特征(†)才能追平;说明 VAR 路线在精确纹理/像素对齐上仍有差距。
  • 强依赖 CLIP 层级先验:整个层级监督建立在"CLIP 浅层=细节、深层=语义"的假设上,映射函数 \(g_m\) 是手工设计的超参,换 backbone 或换层映射都要重新调。
  • 仅在 NSD 单一数据集验证:只测了 NSD 的 4 个完成全部扫描的受试者,跨数据集、跨被试泛化与真正在线的实时 BCI 场景尚未验证。
  • 两阶段非端到端:编码器与生成器分阶段训练、编码器冻结,未探索联合优化能否进一步提升。

相关工作与启发

  • fMRI-to-image 谱系:从早期手工特征/稀疏回归 → VAE/GAN 的像素级重建 → IC-GAN/StyleGAN 隐空间 → 当前 LDM+CLIP 的语义引导主流;MindHier 是对"CLIP 单向量固定引导"这条主线的正面反思。
  • 视觉自回归(VAR, Tian et al. 2024):本文的方法基座,"next-scale prediction" + 多尺度残差 VQ-VAE 把图像变成 token 金字塔;MindHier 把它从纯生成迁到了条件脑解码,且生成器用 Switti 预训练初始化。
  • 启发:对任何"用一个固定 embedding 引导多阶段生成"的任务(文本到图像、可控生成等),这篇提示了一个通用思路——把条件信号也做成层级/尺度对齐的,让 condition 的粒度随生成阶段动态切换,可能比单一全局 condition 更高效也更可控。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 VAR 尺度自回归引入 fMRI 解码并配套层级对齐 + 尺度感知引导,是有说服力的范式切换,而非增量调参。
  • 实验充分度: ⭐⭐⭐⭐ 主实验 + 三组诊断实验(层级监督/层映射/引导方向)逻辑闭环,跨被试取均值且带方差;扣分在仅 NSD 单数据集、低层指标需辅助特征追平。
  • 写作质量: ⭐⭐⭐⭐ "森林先于树木"的认知隐喻贯穿全文、动机—方法—实验对应清晰,图 2 流程与公式互证。
  • 价值: ⭐⭐⭐⭐ 4.67× 加速 + 确定性重建把脑解码推向实时 BCI,对脑机接口与生成式神经解码方向有较强实用与启发价值。