Moving Beyond Diffusion: Hierarchy-to-Hierarchy Autoregression for fMRI-to-Image Reconstruction¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=AT7hCh6HB7
代码: https://github.com/XuZhang2/MindHier
领域: 脑信号解码 / fMRI-to-Image 重建 / 视觉自回归生成
关键词: fMRI-to-Image、尺度自回归(VAR)、层级对齐、由粗到细、CLIP、NSD

一句话总结¶

MindHier 把 fMRI-to-image 重建从"扩散模型 + 单一静态引导"换成"尺度自回归(next-scale prediction) + 层级化神经引导"，让大脑信号按"先森林后树木"的层级逐尺度注入生成过程，在 NSD 上拿到 SOTA 语义指标的同时推理快 4.67×、结果还更确定性。

研究背景与动机¶

领域现状：从 fMRI 信号重建出受试者看到的图像，是连接计算机视觉与认知神经科学的核心任务。近几年的主流做法几乎全是扩散模型：把 fMRI 编码成一个 CLIP 空间里的神经嵌入，然后用这个嵌入作为"固定引导"，从高斯噪声一步步去噪还原出图像。

现有痛点：作者指出这种"单一静态引导"范式有两个根本缺陷。其一，fMRI 信号本身是层级化的——不同脑区分别编码粗粒度语义内容和细粒度感知细节，但现有方法把这种丰富的多层级信息坍缩成一个向量，信息严重浪费。其二，引导信号是时间不变的，而生成模型是多阶段动态过程：早期需要全局语义约束，后期需要精确的结构和纹理线索。固定引导在早期冗余、在后期不足，造成"表示"与"生成"之间的错配。雪上加霜的是，扩散模型本身能注入引导的控制点很有限。

核心矛盾：fMRI 的层级结构 + 生成的阶段性需求 ↔ 现有方法用一个固定向量贯穿全程，既丢了层级又对不上阶段。

本文目标：设计一个能在不同生成阶段注入不同层级神经特征的重建框架，让全局语义先建立、局部细节后精修。

核心 idea：用尺度自回归(VAR)替代扩散 —— VAR 的"next-scale prediction"天然提供了一串离散、可控的尺度（分辨率）控制点；再把 fMRI 编码成多层级特征，深层语义引导小尺度、浅层细节引导大尺度，使整个重建过程模拟人类感知的"森林先于树木"(Forest before Trees)层级原理。

方法详解¶

整体框架¶

MindHier 是一个两阶段训练的由粗到细重建框架。阶段一训练一个层级 fMRI 编码器(HFE)，把 fMRI 信号解耦成一组从全局语义到局部细节的多层级特征，并用层级对齐损失把它们对到冻结 CLIP 的不同层；阶段二冻结该编码器，微调一个尺度自回归生成器(基于 Switti/VAR 预训练)，通过带掩码的交叉注意力把不同层级的 fMRI 特征按"深层引导粗尺度、浅层引导细尺度"的方式注入 K 个尺度的生成。

flowchart TD
    A[fMRI 信号] --> B[层级 fMRI 编码器 HFE<br/>M 个级联 Transformer block]
    B --> E1[e1 浅层: 细节/Trees]
    B --> EM[eM 终端: 语义/Forest]
    subgraph S1[阶段一: 层级到层级对齐]
        E1 -.MSE.-> C1[CLIP 浅层特征]
        EM -.MSE+SoftCLIP.-> C2[CLIP 深层+文本]
    end
    subgraph S2[阶段二: 尺度感知由粗到细引导]
        EM ==> SC1[尺度1 小分辨率<br/>Start Token 播种森林]
        E1 ==> SCK[尺度K 大分辨率<br/>精修树木]
        SC1 --> AR[尺度自回归生成器]
        SCK --> AR
    end
    AR --> IMG[重建图像]

关键设计¶

1. 层级 fMRI 编码器(HFE)：把一团脑信号解耦成"森林到树木"的特征金字塔。 不同于把 fMRI 压成单个向量，HFE 用 $M$ 个级联的 Transformer block，把每个 block 的输出 $\{e_1,\dots,e_M\}$ 都当作层级表示的一部分。这里借用了 ViT 的既有规律——浅层处理局部信息、深层聚合全局信息：终端输出 $e_M$ 编码最抽象的全局语义("森林")，靠前的 $e_1,\dots$ 保留细粒度感知细节("树木")。一次前向就拿到整套层级特征，这也是后面推理高效的根源之一。

2. 层级到层级对齐(Hierarchy-to-Hierarchy Alignment)：用 CLIP 的层级当蓝图，逐层监督 HFE。 光有层级架构不够，还需要层级化的训练目标来"逼"编码器学到结构化分解。作者用两个互补损失联合优化。结构对齐用级联 MSE，把 HFE 第 $m$ 个 block 的输出 $e_m$ 与 CLIP 视觉编码器对应层 $v_{g_m}$ 做点对点对齐（特征都做 $\ell_2$ 归一化以稳定训练）： $$\mathcal{L}_{\text{MSE}}=\sum_{m=1}^{M}\big\|\ell_2(e_m)-\ell_2(v_{g_m})\big\|_2^2$$ 其中映射 $g_m=8+4m$ 把 fMRI 对到 CLIP ViT-L/14 的第 $\{12,16,20,24\}$ 层。语义对齐则给终端特征 $e_M$ 加一个 SoftCLIP 对比损失，在 CLIP 共享空间里同时对齐图像特征 $v$ 和文本 caption 特征 $t$，提供一个全局语义锚点： $$\mathcal{L}_{\text{SoftCLIP}}=-\frac{1}{B}\sum_{i=1}^{B}\Big[\log\frac{\exp(e_i\cdot v_i/\tau)}{\sum_j\exp(e_i\cdot v_j/\tau)}+\log\frac{\exp(e_i\cdot t_i/\tau)}{\sum_j\exp(e_i\cdot t_j/\tau)}\Big]$$ 这套"深层对深层"当蓝图先定布局、"浅层对浅层"当渲染器填纹理的自上而下对齐，是后续重建质量的关键。

3. 尺度感知由粗到细神经引导：把层级特征按分辨率精准灌进自回归。 VAR 把图像量化成 $K$ 个多尺度 token map $R=\{r_1,\dots,r_K\}$，每个位置查 $N{=}4096$ 的码本取最近码字，自回归分解为 $p(r_1,\dots,r_K)=\prod_k p(r_k|r_{<k})$。MindHier 的创新在于把每个尺度的条件换成尺度专属特征 $s_k$： $$p(R|E)=\prod_{k=1}^{K} p(r_k\mid r_{<k},\,s_k)$$ 引导按两个认知启发的阶段动态选取：播种"森林"($k{=}1$) 用最抽象的语义特征 $e_M$ 作为特殊 Start Token 来初始化最低分辨率尺度，给整张图定下连贯的全局基底；精修"树木"($1<k\le K$) 则在更高分辨率尺度上通过多头交叉注意力逐步注入细节特征 $s_k=e_{h_k}$，索引 $h_k=M-\lfloor M(k-1)/K\rfloor$ 巧妙地把靠前 block 的细节特征对到靠后的生成阶段。工程上用一个选择性注意力掩码实现：粗尺度只允许 attend 深层语义特征、细尺度只 attend 浅层细节特征。最后把各尺度量化向量求和 $\hat{f}=\sum_k \text{lookup}(Z,\hat r_k)$ 再经解码器 $D$ 得到图像 $\hat I$，整体用交叉熵预测真值 token map 训练。

实验关键数据¶

主实验（NSD 新测试集，跨 Subject 1/2/5/7 平均）¶

方法	PixCorr↑	SSIM↑	Incep↑(%)	CLIP↑(%)	Eff↓	SwAV↓	推理(s)↓
Takagi[CVPR23]	0.246	0.410	83.8	82.1	0.811	0.504	15.08
MindBridge[CVPR24]	0.151	0.263	92.4	94.7	0.712	0.418	15.98
Wills Aligner[AAAI25]	0.271	0.328	94.3	94.8	0.649	0.373	-
MindHier (Ours)	0.235	0.381	95.9	96.4	0.606	0.329	2.64
†MindEye2[ICML24]	0.322	0.431	95.4	93.0	0.619	0.344	12.14
†MindHier (Ours)	0.326	0.461	95.9	95.4	0.613	0.345	2.64

(† 表示额外用了 MindEye2 的辅助低层特征。)在高层语义指标(Incep/CLIP/Eff/SwAV)上全面 SOTA，推理时间 2.64s 相比 MindEye2 的 12.14s 快 4.67×。

诊断实验（Subject 1）¶

编码器设计	CLIP↑	SwAV↓	结论
Single Feature(单特征)	95.1%	0.346	基线
Hierarchical(仅终端监督)	95.4%	0.339	小幅提升
Hierarchical(全级联监督)	97.2%	0.321	层级 + 逐层监督缺一不可

CLIP 层映射	CLIP↑	PixCorr↑	结论
$g_m{=}16{+}2m$	95.4%	0.226	太晚→语义同质、缺辨识度
$g_m{=}6m$	94.8%	0.283	太早→低层略好、语义降
$g_m{=}8{+}4m$ {12,16,20,24}	97.2%	0.273	中间偏深最平衡

引导方向	CLIP↑	SwAV↓
由粗到细(Coarse-to-Fine)	97.2%	0.321
反转(Fine-to-Coarse)	96.1%	0.330

关键发现¶

层级 + 逐层监督是核心增益：从单特征到全级联监督，CLIP 从 95.1%→97.2%，证明只有架构没有逐 block MSE 监督只能拿到小幅提升。
CLIP 层映射存在低层↔高层权衡：对齐过早的层低层指标略好但语义掉，过晚的层语义同质化，中间偏深的 {12,16,20,24} 最优。
由粗到细方向不能反：反转成先细后粗后 CLIP 掉 1.1 个点，但模型没有崩溃，说明尺度自回归 + 注意力本身有韧性，能部分补偿次优引导。
确定性优势：从 fMRI 特征直接初始化（而非随机噪声），四次重复试验结果几乎一致，而扩散基线 MindBridge 跨试验颜色外观大幅漂移。

亮点与洞察¶

范式迁移而非局部改进：第一个把"next-scale prediction"的视觉自回归(VAR)系统性引入 fMRI-to-image，并论证它比扩散更契合大脑信号的层级性——尺度即天然控制点。
认知对齐有据可循：把神经科学的"Forest before Trees"(Navon 1977)全局先于局部的感知原理，落成了"深层特征播种小尺度、浅层特征精修大尺度"的计算框架，而非生搬硬套。
三重平衡：在语义保真、确定性稳定、推理速度三者间建立了少见的平衡，把 fMRI 解码从离线分析推向了实时脑机接口的可能性。
效率来源清晰：层级编码器一次前向出全部特征 + 自回归把绝大部分算力压到低分辨率尺度，两点共同带来 4.67× 加速。

局限与展望¶

低层结构指标非最优：在 PixCorr/SSIM 等像素级低层指标上不及 MindEye2 等扩散方法，需要借辅助低层特征(†)才能追平；说明 VAR 路线在精确纹理/像素对齐上仍有差距。
强依赖 CLIP 层级先验：整个层级监督建立在"CLIP 浅层=细节、深层=语义"的假设上，映射函数 $g_m$ 是手工设计的超参，换 backbone 或换层映射都要重新调。
仅在 NSD 单一数据集验证：只测了 NSD 的 4 个完成全部扫描的受试者，跨数据集、跨被试泛化与真正在线的实时 BCI 场景尚未验证。
两阶段非端到端：编码器与生成器分阶段训练、编码器冻结，未探索联合优化能否进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐ 把 VAR 尺度自回归引入 fMRI 解码并配套层级对齐 + 尺度感知引导，是有说服力的范式切换，而非增量调参。
实验充分度: ⭐⭐⭐⭐ 主实验 + 三组诊断实验(层级监督/层映射/引导方向)逻辑闭环，跨被试取均值且带方差；扣分在仅 NSD 单数据集、低层指标需辅助特征追平。
写作质量: ⭐⭐⭐⭐ "森林先于树木"的认知隐喻贯穿全文、动机—方法—实验对应清晰，图 2 流程与公式互证。
价值: ⭐⭐⭐⭐ 4.67× 加速 + 确定性重建把脑解码推向实时 BCI，对脑机接口与生成式神经解码方向有较强实用与启发价值。

CLIP 层映射	CLIP↑	PixCorr↑	结论
\(g_m{=}16{+}2m\)	95.4%	0.226	太晚→语义同质、缺辨识度
\(g_m{=}6m\)	94.8%	0.283	太早→低层略好、语义降
\(g_m{=}8{+}4m\) {12,16,20,24}	97.2%	0.273	中间偏深最平衡