D\(^2\)-FOSA: Dual-Diffusion Guided EEG-to-Image Reconstruction with Frequency-Oriented Semantic Alignment¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（源码随补充材料提供）
领域: 医学图像 / 脑机接口（EEG 视觉解码）
关键词: EEG-to-Image、脑机接口、频率感知 Mamba、跨模态对齐、双向扩散

一句话总结¶

D2-FOSA 用一个「频率感知的状态空间编码器 FOMamba」把噪声大、低信噪比的 EEG 信号编码成判别性强的脑电嵌入，再用一对对称的「双向扩散生成器 DDLG」在 CLIP 共享潜空间里强制 EEG↔图像的循环一致对齐，最后经 IP-Adapter + SDXL 渲染出图像；在 THINGS-EEG 重建任务上 FID 比同期的 MB2C 低 17 以上。

研究背景与动机¶

领域现状：从非侵入式 EEG 中解码视觉感知是脑机接口（BCI）的核心目标之一。当前主流做法是把 EEG 编码到 CLIP 视觉语义空间，用对比学习对齐脑电与图像特征，再把对齐后的脑电嵌入当作条件喂给扩散模型生成图像。常用编码器从早期的 CNN（EEGNet）、RNN 演化到 GNN、Transformer，以及最近的状态空间模型 Mamba。

现有痛点：作者指出两个被长期忽视的问题。其一，主流 EEG 编码器是「频率无关（frequency-agnostic）」的，它们把信号当成一般时序处理，却没有显式刻画视觉认知所依赖的特定频段神经振荡（如 Beta 13–30 Hz、Gamma 30–60 Hz）——而这些振荡恰恰是从低信噪比脑电里提取判别信息的关键。其二，单纯用对比损失做 EEG–图像对齐只能拉近高层语义，得到的是一种「弱对齐」：对检索任务尚可，但跨越巨大的模态鸿沟去做高保真生成时，结构一致性不够，生成图像保真度差。

核心矛盾：EEG 是一种由多个衰减振荡模式叠加而成的振荡信号，而标准 SSM/Mamba 的对角状态矩阵只能建模独立衰减、无法表达「耦合的振荡」结构；同时，判别式对比对齐与生成式高保真这两个目标之间存在张力——只优化对比，潜空间缺乏可生成性。

本文目标：(1) 让编码器显式建模、并放大任务相关频段的神经振荡；(2) 让 EEG–图像对齐既判别性强又可生成（双向、双射）。

切入角度：把状态空间模型的状态矩阵从「对角」改造成「分块对角的 2×2 振荡块」，每块对应一个复共轭特征对（damping + 频率），从而把「频率」变成可学习、可调的显式参数；同时把扩散模型从「最终生成解码器」重新定位为「潜空间里的循环一致正则器」。

核心 idea：用频率导向的 FOMamba 替代频率无关的编码器来抓振荡，用双向扩散的循环一致约束替代单纯对比来做跨模态对齐。

方法详解¶

整体框架¶

D2-FOSA 是一个端到端的 EEG→图像翻译框架，分训练与推理两条路。训练时：EEG 信号经 FSTDE 编码器得到脑电嵌入 \(X_e\)，配对图像经冻结的 CLIP ViT 得到图像嵌入 \(X_i\)，两者先用 InfoNCE 对比损失拉到同一语义空间；与此同时，DDLG（双扩散潜空间生成器）用两个对称模块 E2I-DLG（EEG→图像）和 I2E-DLG（图像→EEG）在潜空间内互相重建对方的嵌入，强制循环一致，作为强正则把两个模态的潜空间「绑紧成双射」。推理时只走前向：FSTDE 把 EEG 编码成 \(X_e\)，DDLG 通过反向扩散把它翻译成图像嵌入 \(X_i\)，再把 \(X_i\) 作为条件喂给 IP-Adapter，驱动预训练 SDXL 渲染出最终像素图像。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["EEG 信号"] --> B["FSTDE 编码器<br/>FOMamba→GCN→时空卷积→MLP"]
    IMG["配对图像"] --> C["冻结 CLIP ViT"]
    B --> XE["EEG 嵌入 Xe"]
    C --> XI["图像嵌入 Xi"]
    XE -->|InfoNCE 对比对齐| XI
    XE --> D["DDLG 双扩散<br/>E2I + I2E 循环一致"]
    XI --> D
    D -->|"推理: Xe→Xi"| E["IP-Adapter + 预训练 SDXL"]
    E --> F["重建图像"]

关键设计¶

1. FOMamba：把状态空间模型改造成显式建模神经振荡的频率导向 Mamba

痛点很直接：EEG 是多个「衰减振荡模式」叠加出来的信号，而标准 SSM 用对角状态矩阵 \(A\)，只能描述彼此独立的指数衰减，抓不住振荡的耦合本质，于是编码器对 Beta/Gamma 这类关键频段「视而不见」。FOMamba 的做法是把 \(A\) 结构化成分块对角矩阵，每个 \(2\times2\) 子块 \(A_k\) 显式编码一个衰减振荡模式：

\[A_k = \begin{pmatrix} -\rho_k & -\omega_k \\ \omega_k & -\rho_k \end{pmatrix}\]

其中 \(\rho_k>0\) 是阻尼因子、\(\omega_k>0\) 是角频率，对应一对复共轭特征值 \(\lambda_k=-\rho_k\pm j\omega_k\)——这正好就是一个「以 \(\omega_k\) 振荡、以 \(\rho_k\) 衰减」的神经振子。为了让模型自适应不同频段，作者给每个模式加一个可学习的对数频率偏置 \(F_{\log,k}\) 来动态调频：\(\tilde{\omega}_k=\mathrm{softplus}(\omega_k+F_{\log,k})\)。离散化时用可学习步长 \(\Delta t\)，对 \(A_k\) 做精确的矩阵指数 \(e^{A_k\Delta t}\)，得到优雅的闭式解：

\[A_{d,k} = e^{-\rho_k\Delta t}\begin{pmatrix} \cos(\tilde{\omega}_k\Delta t) & -\sin(\tilde{\omega}_k\Delta t) \\ \sin(\tilde{\omega}_k\Delta t) & \cos(\tilde{\omega}_k\Delta t) \end{pmatrix}\]

这个离散矩阵恰好是「旋转（振荡）× 指数衰减」，完美保留了振荡动力学；随后用 Mamba 的硬件高效选择性扫描在分块对角 \(A_d=\mathrm{blkdiag}(A_{d,k})\) 上更新隐状态。为什么有效：频率谱分析（PSD）显示，FOMamba 相比基线 Mamba 会选择性放大 Beta/Gamma 频段的能量，而不是像普通 Mamba 那样无差别压制高频——也就是说它学会了「增强任务相关频率」，这是消融里 FOMamba 单独就能把 Top-1 从 Mamba 的 27.75% 拉到 31.18% 的根本原因。

2. FSTDE：在 FOMamba 之上叠加图结构与时空建模的三级脑电编码器

只有时序频率建模还不够——EEG 是多通道电极信号，通道之间有空间拓扑关系。FSTDE（Frequency-Spatio-Temporal Dynamics Encoder）把三件事串成层级管线：先用若干 FOMamba 块抓振荡时序得到 \(H_t\)；再用 Neural Graph Structure Extractor 把电极按 10-20 系统天然构成的图 \(G\) 拿来，用 GCN 在通道间传播信息 \(H_s=\sigma(D^{-1/2}AD^{-1/2}H_tW^{(l)})\)（\(A\) 是邻接矩阵、\(D\) 是度矩阵），融合相邻通道的空间信息；最后用一个受 EEGNet 启发、由深度可分离卷积构成的 Spatio-Temporal Feature Extractor 抓局部时空模式，flatten 后经门控 MLP 投影成最终嵌入 \(X_e\in\mathbb{R}^d\)。三级分别覆盖「频率振荡 → 通道拓扑 → 局部时空」，互补地把低信噪比原始脑电压成一个判别性强、对噪声鲁棒的嵌入，供下游对齐使用。

3. DDLG：用双向扩散的循环一致约束替代单纯对比，做「双射级」跨模态对齐

对比损失只拉近高层语义、缺乏细粒度结构对齐，跨越 EEG↔图像的大模态鸿沟时不够。DDLG（Dual Diffusion Latent Generator）的关键反转是：不把扩散当最终生成解码器，而把它当潜空间里的生成式正则器。它由两个对称模块组成——E2I-DLG 以 EEG 嵌入 \(X_e\) 为条件 \(c\)、从高斯噪声去噪重建图像嵌入 \(X_i\)；I2E-DLG 反过来从图像重建 EEG。每个模块的核心是条件反向过程

\[p_\theta(z_{t-1}\mid z_t, c) = \mathcal{N}\big(z_{t-1}; \mu_\theta(z_t, c, t), \sigma_t^2 I\big)\]

均值函数 \(\mu_\theta\) 用 U-Net 实现，通过 FiLM 层把条件嵌入（\(X_e\) 或 \(X_i\)）注入网络。这种对称双路设计强制 EEG 与图像嵌入不仅「判别上相似」、还要「生成上互相可重建」，等价于在两个潜空间之间建立一个紧致、双射的对应——把对齐从弱对齐升级成结构一致的强对齐。为什么有效：消融显示，单向 DDLG（仅 E2I）已有收益，而完整双向 DDLG 把 FOMamba 的 Top-1 从 31.18% 进一步推到 37.96%，证明循环一致约束才是学到「既能检索又能生成」潜空间的关键。

损失函数 / 训练策略¶

总目标由对比对齐损失与双向扩散损失组成。对比项用 InfoNCE 把配对的 EEG–图像拉近、错配推远（\(\tau\) 为可学习温度）：

\[\mathcal{L}_{align} = -\log \frac{\exp(\mathrm{sim}(X_e, X_i)/\tau)}{\sum_j \exp(\mathrm{sim}(X_e, X_i^j)/\tau)}\]

双向扩散项是标准 DDPM 噪声预测误差，分别对 EEG→图像（条件 \(X_e\)、目标 \(X_i\)）和图像→EEG（条件 \(X_i\)、目标 \(X_e\)）：

\[\mathcal{L}_{E2I} = \mathbb{E}_{z_0\sim X_i,\,\epsilon,\,t}\big[\lVert \epsilon - \epsilon_\theta(\sqrt{\bar\alpha_t}z_0 + \sqrt{1-\bar\alpha_t}\epsilon,\, X_e,\, t)\rVert_2^2\big]\]

\(\mathcal{L}_{I2E}\) 形式相同、把 \(X_e\) 与 \(X_i\) 角色互换。总损失 \(\mathcal{L}_{total}=\mathcal{L}_{align}+\lambda_{E2I}\mathcal{L}_{E2I}+\lambda_{I2E}\mathcal{L}_{I2E}\)，实验中 \(\lambda_{E2I}=\lambda_{I2E}=0.5\)。实现上：FSTDE 串 3 个 FOMamba 块 + 两层 GCN + EEGNetV4 风格特征提取 + 投影 MLP；阻尼因子 \(\rho_k\) 约束在 \([0.5, 0.995]\) 保证稳定；DDLG 用 5 块 MLP-U-Net、1000 步线性方差表；单卡 NVIDIA L40S，AdamW（weight decay \(10^{-2}\)），主框架学习率 \(10^{-4}\)、扩散模块 \(5\times10^{-5}\)，cosine 衰减，最多 1000 epoch 配早停。

实验关键数据¶

主实验¶

在四个公开基准（THINGS-EEG、THINGS-MEG、EEGCVPR40、EEGImageNet）上评估零样本检索与图像重建。

THINGS-EEG 200-way 零样本检索（10 受试者平均，Top-1/Top-5 %）：

设置	方法	年份	Top-1	Top-5
Intra-subject	MB2C	2024	28.5	60.4
Intra-subject	VE-SDN	2025	37.2	69.9
Intra-subject	D2-FOSA	2025	38.0	70.7
Inter-subject	MB2C	2024	11.9	32.0
Inter-subject	UBP	2025	12.4	33.4
Inter-subject	D2-FOSA	2025	13.1	34.6

跨基准检索（部分，Top-1/Top-5 %）：THINGS-MEG intra 27.5/55.7（UBP 26.7/55.2）；EEGImageNet 31.05/63.10（MB2C 29.65/61.30）；EEGCVPR40(raw) 89.20/98.35（MB2C 88.73/98.24）。

THINGS-EEG 图像重建质量（Table 3）：

方法	IS ↑	FID ↓	KID ↓	SSIM ↑	PCC ↑
MB2C	10.19	163.94	0.027	0.333	0.188
D2-FOSA	11.81	146.33	0.025	0.350	0.193

FID 从 163.94 降到 146.33（降幅 >17），即摘要所称「比同期 MB2C 低 17 FID」，所有分布类（IS/FID/KID）与像素类（SSIM/PCC）指标全面领先。

消融实验¶

THINGS-EEG 上拆解骨干编码器与 DDLG（× 无 DDLG，† 仅 E2I 单向，✓ 完整双向）：

编码器	DDLG	200-way Top-1	200-way Top-5
Transformer	×	25.30	57.20
Mamba	×	27.75	58.45
FOMamba	×	31.18	63.73
FOMamba	† (单向)	35.36	67.46
FOMamba	✓ (双向)	37.96	70.67

关键发现¶

两个组件各自贡献都大且互补：仅换编码器（无 DDLG），FOMamba 31.18% 远超 Mamba 27.75% 与 Transformer 25.30%，说明频率感知本身就显著提分；在固定 FOMamba 下，加双向 DDLG 又从 31.18% 拉到 37.96%，说明循环一致对齐是第二大增益来源。
双向 > 单向：单向 DDLG（仅 E2I）已有收益，但完整双向在所有骨干上都给出最大提升，验证「双射式」对齐的必要性。
FOMamba 的机制可视化证据：PSD 与时频差分图显示它净增强 Beta/高 Gamma 频段（普通 Mamba 反而压制高频），说明提分来自「放大任务相关频率」而非笼统降噪。
阻尼边界敏感性：\(\rho_{max}=0.995\)（接近 1 但避开 1.0 的不稳定）、\(\rho_{min}\approx0.5\)–\(0.7\) 时检索精度最优，即模型偏好「慢衰减、长依赖」的振荡模式。

亮点与洞察¶

把「频率」做成 SSM 里的显式可学习参数：用 2×2 复共轭振荡块 + 可学习对数频率偏置，把神经振荡从「希望网络隐式学到」变成「结构上写死、再让它调频」，并给出离散化闭式解。这套「振荡块 SSM」思路可迁移到任何含周期/振荡结构的时序（如语音、生理信号、传感器周期信号）。
扩散模型角色的重新定位：从「最终生成解码器」变成「潜空间里的循环一致正则器」，这是很可复用的设计哲学——当两个模态需要强对齐而非仅相似时，用双向生成重建当正则，比单纯对比更能逼出结构一致的双射潜空间。
判别与生成一举两得：DDLG 让同一套嵌入既利于检索又利于生成，避免了「为检索训一套、为生成再训一套」的割裂。

局限与展望¶

作者自承的局限：计算效率（双扩散 + 1000 步 + SDXL 渲染，开销不低）与跨受试者泛化（inter-subject 绝对精度仍很低，Top-1 仅 13.1%，远低于 intra 的 38.0%）。未来计划用更自适应的解码策略与多受试者训练范式改善。
自己发现的局限：重建保真度虽 SOTA 但绝对值仍有限（FID 146、SSIM 0.35），离「忠实复原所见图像」还远；评测主要在 ImageNet 类目级别语义上，细粒度实例还原能力存疑。生成部分依赖冻结的 CLIP + 预训练 SDXL，端到端可优化空间受限于这两个外部模块。
DDLG 的双向扩散在潜空间操作，训练时引入两条扩散路 + 平衡系数（\(\lambda=0.5\) 经验设定），其对超参与噪声表的鲁棒性未充分展开。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 振荡块 SSM（FOMamba）+ 双向扩散当对齐正则（DDLG）两处反直觉设计都很扎实
实验充分度: ⭐⭐⭐⭐ 四基准 + 检索/重建双任务 + 编码器×DDLG 双轴消融 + 频谱机制可视化，唯 inter-subject 仍弱
写作质量: ⭐⭐⭐⭐ 动机—机制—证据链条清晰，公式与可视化到位
价值: ⭐⭐⭐⭐ 在 EEG 视觉解码上推进 SOTA，FOMamba 与「扩散即正则」思路有较好迁移性