Autoregressive Visual Decoding from EEG Signals¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=TKjfzuVLX4
代码: https://github.com/ddicee/avde
领域: 脑机接口 / EEG 视觉解码 / 自回归图像生成
关键词: EEG-to-Image, 视觉解码, LaBraM, 下一尺度预测(VAR), 对比学习, 脑机接口

一句话总结¶

AVDE 把"EEG 信号解码成图像"重写成一个两阶段、自回归的轻量流程：先用预训练 EEG 大模型 LaBraM 配合对比学习把脑电对齐到 CLIP 图像空间，再用 VAR 的"下一尺度预测"从 EEG 嵌入出发逐级生成图像，只用 10% 的参数就在检索和重建两项任务上超过了此前依赖大扩散模型的 SOTA。

研究背景与动机¶

领域现状: 从非侵入式脑信号解码视觉内容是认知科学与生成式 AI 的交叉前沿。fMRI 解码精度高但慢、贵、设备受限；EEG 因毫秒级时间分辨率、便携、低成本成为更可部署的替代品，近期工作（ATM、NICE 等）已在图像检索和重建上展现潜力。
现有痛点: 主流 EEG 视觉解码沿用 unCLIP 范式——EEG 编码器 → 扩散先验 → Stable Diffusion 的多阶段流水线（图 1 是五阶段）。三个硬伤：① 串行多阶段会逐级累积误差，损害重建保真度；② EEG 编码器多是从零训练，少量图文对难以从高噪声脑电中抽到好特征；③ 扩散模型动辄 30 亿参数，算力/显存开销让实时 BCI 不现实。
核心矛盾: EEG 是高噪声、低信息密度的一维时序信号，而图像是结构化的高维视觉内容，二者分布鸿沟巨大；要弥合它就得堆复杂多阶段管线，但管线越复杂越不可控、越不可部署——保真度 vs 简洁可部署难以两全。
本文目标: 用一个直接、连贯、轻量的框架替代多阶段扩散管线，既保住 EEG 与图像之间的直接映射关系，又把参数和推理成本压到可实际部署的量级。
核心 idea: 【迁移预训练 EEG 表示】 用在 2000+ 小时脑电上预训练的 LaBraM 替代从零训练的编码器；【自回归下一尺度预测替代扩散】 借 VAR 框架把 EEG 嵌入当作图像的"最粗尺度"，用一个 transformer 由粗到细自回归生成，让生成过程天然对齐人脑由低级到高级的层级视觉感知。

方法详解¶

整体框架¶

AVDE 是清晰的两阶段流程。阶段一做"对齐"：用预训练 LaBraM 编码 EEG、冻结 CLIP 编码图像，靠对比+回归联合目标把脑电拉进图像表示空间，得到一个信息量充足的 EEG 嵌入。阶段二做"生成"：把这个 EEG 嵌入作为最粗尺度的起点 token [s]，喂给一个 decoder-only transformer，按"下一尺度预测"自回归地预测 VQ-VAE 多尺度残差图，由粗到细逐级累积成完整特征图，再由 VQ-VAE 解码器还原成图像。

flowchart LR
    EEG[EEG 信号<br/>C×T] --> LaBraM[LaBraM 编码器<br/>预训练+对比微调]
    IMG[图像] --> CLIP[冻结 CLIP] 
    LaBraM -. 阶段1 CLIP+MSE 对齐 .- CLIP
    LaBraM --> EMB[EEG 嵌入 e]
    EMB --> PROJ["投影为起始 token [s]"]
    PROJ --> VAR[VAR Transformer<br/>下一尺度预测]
    VAR --> R["逐级残差 R1→R2→…→RK"]
    R --> VQ[VQ-VAE 解码器]
    VQ --> OUT[重建图像]

关键设计¶

1. 用预训练 LaBraM 取代从零训练的 EEG 编码器：把脑电特征抽取站在巨人肩上。 EEG 视觉解码长期受制于"图文对太少、信号太噪"，编码器从零训练很难收敛到好特征。AVDE 改用 LaBraM——一个在 2000+ 小时、跨多数据集多采集条件的脑电上预训练的模型。它的编码流程是：把 \(X \in \mathbb{R}^{C\times T}\)（通道×时间）在时间维按非重叠窗口 \(w\) 切 patch，经卷积块（1D 卷积+组归一化+GELU）抽局部时序特征 \(e_{c_j,k}\in\mathbb{R}^d\)，再加上可训练的时间嵌入 \(te_k\) 与空间嵌入 \(se_j\) 注入时空上下文，最后用 Transformer 编码器整合整段 EEG 的跨时间、跨通道依赖。这种迁移学习让编码器在跨被试时也能泛化、抽到语义有意义的特征，是后续生成质量的根基。

2. 对比+回归联合对齐：既要结构对齐又要点对点精度。 LaBraM 原本主要在临床脑电上预训练，并非针对视觉刺激响应，所以要微调到图像空间。给定配对 EEG-图像，LaBraM 编 EEG 得 \(e\)、冻结 CLIP 编图像得 \(z\)，用双向对比损失把对应对拉近、非对应对推远：\(L_{CLIP} = -\frac{1}{B}\sum_i \big(\log\frac{\exp(s(e_i,z_i)/\tau)}{\sum_j \exp(s(e_i,z_j)/\tau)} + \log\frac{\exp(s(e_i,z_i)/\tau)}{\sum_k \exp(s(e_k,z_i)/\tau)}\big)\)，其中 \(s\) 是余弦相似度、\(\tau\) 是可学习温度。但纯对比只管"相对排序"不管"绝对位置"，于是再叠一个直接回归项：\(L_{Combined} = \lambda L_{CLIP} + (1-\lambda) L_{MSE}\)（\(\lambda=0.8\)）。对比负责把脑电结构性地放进图像流形，MSE 负责点对点把它钉到对应图像嵌入附近，二者合起来训练更稳、映射更准。

3. 下一尺度预测的自回归生成：用 VAR 把"由粗到细"做成天然的脑视觉隐喻。 抛弃多阶段扩散，AVDE 借 VAR 思路：预训练 VQ-VAE 把图像量化成 \(K\) 个分辨率递增的多尺度残差图 \((R_1,\dots,R_K)\)，累积上采样即可逐级重建特征图 \(F_k = \sum_{i=1}^k \mathrm{up}(R_i,(h,w))\)。一个 decoder-only transformer 以 EEG 嵌入 \(e\) 为条件自回归预测这些残差：\(p(R_1,\dots,R_K)=\prod_{k=1}^K p(R_k\mid R_1,\dots,R_{k-1},e)\)。具体地，\(e\) 先投影成起始 token [s] 启动生成，每个尺度 \(k\) 用上一累积图的下采样版 \(\tilde F_{k-1}=\mathrm{down}(F_{k-1},(h_k,w_k))\) 作输入；训练用 block-wise 因果注意力掩码保证只看合法上下文、用交叉熵监督；推理则从 EEG 嵌入起逐级自回归到最高分辨率，再交给 VQ-VAE 解码器出图。关键在于：EEG 嵌入就是图像"最粗的那一层"，整条生成链与脑电输入直接相连、误差不再跨阶段累积，而由粗到细的过程恰好镜像了人脑从 V1（边缘/色彩）→ V2/V4（轮廓/结构）→ IT（整体物体）的层级视觉感知。

实验关键数据¶

数据集：THINGS-EEG（10 被试、1654 概念训练 / 200 概念测试、RSVP 范式、63 通道）为主，EEG-ImageNet 为补充。任务：200-way 零样本检索 + 图像重建。

主实验表格（200-way 零样本检索，Top-1/Top-5 平均）¶

方法	被试内 Top-1	被试内 Top-5	跨被试 Top-1	跨被试 Top-5
EEGNetV4	0.186	0.441	0.089	0.224
NICE	0.242	0.512	0.113	0.273
ATM (Li et al. 2024)	0.269	0.548	0.115	0.280
AVDE (Ours)	0.300	0.582	0.143	0.329

重建质量（Subject-08）：

方法	PixCorr↑	SSIM↑	AlexNet(5)↑	Inception↑	CLIP↑	SwAV↓
Li et al. 2024	0.160	0.345	0.866	0.734	0.786	0.582
CognitionCapturer	0.175	0.366	0.610	0.721	0.744	0.577
AVDE	0.188	0.396	0.889	0.765	0.795	0.557

效率对比（单 A100，batch=1）：

方法	Params(M)	FLOPs(G)	推理时间(ms)	显存(MB)
Li et al. 2024	3818.1	8738.6	310.4	4826.7
AVDE	425.3	1350.5	91.2	1809.6

消融实验表格（各被试平均重建指标）¶

配置	PixCorr↑	SSIM↑	CLIP↑	SwAV↓
LaBraM+VAR（完整）	0.147	0.366	0.747	0.586
ATM+VAR（换编码器）	0.141	0.351	0.731	0.601
EEGNet+VAR（换编码器）	0.132	0.323	0.712	0.627
LaBraM+Li et al.（换 unCLIP）	0.138	0.346	0.726	0.606
LaBraM+LDM-4（换扩散）	0.139	0.343	0.731	0.609
LaBraM+DiT-XL/2（换扩散）	0.143	0.354	0.735	0.594

关键发现¶

参数砍 90%、推理快 3.4 倍、显存省 2.7 倍，同时检索/重建全面超 SOTA，证明轻量自回归路线对 BCI 实用性的价值。
消融显示编码器和生成框架都重要：换掉 LaBraM 或换回 unCLIP/扩散都会掉点，说明"预训练编码器 + 自回归生成"是协同的，不是单点贡献。
可解释性：可视化 10 个累积尺度的中间重建，早期出边缘/色彩（V1）、中期出轮廓结构（V2/V4）、后期出语义完整物体（IT），生成过程与人脑层级视觉感知高度对应；区域-尺度相关性分析进一步支持这一对应。

亮点与洞察¶

把范式从"多阶段扩散"切到"单链自回归"是最核心的洞察：EEG 嵌入直接当最粗尺度，让脑信号与图像在生成链上始终直连，从机制上消除了 unCLIP 流水线的跨阶段误差累积。
"下一尺度预测"与脑科学的契合不是事后包装——由粗到细的层级生成天然对应 V1→V2/V4→IT 的视觉通路，让模型既高效又具备神经可解释性，对认知科学研究也有工具价值。
充分利用预训练大模型（LaBraM + VAR 都用官方预训练权重初始化）是它能在小数据、高噪声场景做好的关键，给"EEG 数据稀缺"这一长期痛点提供了可复制的解法。

局限与展望¶

重建质量评测主要在检索最好的 Subject-08 上报告（沿用前人惯例），跨被试重建的绝对指标仍不高，个体差异/跨被试泛化仍是开放难题。
依赖 VQ-VAE 的多尺度离散 token 与 CLIP/CFG 等外部组件，生成多样性与细节上限受这些预训练模块约束；top-k=900、CFG=4.0 等也需调参。
论文聚焦 THINGS-EEG / EEG-ImageNet 的物体概念图像，对更复杂场景、动态视觉或真实 BCI 在线解码的适用性还需验证。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把 VAR 的"下一尺度预测"用于 EEG 视觉解码，并用 EEG 嵌入充当最粗尺度，范式切换干净且与脑科学契合，思路新颖。
实验充分度: ⭐⭐⭐⭐ 两数据集、检索+重建双任务、编码器/生成框架双重消融、效率与中间尺度可解释性分析齐全；扣分在跨被试重建绝对指标偏低、重建主报告集中在单一最佳被试。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰，公式与图示到位，神经科学类比讲得有画面感。
价值: ⭐⭐⭐⭐ 参数与推理成本大幅下降且效果更好，对可部署 BCI 有现实意义，并为 EEG 解码与脑视觉机制研究提供了高效可解释的新工具。