Cross-Subject EEG-to-Video Reconstruction and Beyond¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频生成 / 脑信号解码（EEG-to-Video）
关键词: EEG-to-Video、跨被试、对抗域对齐、脑区时序编码、新被试泛化

一句话总结¶

针对"不同被试的 EEG 语义分布天然不一致"导致跨被试视频重建崩溃的问题，本文提出 SAM-Net：用脑区+多尺度时序的 HRT 编码器提语义、用"以中心被试为起点、由近及远逐个加入的渐进式对抗（C-SA）"把所有被试拉到统一表征、再用 New2Source Mapper 把新被试 EEG 映射到已知被试分布，最后以关键帧引导的 SparseCtrl 生成连贯视频，在 SEED-DV 上的跨被试与新被试场景都优于 EEG2Video / DynaMind。

研究背景与动机¶

领域现状：从脑信号重建视觉内容主要走 fMRI 和 EEG 两条路。EEG 设备便携、廉价、时间分辨率高，更适合重建"动态"视觉内容。前作 EEG2Video 构建了 SEED-DV 数据集并首次打通 EEG→视频，DynaMind 进一步通过显式建模脑区交互和时序动态提升时间一致性。

现有痛点：这些方法几乎都在单被试（Single-Subject）设定下训练和评测——给每个被试单独训一套，换个人就崩。根本障碍是 EEG 信号存在严重的被试间差异：同样的视觉刺激，不同人因生理差异、采集时电极摆放/设备配置不同、以及各种杂散噪声，诱发出的 EEG 语义分布差别很大（论文 Fig.1-a 的 T-SNE 里不同被试各自聚成一团）。此外现有方法常常缺少对脑先验的显式建模（脑区功能分化、神经动态的多尺度性），抓不住分布在特定脑区、特定时间尺度上的细粒度神经模式。

核心矛盾：要做跨被试，就得有一套对所有被试统一、且能泛化到全新被试的 EEG 语义表征；但被试间分布漂移巨大，而新被试又面临"分布更陌生 + 数据极度稀缺（EEG 采集昂贵耗时）"的双重困境。已有跨被试思路要么给每个被试配一个专属编码分支（被试一多就爆）、要么靠多专家/记忆库存异质信息（存储和算力开销大、且多为 fMRI 设计、忽视 EEG 时序），要么像情绪识别里那样把所有被试逼近一个"目标被试"——但目标被试随机或人工指定，一旦选到一个有歧义的被试，整体对齐就跑偏。

本文目标：拆成三个子问题——(1) 怎么从 EEG 提到鲁棒、带脑先验的时空语义；(2) 怎么把多个已知被试统一到一个稳定表征、且不依赖一个拍脑袋指定的目标被试；(3) 怎么在数据稀缺下让模型快速适配新被试、又不破坏已知被试的已学表征。

切入角度 + 核心 idea：与其随机指定对齐目标，不如先算出最能代表整个群体的"中心被试"，再让其他被试由近及远逐个加入对抗训练（C-SA）；新被试不去 fine-tune 整个模型（会扰动已知被试），而是只在编码阶段做新↔已知被试的语义互映射（New2Source）；生成端把 EEG 语义嫁接到关键帧可控的 SparseCtrl 上，桥接 EEG 与文本/视觉的模态鸿沟。

方法详解¶

整体框架¶

SAM-Net 的输入是 EEG 信号 \(E \in \mathbb{R}^{B \times C \times T}\)（批量、电极通道数、时间步），输出是两路对齐目标：对齐文本的 EEG-Text 嵌入 \(\mathcal{E} \in \mathbb{R}^{B \times 77 \times 768}\) 和对齐视频的 EEG-Visual latent \(L\)。监督信号来自把视频帧用 VAE 编码成 latent、把 BLIP 生成的视频描述用 CLIP 文本编码器编码成嵌入，让 HRT 编码器去对齐这两者。整条管线是：EEG（若来自新被试先过 New2Source Mapper）→ HRT 编码器提取脑区+多尺度时序语义（训练时叠加 C-SA 对抗）→ 得到 EEG-Text 嵌入与 EEG-Visual latent → 由 latent 解码出模糊首帧、经 I2I 精修成关键帧 → 关键帧+latent+嵌入一起喂给 SparseCtrl 这类 T2V 模型生成最终视频。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["EEG 信号 E<br/>(B×C×T)"] -->|新被试先经过| B["New2Source Mapper<br/>新被试→已知被试分布"]
    A -->|已知被试直接| C["HRT 编码器<br/>脑区语义 + 多尺度时序"]
    B --> C
    C --> D["C-SA 对抗机制<br/>中心被试起点·渐进对抗<br/>(仅训练期)"]
    D --> E["统一 EEG 语义<br/>EEG-Text 嵌入 E + EEG-Visual latent L"]
    E --> F["关键帧引导视频生成<br/>模糊首帧→I2I 精修→SparseCtrl"]
    F --> G["重建视频"]

关键设计¶

1. HRT 编码器：用脑区分区 + 多尺度时序，把脑先验显式塞进 EEG 表征

针对"现有方法不建模脑区功能分化和神经动态多尺度性、抓不住细粒度模式"这个痛点，HRT（Hybrid Region-Temporal）编码器分三步走。先做 EEG 增强抑制被试特异干扰：往信号注高斯噪声模拟被试间变异、逼模型忽略个体特异特征去抓跨人不变的刺激响应，再对电极通道做随机 dropout，整体为 \(E_{Augment} = \text{RD}(E + N(\mu, \sigma^2))\)。然后是 Region-guided 语义感知——神经科学表明不同脑区对不同视觉刺激（自然风景 vs 建筑 vs 快速运动物体）响应不同，且基于"区"比基于单个电极更鲁棒；先用电极注意力 \(W_{Electrode} = \sigma(\mathbb{L}(\text{ReLU}(\mathbb{L}(\mathcal{AP}(\mathcal{E}_{Augment})))))\) 给各电极加权，再按解剖位置把电极分到 额叶/顶叶/中央/颞叶/枕叶五个脑区，每区一个专属 extractor（Conv1D+GELU+BN+Dropout）提特征后拼接过线性层得 \(\mathcal{E}_{Spatial}\)。最后是 多尺度时序依赖感知：EEG 里"缓慢行走的人"和"快速行驶的车"占据的时间跨度差别很大，于是用可学习 Query（类似 BoQ）、对 Key 在时间维做多尺度 1D CNN \(K_{tem} = \|_{i \in \{5,11,21\}}[\text{Conv}_i(K)]\)，再过注意力 \(\mathcal{E}_{temporal} = \bigcirc_{l=1}^{L}\text{Transformer}[\text{Softmax}(\frac{Q^T \cdot K_{tem}}{\sqrt{d}}) \cdot V]\) 捕捉跨时间步的语义依赖。消融里枕叶（控视觉）影响最大、颞叶（控语言）次之，正好印证了脑区先验的合理性。

2. C-SA 中心化渐进式被试对抗：先找"中心被试"，再由近及远逐个拉齐

这是本文最核心的跨被试统一机制，针对"逼向随机/人工指定目标被试会跑偏"的痛点。第一步找中心被试：对每个被试算其 EEG 样本的平均特征 \(f_i = \frac{1}{n}\sum_{j=1}^n x_{ij}\)，用余弦距离 \(d(i,j) = 1 - \frac{f_i \cdot f_j}{\|f_i\|\|f_j\|}\) 度量被试间距离，把"与其他所有被试平均相似度最高"的那个选为中心被试 \(c^* = \arg\max_{i \in S}\{\frac{1}{|S|-1}\sum_{j \neq i}\text{sim}(i,j)\}\)——它的分布最能代表整个群体共性，从它出发比从随机被试出发稳得多。第二步渐进加入：初始集合 \(C_0 = \{c^*\}\)，每轮从剩余集合里选离当前已选集合最近的被试 \(r_t^* = \arg\min_{r \in R_t} d_{\min}(r, C_t)\) 加进来（由易到难），每加一个就把 \(C_t\) 喂进 HRT 训练，直到所有被试都加入。第三步对抗对齐：光靠渐进加入还消不掉个体差异，于是接一个梯度反转层 GRL + 被试分类器做域对抗——分类器用交叉熵 \(\mathcal{L}_{subject} = -\sum_{k=1}^K y_{ik}\log(\hat{y}_{ik})\) 努力预测样本来自哪个被试，而 GRL 在反传时把梯度乘 \(-\lambda\)（\(\frac{\partial \text{GRL}(f)}{\partial f} = -\lambda I\)），使 HRT 的实际优化目标变成最大化被试分类损失，即学到让分类器分不清来自谁的被试不变表征，从而压平 latent 空间里的被试间分布差异。消融里去掉 C-SA 掉点最狠（40 类 video 2-way 从 0.841 掉到 0.799），用固定被试代替中心被试、或直接一次性塞全部被试（去掉渐进）也都明显掉点。

3. New2Source Mapper：只在编码阶段做新↔已知被试互映射，数据稀缺也能泛化新被试

针对"新被试分布漂移大 + 数据稀缺，直接 fine-tune 会扰动已知被试"的痛点，本文不动主模型、只学一个轻量映射。思路是用多个已知被试模拟出新被试、再与真实新被试少量数据结合。具体三步：先用已知被试数据训一个 Source2New（把已知被试 \(\mathcal{S}^p\) 映射成模拟新被试），监督是 \(\mathcal{L}_{S2N} = \text{MSE}(\mathcal{S}^p_{new}, \mathcal{S}^{p*}_{new})\)，其中 \(p\) 是用到的新被试真实数据占比（实验取 15%）；再把训好的 Source2New 作用到剩余 \((1-p)\%\) 的已知被试数据上，生成更多模拟新被试 EEG \(\mathcal{S}^{(1-p)*}_{new}\)；最后用"模拟 + 真实"的新被试数据一起训 New2Source Mapper（把新被试映回已知被试分布），监督 \(\mathcal{L}_{N2S} = \text{MSE}(\mathcal{S}, \mathcal{S}^*)\)。推理时新被试 EEG 先过 New2Source 对齐到已知被试分布再进 HRT，等于用极少真实数据"借"已知被试群体补出映射关系，避免大规模重训。消融里去掉 New2Source，新被试各项指标全面暴跌（如 40 类 video 40-way 从 0.162 掉到 0.118、SSIM 从 0.257 掉到 0.199）。

4. 关键帧引导的连续语义视频生成：把 EEG 语义嫁接到 SparseCtrl，桥接 E2V 与 T2V 的鸿沟

针对"EEG 与文本/视觉存在模态鸿沟、不能直接套 T2V"的痛点，本文复用 SparseCtrl（靠关键帧+稀疏条件控制 T2V）但做了两处适配。其一自造关键帧：先用 HRT 编出首帧 latent \(L_0\)、VAE 解码出一张模糊首帧 \(BF = \text{VAE}(L_0)\) 当结构锚点（保留从 EEG 直接推断的全局构图和空间布局），再把 EEG-Text 嵌入 \(\mathcal{E}\) 和 \(BF\) 喂进 I2I 模型精修成清晰、语义一致的关键帧 \(KF = \text{I2I}(\mathcal{E}, \text{VAE}(L_0))\)——相当于先定布局再补细节纹理。其二替换噪声输入：T2V 通常从随机噪声起步，但 E2V 和 T2V 任务有 gap，本文改用 EEG-Visual latent \(L\) 顶替随机噪声（提供布局和颜色信息），并用 \(\mathcal{E}\) 作语义引导，最终 \(Video = \text{T2V}(\mathcal{E}, L, KF)\)。消融显示去掉嵌入（w/o Embedding）最致命（40 类分类骤降，因为完全没了语义引导），去掉 latent 主要砸 SSIM（丢了色彩/结构），去掉关键帧则分类和视觉相似度双降。

损失函数 / 训练策略¶

两阶段训练。阶段一训 HRT 编码器学跨被试不变语义并对齐文本/视觉模态：\(\mathcal{L}_1 = \mathcal{L}_{task} + \lambda \mathcal{L}_{subject}\)，其中 \(\mathcal{L}_{task} = \text{MSE}(\mathcal{E}, \text{HRT}(E)) + \text{MSE}(L, \text{HRT}(E))\) 把 EEG 语义对齐到 BLIP 文本嵌入与 VAE 视频 latent，\(\mathcal{L}_{subject}\) 是 C-SA 的被试对抗项。阶段二训 New2Source Mapper：先用 \(\mathcal{L}_{S2N}\) 训 Source2New，再用 \(\mathcal{L}_{N2S}\) 训 New2Source，使新被试与已知被试做交互式语义对齐、获得新被试泛化能力。

实验关键数据¶

数据集为 SEED-DV（20 名被试观看 40 个视觉概念类别的视频片段）。跨被试设定：前 15 名为已知源被试，后 5 名为新被试。除全集 40 类外，还评测 10/20/30 类子集。指标分 video-based / frame-based 的语义级（2-way、40-way 分类准确率）和像素级 SSIM。

主实验（跨被试 vs 单被试 SOTA，40 类）¶

设定	方法	Video 2-way↑	Video 40-way↑	Frame 2-way↑	Frame 40-way↑	SSIM↑
SS	DynaMind	0.828	0.284	0.807	0.241	0.280
SS	EEG2Video	0.798	0.159	0.774	0.138	0.256
SS	Ours	0.870	0.300	0.833	0.303	0.290
CS	Ours (Best)	0.860	0.291	0.834	0.301	0.279
CS	Ours (Average)	0.841	0.228	0.810	0.262	0.280

单被试设定下 SAM-Net 全面超越 EEG2Video 与 DynaMind；更关键的是它在更难的跨被试（CS）设定下，Best 仍能逼近甚至追平别人的单被试成绩（如 CS Best 的 frame 40-way 0.301 高于两个 baseline 的 SS 0.241/0.138）。

新被试重建（New2Source，仅后 5 名新被试）¶

类别数	Video 2-way↑	Video 40-way↑	Frame 2-way↑	Frame 40-way↑	SSIM↑
10 (Best)	0.833	0.143	0.820	0.225	0.300
40 (Best)	0.826	0.162	0.745	0.136	0.257
40 (Average)	0.812	0.142	0.735	0.137	0.254

在完全没见过的新被试上仍能给出可用的重建（40 类 SSIM 0.254），作者归因于 New2Source 把新被试 EEG 分布对齐到了已知被试分布。

消融实验¶

配置	Video 2-way↑	Video 40-way↑	Frame 40-way↑	SSIM↑	说明
Ours (40 类 CS)	0.860	0.291	0.301	0.279	完整模型
w/o HRT	0.796	0.179	0.140	0.222	去掉脑区+时序编码，全面崩
w/o Occipital	0.820	0.261	0.261	0.245	去枕叶（控视觉）掉得最多
w/o Temporal	0.824	0.269	0.255	0.243	去颞叶（控语言）次之
w/o Embedding	0.774	0.090	0.092	0.239	丢语义引导，40-way 暴跌
w/o Latent	0.845	0.273	0.282	0.189	丢色彩/结构，SSIM 暴跌
w/o KeyFrame	0.839	0.262	0.276	0.231	分类+视觉双降

C-SA 与 New2Source 的单独消融（Table 4，Average 设定）：去 C-SA 从 0.841/0.228 掉到 0.799/0.186；用固定被试代替中心被试、或去掉渐进过程也都掉点；新被试上去 New2Source 从 0.162/0.257 掉到 0.118/0.199。

关键发现¶

C-SA 贡献最大：去掉它所有指标都大幅下滑，且"中心被试起点"和"由近及远渐进"各自都有正贡献，验证了不随机指定对齐目标这一设计的价值。
脑区先验与生物常识吻合：枕叶（视觉）> 颞叶（语言）的重要性排序，说明 HRT 学到的脑区语义是有解剖意义的，而非随机拟合。
生成端三种条件各司其职：嵌入管语义（去掉则分类崩）、latent 管色彩结构（去掉则 SSIM 崩）、关键帧管细节锚定（去掉则双降），三者互补缺一不可。

亮点与洞察¶

"中心被试 + 渐进对抗"把课程学习思想搬进域对抗：先找群体几何中心当锚、再由近及远逐个并入，避免了一上来就把差异最大的被试硬塞进对抗导致训练震荡，比"逼向随机目标被试"稳健得多——这个 curriculum-style 的域对齐思路可迁移到任何"多源域分布漂移大"的场景（多设备医疗信号、多传感器时序）。
新被试适配不动主干、只学映射：用已知被试群体"模拟"出新被试再回映，把"数据稀缺 + 怕扰动已学表征"两个矛盾一并化解，是一种很实用的"冻结主模型、外挂适配器"范式。
用 EEG latent 顶替 T2V 的随机噪声：一个很取巧的桥接——既复用了 SparseCtrl 的关键帧可控能力，又把 EEG 推断的布局/色彩直接注入生成起点，绕开了 EEG 与文本的模态鸿沟。

局限与展望¶

依赖单一数据集：全部实验都在 SEED-DV 上，跨数据集/跨采集设备的真实泛化（不同电极数、不同采样率）未验证，而这恰是"跨被试"承诺最该兑现的地方。
绝对指标仍偏低：40 类 40-way 语义准确率只有 0.3 量级、新被试更降到 0.14 量级，离"可靠重建任意视频内容"还很远，EEG→视频本身的信息瓶颈依旧明显。
中心被试选取依赖平均特征：用 EEG 平均特征的余弦相似度找中心被试，对噪声和被试内方差较敏感；若群体本身分多个簇，单一中心被试可能不具代表性，未来可考虑多中心/聚类化的渐进对齐。
生成质量受限于 SparseCtrl 上限：视频连贯性和细节继承自 T2V 基座，EEG 端的贡献更多在语义/布局引导，长时序、复杂运动场景的表现待考。

评分¶

新颖性: ⭐⭐⭐⭐ 把"中心化渐进域对抗 + 新被试免微调映射"系统性引入 EEG-to-Video 跨被试场景，组合创新扎实。
实验充分度: ⭐⭐⭐⭐ 跨被试/新被试/逐脑区/各生成条件消融都齐，但局限在单一数据集 SEED-DV。
写作质量: ⭐⭐⭐⭐ 动机层层递进、三大模块对应三个痛点，逻辑清晰；部分公式在 OCR 文本里较碎。
价值: ⭐⭐⭐⭐ 跨被试是脑信号视觉解码落地的关键瓶颈，本文给出可扩展且免重训的解法，方向价值高。