SEED: Towards More Accurate Semantic Evaluation for Visual Brain Decoding¶

元信息¶

会议: ICLR 2026
arXiv: 2503.06437
代码: https://github.com/Concarne2/SEED
领域: 其他
关键词: brain decoding, evaluation metrics, fMRI, semantic similarity, visual attention, human evaluation

一句话总结¶

提出 SEED（Semantic Evaluation for Visual Brain Decoding），一个结合 Object F1、Cap-Sim 和 EffNet 三个互补指标的组合评估度量，在与人类评估的对齐度上显著超越现有所有指标。

研究背景与动机¶

视觉脑解码（从 fMRI 重建视觉刺激）取得显著进展，最新模型在现有百分比指标上接近满分，看似问题已解决。
但仔细审视：重建图像常常丢失关键语义元素（如泰迪熊变成猫），现有指标却给出高分，误导研究。
现有评估的三大问题：
池依赖性：二路识别指标（AlexNet、CLIP 等）依赖比较池，不同模型的比较不公平
难度不足：二路识别任务太简单，近期模型已接近完美
缺乏人类一致性：基于抽象特征的指标与人类直觉偏差大

方法详解¶

整体框架：受人类视觉注意力启发¶

人类视觉注意力是两阶段过程： - 第一阶段：并行处理基本特征（颜色、方向、亮度）→ 对应 EffNet 等卷积模型 - 第二阶段：聚焦注意力绑定特征为连贯物体 → 现有指标缺失此阶段

SEED 集成三个互补指标模拟完整视觉感知：

指标 1：Object F1（模拟物体导向注意力）¶

使用开放词汇图像 grounding 模型（MM-Grounding-DINO）检测 82 类物体：

\[\text{Object Recall}_t = \frac{\text{GT 和重建中共有的类别数}}{\text{GT 中的类别数}}\]

\[\text{Object Precision}_t = \frac{\text{GT 和重建中共有的类别数}}{\text{重建中的类别数}}\]

通过阈值 $t$ 从 0 到截断值滑动取平均，消除阈值超参： $$\text{Object F1} = \frac{2}{\text{Object Recall}^{-1} + \text{Object Precision}^{-1}}$$

指标 2：Cap-Sim（模拟特征绑定过程）¶

用图像标注模型（GIT）生成描述，再比较描述的语义相似度：

\[\text{Cap-Sim} = \cos(e_{\text{text}}(c(I_{GT})), e_{\text{text}}(c(I_{recon})))\]

其中 $e_{\text{text}}$ 用 Sentence Transformer，$c$ 用 GIT。捕获物体属性（姿态、颜色）、背景等 Object F1 遗漏的语义。

指标 3：EffNet（捕获全局结构）¶

\[\overline{\text{EffNet}} = \text{corr}(e_{\text{img}}(I_{GT}), e_{\text{img}}(I_{recon}))\]

使用 ImageNet 预训练 EfficientNet，捕获更全局和结构性的场景特征。

SEED 组合¶

\[\text{SEED} = \frac{\text{Object F1} + \text{Cap-Sim} + \overline{\text{EffNet}}}{3}\]

三个指标互补：Object F1 检查关键物体存在性，Cap-Sim 捕获高层语义细节，EffNet 捕获全局结构。

人类评估数据收集¶

22 名评估者对 1,000 对 GT-重建图像对进行 5 分 Likert 量表评分
ICC(2, n) = 0.84 (p=0)，表明高度评估者间一致性
数据开源发布

实验关键数据¶

主实验：与人类评估的对齐度（NSD + MindEye2）¶

指标	配对准确率	Kendall τ	Pearson r
PixCorr	53.8%	.075	.117
SSIM	54.5%	.090	.112
AlexNet(2)	55.0%	.185	.187
AlexNet(5)	49.5%	.236	.258
Inception	63.8%	.330	.475
CLIP	66.4%	.368	.436
EffNet	78.0%	.559	.748
SwAV	69.7%	.394	.576
Object F1	75.8%	.516	.708
Cap-Sim	73.8%	.477	.666
SEED	81.0%	.621	.813

SEED 在所有三个人类对齐指标上都显著领先，配对准确率 81%、Pearson r 0.813。

跨数据集验证（GOD + Mind-Vis）¶

指标	配对准确率	Kendall τ	Pearson r
CLIP	62.6%	—	—
EffNet	~70%	—	—
Object F1	~68%	—	—
SEED	~73%	—	最优

SEED 的优势在不同数据集和模型组合上保持一致。

关键发现¶

大多数常用指标（PixCorr、SSIM、AlexNet）与人类评估几乎不相关
EffNet 是现有最好的单一指标（Pearson 0.748），但 SEED 进一步提升到 0.813
Object F1 和 Cap-Sim 各自与人类评估的相关性也很高
用 SEED 重新评估 SOTA 模型发现：即使"近完美"分数的模型也经常混淆关键物体
基于描述的相似度评估（Cap-Sim）此前从未被提出，尽管概念简单

亮点与洞察¶

揭示评估盲区：动摇了"脑解码已近解决"的错觉
神经科学启发：两阶段视觉注意力 → Object F1 + Cap-Sim
人类评估基准：1,000 对 × 22 人评估数据开源，为后续研究提供标准
Cap-Sim 新颖性：最简单的想法（比较图像描述）竟从未有人做过

局限性¶

SEED 仅关注语义相似度，不评估低级视觉质量（如纹理、颜色精度）
Object F1 受限于检测模型能识别的 82 个物体类别
Cap-Sim 依赖图像标注模型的质量（可能产生幻觉描述）
等权平均三个指标是否最优未做深入分析

评分¶

新颖性: ⭐⭐⭐⭐ — Cap-Sim 新颖，问题定义和解决思路清晰
理论深度: ⭐⭐⭐ — 以经验驱动为主，缺乏理论分析
实验充分性: ⭐⭐⭐⭐⭐ — 大规模人类评估 + 多指标全面对比 + 跨数据集验证
实用价值: ⭐⭐⭐⭐⭐ — 直接改善脑解码评估标准，人类数据开源