Model-Behavior Alignment under Flexible Evaluation: When the Best-Fitting Model Isn't the Right One¶

会议: NeurIPS 2025
arXiv: 2510.23321
代码: GitHub
领域: 计算神经科学 / 表征对齐
关键词: 模型恢复, 表征对齐, 线性探测, 可辨识性, THINGS数据集

一句话总结¶

通过大规模模型恢复实验证明，即使使用 450 万行为数据，基于线性探测（linear probing）的灵活评估方法在 20 个视觉模型中的模型恢复准确率仍低于 80%，揭示了预测准确性与模型可辨识性之间的根本性权衡，质疑了当前"最佳拟合即最优模型"的研究范式。

研究背景与动机¶

深度神经网络的表征被广泛用作生物视觉系统的计算模型。评估方法通常是：提取 ANN 的表征，通过某种度量与大脑/行为数据对齐，预测准确率最高的模型被认为是"最好的"生物表征模型。

当使用灵活的、数据驱动的对齐方法（如线性探测）时，预测准确率显著提升——但这引发了关键问题：预测准确率是否真正反映了表征的相似性？

现有工作的局限性： - Kornblith et al. 发现未交叉验证的灵活度量无法区分层间差异（但可归因于过拟合） - Han et al. 在理想化设置（无噪声的 ANN 激活）中测试，不代表真实含噪数据 - Schütt et al. 验证了非灵活 RSA 的恢复能力，但未在噪声校准设置中评估灵活 RSA

核心矛盾：灵活评估提高了预测准确率，但可能以牺牲模型可辨识性为代价。作者通过 THINGS odd-one-out 数据集（470 万行为判断）来定量研究这一权衡。

方法详解¶

整体框架¶

采用"模型恢复"实验设计：用模型 A 生成合成行为数据 → 让所有模型（包括 A）竞争拟合该数据 → 检验模型 A 是否能被正确识别。如果最佳拟合模型不是数据生成模型，则说明评估方法存在可辨识性问题。

关键设计¶

从 ANN 表征到行为预测的映射：对每个预训练 ANN，提取最终表征层 \(\mathbf{X} \in \mathbb{R}^{n \times p}\)（\(n=1854\) 张图像），学习线性变换 \(\mathbf{W} \in \mathbb{R}^{p \times p}\)。相似性矩阵为 \(\mathbf{S} = (\mathbf{X}\mathbf{W})(\mathbf{X}\mathbf{W})^\top\)。对三元组 \(\{a,b,c\}\) 的 odd-one-out 预测使用 softmax：

\(p(\text{odd-one-out}=a \mid \{a,b,c\}) = \frac{\exp(S_{b,c}/T)}{\exp(S_{a,b}/T) + \exp(S_{a,c}/T) + \exp(S_{b,c}/T)}\)

用 L-BFGS 最小化负对数似然 + 正则化。

改进的正则化：替换标准 Frobenius 范数正则化为"收缩到标量矩阵"： \(\mathcal{R}(\mathbf{W}) = \min_\gamma \|\mathbf{W} - \gamma\mathbf{I}\|_F^2 = \|\mathbf{W}\|_F^2 - \frac{(\text{tr}(\mathbf{W}))^2}{p}\) 这避免了强惩罚下性能降至零样本以下的问题（Frobenius 正则化会出现此情况）。
噪声校准：不是最大化预测似然，而是调整温度参数 \(T\) 使模型的响应变异性匹配人类噪声天花板（67.8% 的留一被试一致率）。这确保合成数据的噪声水平与真实实验一致。
模型恢复实验流程：
- 20 个多样化 ANN（不同架构和训练任务）
- 每个模型先用全量人类数据拟合 \(\mathbf{W}\) 并校准温度
- 从校准后的模型采样合成行为数据
- 所有模型从头拟合合成数据
- 3 折交叉验证（不同图像子集），比较预测准确率
- 30 个随机种子 × 20 个生成模型 × 18 个数据集大小

可辨识性分析¶

通过回归分析识别模型误辨的原因： - 候选模型的对齐引起的表征几何偏移（正向预测准确率差异） - 数据生成模型的偏移幅度（负向——偏移大的模型产生的数据更容易被其他模型预测） - 数据生成模型的有效维度 ED（负向——高维表征更难正确恢复）

实验关键数据¶

主实验：模型恢复准确率 vs 数据量¶

训练三元组数	模型恢复准确率	备注
~1,000	<10%	接近随机（5%）
~10,000	~15%
~100,000	~45%	典型实验规模
~1,000,000	~70%
4,200,000	<80%	最大数据量，仍未饱和

灵活度 vs 准确率 vs 可辨识性权衡¶

评估方式	均值预测准确率	模型恢复准确率(4.2M)
Zero-shot	~34%	~95%
对角 \(\mathbf{W}\)	~47%	~85%
\(p \times 10\) 矩形 \(\mathbf{W}\)	~55%	~75%
\(p \times p\) 全矩阵	~63% (接近天花板)	<80%

消融实验¶

控制变量	恢复准确率变化	说明
固定 PCA 500 维	无改善	参数数量不是主因
扩展到 30 个模型	降至 ~70%	更多竞争者更难区分
按训练目标分组	73.7%	即使比较目标类别也困难
按架构分组	70.3%	CNN vs ViT 也难区分

关键发现¶

系统性偏差：OpenAI CLIP ResNet-50 被系统性地误认为最佳模型，4 个模型的平均排名 >2（意味着超过 1 个竞争者排名更高）
表征几何偏移：线性探测后所有模型向 VICE（人类嵌入模型）方向收敛，初始距 VICE 远的模型偏移最大
三个显著回归预测因子（Bonferroni 校正后）：候选模型偏移（\(\beta=0.495\), \(p=0.02\)）、生成模型偏移（\(\beta=-0.251\), \(p=0.01\)）、生成模型有效维度（\(\beta=-0.455\), \(p=0.01\)）

亮点与洞察¶

"最佳拟合不等于最正确"的严格量化证明：不是哲学论证，而是大规模模拟验证
噪声校准是关键创新：之前的模型恢复研究用无噪声 ANN 激活，不能代表真实情况。温度校准使模拟数据的噪声匹配人类，结果令人警醒
收缩到标量矩阵的正则化虽是小改动但很实用，避免了标准方法的退化问题
实验设计类比"知识蒸馏"——候选模型作为"学生"尝试模仿"教师"（数据生成模型）的行为

局限与展望¶

仅限行为数据（THINGS odd-one-out），神经数据（fMRI/EEG）可能有不同的权衡特性
模型恢复的量化结果依赖于特定的候选模型集（20个模型）
真实情况下"真模型"（生物表征）不在候选集中，使问题更加困难
论文建议三个改进方向但未实现：(1) 主动刺激选择, (2) 生物学先验约束的度量, (3) 内置对齐能力的模型

评分¶

新颖性: ⭐⭐⭐⭐ 模型恢复范式本身不新，但噪声校准和大规模应用是重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 20个模型 × 18个数据量 × 30个种子的全面实验设计
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，实验设计严谨，讨论深入
价值: ⭐⭐⭐⭐⭐ 对计算神经科学方法论有根本性影响，是"负面结果"的优秀范例