跳转至

Consensus vs. Controversy: Mapping the Decision Space Where Architectures Diverge

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 模型分析 / 架构归纳偏置
关键词: 架构差异分析, 争议空间, 集成构建, 归纳偏置, ImageNet

一句话总结

作者用 12 个预训练模型(CNN / ViT / MLP-Mixer 三大家族)在 ImageNet 上做"分歧取证":发现尽管它们的整体准确率几乎一样(均值 79.9%),架构差异其实集中在最有争议的那 10% 图像上——这一小撮"争议图像"的分歧度是"共识图像"的约 4.5 倍,且同家族内部一致性显著高于跨家族,从而为模型选型和集成构建给出可操作的指导。

研究背景与动机

领域现状:CNN、Vision Transformer、MLP-Mixer 这三类架构原理完全不同(局部卷积 / 全局注意力 / 纯全连接混合),但它们在 ImageNet 上的 top-1 准确率却高度趋同(72–84%)。这让人觉得"架构选择也许没那么重要了"。

现有痛点:聚合准确率这个单一数字把模型间的差异给抹平了。两个准确率都是 80% 的模型,可能在完全不同的图像上犯错,但聚合指标看不出来。已有工作开始挑战这种"只看聚合指标"的做法——Meding 等人发现 ImageNet 有 46% 是所有模型都对的"平凡图像"、11.5% 是所有模型都错的"不可能图像",真正能区分模型的只有 42.5%;Conwell 等人在 224 个模型上发现"训练配方比架构更影响脑对齐"。

核心矛盾:但这些工作都在问"单个模型在哪些图上难"或"聚合相似度是否掩盖了差异",没人系统刻画"不同架构具体在哪些图像上产生分歧"。也就是说,架构的归纳偏置到底在哪里显形?这片"分歧发生的决策空间"从未被显式地画出来。

本文目标:把模型间的"分歧"当成信号而非噪声,显式地映射出图像分布里的"争议空间"——精确定位架构差异集中在哪些图像上,并量化这种集中程度。

切入角度:作者的核心观察是"并非所有图像对理解架构差异都同等有信息量"。如果按"分歧分数"把图像分成高分歧尾巴和低分歧尾巴,就能精确锁定家族差异究竟浓缩在哪里。

核心 idea:不训练任何新模型,纯用一组现成预训练模型的预测,按"逐图分歧分数"切出 top-10% 争议子集和 bottom-10% 共识子集,然后用一系列统计指标证明:架构差异是高度局部化、集中在一小撮信息密度极高的争议图像上的

方法详解

整体框架

这是一篇分析/实证类论文,不训练模型,整套"取证框架"由三步组成:① 构建一个跨三大家族的 12 模型集成;② 对 ImageNet 验证集每张图算"分歧分数",按分位切出争议/共识子集;③ 在此基础上做家族一致性、多样性、集成潜力、校准、类别级等一系列分析。核心是先定义好两个度量,再围绕它们展开。

问题设定与两个核心度量:给定 \(M=12\) 个预训练模型 \(\{f_m\}\),每个把图像映射到 \(K=1000\) 类的概率分布。对图像 \(x_i\),第 \(m\) 个模型的预测类是 \(\hat{y}_i^{(m)}=\arg\max_k p_{i,k}^{(m)}\)

  • 一致性分数(agreement):预测同一 top-1 类的模型占比 \(A_i=\max_k \frac{1}{M}\sum_{m=1}^{M}\mathbb{1}[\hat{y}_i^{(m)}=k]\),取值在 \([1/M, 1]\),越高越共识。
  • 分歧度量(disagreement):各模型"最大概率(置信度)"的标准差 \(D_i=\mathrm{std}(\{\max_k p_{i,k}^{(m)}\}_{m=1}^{M})\)。它度量的是模型间在"最高置信度"上的离散程度——即使若干模型 top-1 标签相同,置信度差很多也算高分歧。

争议/共识切分与 Controversy Score:按 \(D_i\) 排序,取最高 \(\alpha\%\) 为"争议集" \(\mathcal{C}_\text{contro}\)、最低 \(\alpha\%\) 为"共识集" \(\mathcal{C}_\text{cons}\),全文取 \(\alpha=10\)。用 Controversy Score 量化两者分离度:

\[\mathrm{CS}=\frac{\mathrm{mean}(D_i: i\in\mathcal{C}_\text{contro})}{\mathrm{mean}(D_i: i\in\mathcal{C}_\text{cons})}\]

这是纯分析流程、没有可训练 pipeline,故不画框架图。

关键设计

1. 跨家族的 12 模型集成:让"分歧"有可比的家族归属

要研究"架构家族"间的差异,前提是集成里得同时覆盖足够多样、又每个家族内部有多个代表的模型,否则分不清"分歧"是来自架构还是来自单个模型的偶然。作者从 timm 取了 7 个 CNN(ResNet-50/101、Wide-ResNet-50、EfficientNet-B0/B2、MobileNetV3-Large、ConvNeXt-Tiny)、3 个 ViT(ViT-Base/16、ViT-Small/16、DeiT-Base)、2 个 MLP(MLP-Mixer-B/16、gMLP-S16),全部直接加载预训练权重、不做任何微调,统一 224×224 输入、ImageNet 归一化、FP16 推理。每家族多个成员的设计,正是后面能区分"家族内一致性 vs 家族间一致性"的基础。

2. 用"置信度标准差"作为逐图分歧分数:把架构差异变成可排序的标量

这是整个框架的核心度量选择。为什么用各模型最大概率的标准差 \(D_i\),而不是简单数"有几个模型预测不同"?因为它能捕捉"软分歧"——即使所有模型 top-1 标签一致,只要它们对这张图的把握程度差异很大(有的 0.95、有的 0.40),\(D_i\) 就高,说明这张图触及了不同架构的不同舒适区。作者进一步用 Controversy Score = 争议集均值分歧 / 共识集均值分歧 把"分离程度"压成一个数(实测 4.46),并验证它在多种扰动下都稳健(见下)。这种"先标量化、再分位切割"的做法,让"架构在哪里分歧"从一个模糊问题变成可统计、可显著性检验的对象。

3. 家族一致性矩阵 + 无监督层次聚类:让"家族结构"自己浮现出来

光算分歧还不够,作者要证明这种分歧是有结构的、沿架构家族组织的,而不是随机噪声。于是对所有模型对算两两一致率 \(\mathrm{Agr}(m_1,m_2)=\frac{1}{N}\sum_i \mathbb{1}[\hat{y}_i^{(m_1)}=\hat{y}_i^{(m_2)}]\),得到一致性矩阵;再分别统计"家族内平均一致率"和"家族间平均一致率"。关键的杀手锏是:只拿这张一致性矩阵、完全不告诉算法谁是 CNN/ViT/MLP,做层次聚类——结果树状图自动重现了家族结构(ResNet 三兄弟最近、ViT 自成一支、MLP 离得最远)。这说明"架构家族"不是人为贴的标签,而是在预测行为空间里真实存在的相似性分组,架构设计在模型行为上留下了稳健指纹。

4. ADER 指标:量化"架构分歧到底有多集中在争议图像上"

为了把"差异是局部化的"这个核心论点钉死,作者提出 ADER(Architectural Divergence Explanation Ratio,架构分歧解释比)。它衡量"跨家族分歧"有多大份额落在那 10% 争议图像上——如果分歧均匀分布,10% 的图像就只该承担 10% 的分歧份额;而实测 ADER = 24.6,意味着跨家族分歧在争议图像上的浓度是按数据占比预期的 24.6 倍。这个夸张的数字直接证明:争议图像不是"普通的难题",而是专门暴露架构差异的高信息密度子集。

一个例子:争议从何而来

拿一张被判为"争议"的图像走一遍:12 个模型都跑一遍 softmax,假设 ConvNeXt 给出 palace 类置信度 0.92、ResNet 给 0.55、ViT-Base 给 0.38、MLP-Mixer 给 0.30。它们的最大置信度标准差很大 → \(D_i\) 高 → 落入 top-10% 争议集;同时它们的 top-1 预测类还各不相同(多样性高)。这种"既高分歧又高多样性"的图像,正是集成最该把不同家族模型组合起来的地方。而像一只清晰的家猫,所有模型置信度都 0.9+、预测一致,\(D_i\) 极低,落入共识集——对它而言用哪个架构、是否集成都无所谓。

实验关键数据

主结果:争议空间的存在性与集中性

在 ImageNet 验证集全部 5 万张图、12 个模型上的核心发现:

指标 共识集 (bottom 10%) 争议集 (top 10%) 分离倍数 显著性
平均分歧 \(D\) 0.057 0.255 4.46×(Controversy Score) \(p<0.001\)
平均多样性(唯一预测类占比) 0.045 0.185 ~4.1× \(p<0.001\)
分歧标准差 0.005 0.024 ~4.8×

全体分歧分布右偏(均值 0.106、标准差 0.056),大多数图像挤在 0.05–0.10 的低分歧带,少数延伸到 0.30+,印证"争议高度集中在一小撮图像"。模型整体准确率 72.6%–84.0%(均值 79.9%,ConvNeXt-Tiny 最高 84.0%),差异不大,但分歧结构差异巨大。

家族一致性与集成分析

分析 关键数值 说明
家族内 vs 家族间一致率 83.5% vs 80.2% 3.3pp 的系统性差距,跨争议/共识子集都稳定存在
ResNet 变体之间 >0.88 家族内最高,共享残差学习框架
ViT-Base ↔ DeiT-Base 93.4% ViT 家族内高度一致
ConvNeXt 平均一致率 85.3% 全场最高,因其借鉴了 Transformer 设计、向各家族靠拢
MLP-Mixer / gMLP 平均一致率 78.8% / 83.5% 最低,无卷积无注意力 → 决策边界最独特
多样性 vs 分歧相关性 \(r=0.82\) 分歧高时模型是预测了不同类,而非只是置信度分散
Jaccard 覆盖(6 / 8 模型逼近全争议集) 47.8% / 57.1% 即便一半模型也覆盖不到一半争议图像 → 多样性贡献真实非冗余
ADER 24.6 跨家族分歧在 10% 争议图上的浓度是数据占比的 24.6 倍

稳健性、校准与代价-精度权衡

验证 结果 结论
Isotonic 校准后 CS 4.46 → 18.65(ECE 0.089→0.044) 校准非但没削弱、反而放大分离 → 争议不是误校准伪影
α 阈值敏感性 (5%–20%) CS 在 4.4–4.8,峰值在 10% 10% 阈值对应分布的自然拐点,非任意选择
OOD:ImageNet-A / -R CS10 = 2.89 / 3.34;ADER10 = 9.82 / 10.14 分布偏移下争议空间现象依然成立
序贯门控(ConvNeXt→ResNet→ViT,τ=0.50) 83.7% 准确率,平均仅 1.18 次模型调用 省 90% 算力,仅掉 0.3pp,ECE 仍低至 0.028
类别级争议 top-20 争议类比率 30–42%(远高于 10% 基线) palace/steel drum/hook/lipstick 等细粒度/视角异常类最易引发架构分歧

关键发现

  • 架构差异是局部化的,不是均匀的:只有 top-10% 图像贡献了绝大部分跨模型方差;剩下 90% 的图像上用哪个架构、是否集成几乎无所谓。这直接改写了"集成就要凑很多模型"的直觉——应只在检测到不确定时才升级到更贵的多样化模型。
  • 争议 ≠ 难度,也 ≠ 标签噪声:共识集里只有 9.7% 是"全对的平凡图",争议集里只有 1.0% 是"全错的不可能图";标签错误候选与争议集的重叠也仅 1.0%。所以争议捕捉的是一种独立于"难度/噪声"的"高置信度离散"现象。
  • 校准也带架构指纹:ViT-Small 的 ECE 最低(0.020,准确率仅 74.6%),ResNet-101 的 ECE 最高(0.155,准确率却有 81.9%)——Transformer 普遍比 CNN 更好校准,架构不仅影响"预测什么",还影响"多自信地预测"。
  • 集成应跨家族而非堆同类:多样性与分歧强相关(\(r=0.82\)),且不同家族模型对争议集的覆盖呈次线性增长,说明组合不同家族能在"最该集成的图像"上最大化"群体智慧"。

亮点与洞察

  • 把"分歧"从噪声升格为可量化的研究对象:一套不训练、纯靠现成模型预测的"取证框架",就把"架构归纳偏置在哪显形"这种以往只能定性讨论的问题,变成了可统计显著性检验、可跨数据集复现的实证结论。这个范式很容易迁移到 NLP、语音等其它领域的"多模型分歧分析"。
  • ADER 与 Controversy Score 这两个轻量指标很可复用:只要有一组模型的预测概率,就能算出"差异有多集中""集中在哪些样本",可直接用于挑选评测子集、构建高效集成、或诊断一个新架构到底带来了多少"真·新视角"。
  • "校准反而放大分离"是漂亮的反驳实验:审稿人最容易质疑"你的高分歧是不是只是某些模型没校准好",作者用 isotonic 校准后 CS 从 4.46 飙到 18.65 一锤定音,方法论上很扎实。
  • 序贯门控给出了立竿见影的工程价值:90% 算力换 0.3pp 精度损失,把"争议空间"理论直接落到了部署侧的自适应推理上。

局限与展望

  • 分歧度量绑定 top-1 置信度\(D_i\) 用的是最大概率标准差,作者自己也指出 top-5 Jaccard 分歧与之近乎零相关(\(r=0.012\)),说明它只捕捉了架构差异的一个侧面,top-1 与 top-5 争议是互补的两套信号,单一指标可能漏掉部分差异。
  • 没有解释"为什么是这些图争议":框架精确定位了争议图像,但停在统计层面——到底是纹理 vs 形状偏置、全局 vs 局部信息、还是视角异常导致分歧,论文只给了猜测(如某些图主要难住 CNN、某些难住 ViT),未做视觉属性层面的归因。作者也把"按分歧模式聚类争议图像"列为未来工作。
  • 模型集成的家族不均衡:CNN 有 7 个、ViT 只有 3 个、MLP 仅 2 个,家族内成员数差异可能影响"家族内一致率"的可比性(成员越多越容易出现低一致对),⚠️ 这点论文未充分讨论。
  • 结论限于图像分类 + ImageNet 系:虽然在 ImageNet-A/-R 上验证了 OOD 稳健性,但是否推广到检测、分割、生成等任务仍未知。

相关工作与启发

  • vs Meding 等(Dichotomous Data Difficulty):他们刻画"单个模型在哪些图上难"(平凡/不可能图像),本文刻画"不同架构在哪些图上彼此分歧"。两者互补——前者关注 single-model 成败,后者关注 cross-model 分歧,且本文证明争议与难度并不等价(争议集里只有 1% 是全错图)。
  • vs Conwell 等(224 模型脑对齐):他们发现"训练配方比架构更影响聚合相似度",得出"架构差异常被掩盖"的结论;本文反过来证明"架构差异确实存在,只是浓缩在特定图像子集上",给"架构到底重不重要"补上了"在哪重要"的精确答案。
  • vs Geirhos 等(纹理 vs 形状偏置):他们用受控合成数据揭示 CNN 的纹理偏置;本文不造合成数据,直接在自然图像分布里定位偏置显形的位置,方法更贴近真实部署场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 把"模型分歧"显式映射成可量化的"争议空间",并提出 ADER/Controversy Score 两个简洁指标,视角新颖;但用的全是现成模型与基础统计,技术深度有限。
  • 实验充分度: ⭐⭐⭐⭐ 全 ImageNet 验证集 + 12 模型,覆盖家族结构、多样性、校准、阈值敏感性、OOD、类别级与序贯门控,分析维度很全。
  • 写作质量: ⭐⭐⭐⭐ 论点清晰、指标定义严谨、反驳实验(校准放大分离)有说服力。
  • 价值: ⭐⭐⭐⭐ 为模型选型与高效集成提供了可操作指导(跨家族集成 + 自适应门控省 90% 算力),实用性强。