Consensus vs. Controversy: Mapping the Decision Space Where Architectures Diverge¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 模型分析 / 架构归纳偏置
关键词: 架构差异分析, 争议空间, 集成构建, 归纳偏置, ImageNet

一句话总结¶

作者用 12 个预训练模型（CNN / ViT / MLP-Mixer 三大家族）在 ImageNet 上做"分歧取证"：发现尽管它们的整体准确率几乎一样（均值 79.9%），架构差异其实集中在最有争议的那 10% 图像上——这一小撮"争议图像"的分歧度是"共识图像"的约 4.5 倍，且同家族内部一致性显著高于跨家族，从而为模型选型和集成构建给出可操作的指导。

研究背景与动机¶

领域现状：CNN、Vision Transformer、MLP-Mixer 这三类架构原理完全不同（局部卷积 / 全局注意力 / 纯全连接混合），但它们在 ImageNet 上的 top-1 准确率却高度趋同（72–84%）。这让人觉得"架构选择也许没那么重要了"。

现有痛点：聚合准确率这个单一数字把模型间的差异给抹平了。两个准确率都是 80% 的模型，可能在完全不同的图像上犯错，但聚合指标看不出来。已有工作开始挑战这种"只看聚合指标"的做法——Meding 等人发现 ImageNet 有 46% 是所有模型都对的"平凡图像"、11.5% 是所有模型都错的"不可能图像"，真正能区分模型的只有 42.5%；Conwell 等人在 224 个模型上发现"训练配方比架构更影响脑对齐"。

核心矛盾：但这些工作都在问"单个模型在哪些图上难"或"聚合相似度是否掩盖了差异"，没人系统刻画"不同架构具体在哪些图像上产生分歧"。也就是说，架构的归纳偏置到底在哪里显形？这片"分歧发生的决策空间"从未被显式地画出来。

本文目标：把模型间的"分歧"当成信号而非噪声，显式地映射出图像分布里的"争议空间"——精确定位架构差异集中在哪些图像上，并量化这种集中程度。

切入角度：作者的核心观察是"并非所有图像对理解架构差异都同等有信息量"。如果按"分歧分数"把图像分成高分歧尾巴和低分歧尾巴，就能精确锁定家族差异究竟浓缩在哪里。

核心 idea：不训练任何新模型，纯用一组现成预训练模型的预测，按"逐图分歧分数"切出 top-10% 争议子集和 bottom-10% 共识子集，然后用一系列统计指标证明：架构差异是高度局部化、集中在一小撮信息密度极高的争议图像上的。

方法详解¶

整体框架¶

这是一篇分析/实证类论文，不训练模型，整套"取证框架"由三步组成：① 构建一个跨三大家族的 12 模型集成；② 对 ImageNet 验证集每张图算"分歧分数"，按分位切出争议/共识子集；③ 在此基础上做家族一致性、多样性、集成潜力、校准、类别级等一系列分析。核心是先定义好两个度量，再围绕它们展开。

问题设定与两个核心度量：给定 \(M=12\) 个预训练模型 \(\{f_m\}\)，每个把图像映射到 \(K=1000\) 类的概率分布。对图像 \(x_i\)，第 \(m\) 个模型的预测类是 \(\hat{y}_i^{(m)}=\arg\max_k p_{i,k}^{(m)}\)。

一致性分数（agreement）：预测同一 top-1 类的模型占比 \(A_i=\max_k \frac{1}{M}\sum_{m=1}^{M}\mathbb{1}[\hat{y}_i^{(m)}=k]\)，取值在 \([1/M, 1]\)，越高越共识。
分歧度量（disagreement）：各模型"最大概率（置信度）"的标准差 \(D_i=\mathrm{std}(\{\max_k p_{i,k}^{(m)}\}_{m=1}^{M})\)。它度量的是模型间在"最高置信度"上的离散程度——即使若干模型 top-1 标签相同，置信度差很多也算高分歧。

争议/共识切分与 Controversy Score：按 \(D_i\) 排序，取最高 \(\alpha\%\) 为"争议集" \(\mathcal{C}_\text{contro}\)、最低 \(\alpha\%\) 为"共识集" \(\mathcal{C}_\text{cons}\)，全文取 \(\alpha=10\)。用 Controversy Score 量化两者分离度：

\[\mathrm{CS}=\frac{\mathrm{mean}(D_i: i\in\mathcal{C}_\text{contro})}{\mathrm{mean}(D_i: i\in\mathcal{C}_\text{cons})}\]

这是纯分析流程、没有可训练 pipeline，故不画框架图。

关键设计¶

1. 跨家族的 12 模型集成：让"分歧"有可比的家族归属

要研究"架构家族"间的差异，前提是集成里得同时覆盖足够多样、又每个家族内部有多个代表的模型，否则分不清"分歧"是来自架构还是来自单个模型的偶然。作者从 timm 取了 7 个 CNN（ResNet-50/101、Wide-ResNet-50、EfficientNet-B0/B2、MobileNetV3-Large、ConvNeXt-Tiny）、3 个 ViT（ViT-Base/16、ViT-Small/16、DeiT-Base）、2 个 MLP（MLP-Mixer-B/16、gMLP-S16），全部直接加载预训练权重、不做任何微调，统一 224×224 输入、ImageNet 归一化、FP16 推理。每家族多个成员的设计，正是后面能区分"家族内一致性 vs 家族间一致性"的基础。

2. 用"置信度标准差"作为逐图分歧分数：把架构差异变成可排序的标量

这是整个框架的核心度量选择。为什么用各模型最大概率的标准差 \(D_i\)，而不是简单数"有几个模型预测不同"？因为它能捕捉"软分歧"——即使所有模型 top-1 标签一致，只要它们对这张图的把握程度差异很大（有的 0.95、有的 0.40），\(D_i\) 就高，说明这张图触及了不同架构的不同舒适区。作者进一步用 Controversy Score = 争议集均值分歧 / 共识集均值分歧 把"分离程度"压成一个数（实测 4.46），并验证它在多种扰动下都稳健（见下）。这种"先标量化、再分位切割"的做法，让"架构在哪里分歧"从一个模糊问题变成可统计、可显著性检验的对象。

3. 家族一致性矩阵 + 无监督层次聚类：让"家族结构"自己浮现出来

光算分歧还不够，作者要证明这种分歧是有结构的、沿架构家族组织的，而不是随机噪声。于是对所有模型对算两两一致率 \(\mathrm{Agr}(m_1,m_2)=\frac{1}{N}\sum_i \mathbb{1}[\hat{y}_i^{(m_1)}=\hat{y}_i^{(m_2)}]\)，得到一致性矩阵；再分别统计"家族内平均一致率"和"家族间平均一致率"。关键的杀手锏是：只拿这张一致性矩阵、完全不告诉算法谁是 CNN/ViT/MLP，做层次聚类——结果树状图自动重现了家族结构（ResNet 三兄弟最近、ViT 自成一支、MLP 离得最远）。这说明"架构家族"不是人为贴的标签，而是在预测行为空间里真实存在的相似性分组，架构设计在模型行为上留下了稳健指纹。

4. ADER 指标：量化"架构分歧到底有多集中在争议图像上"

为了把"差异是局部化的"这个核心论点钉死，作者提出 ADER（Architectural Divergence Explanation Ratio，架构分歧解释比）。它衡量"跨家族分歧"有多大份额落在那 10% 争议图像上——如果分歧均匀分布，10% 的图像就只该承担 10% 的分歧份额；而实测 ADER = 24.6，意味着跨家族分歧在争议图像上的浓度是按数据占比预期的 24.6 倍。这个夸张的数字直接证明：争议图像不是"普通的难题"，而是专门暴露架构差异的高信息密度子集。

一个例子：争议从何而来¶

拿一张被判为"争议"的图像走一遍：12 个模型都跑一遍 softmax，假设 ConvNeXt 给出 palace 类置信度 0.92、ResNet 给 0.55、ViT-Base 给 0.38、MLP-Mixer 给 0.30。它们的最大置信度标准差很大 → \(D_i\) 高 → 落入 top-10% 争议集；同时它们的 top-1 预测类还各不相同（多样性高）。这种"既高分歧又高多样性"的图像，正是集成最该把不同家族模型组合起来的地方。而像一只清晰的家猫，所有模型置信度都 0.9+、预测一致，\(D_i\) 极低，落入共识集——对它而言用哪个架构、是否集成都无所谓。

实验关键数据¶

主结果：争议空间的存在性与集中性¶

在 ImageNet 验证集全部 5 万张图、12 个模型上的核心发现：

指标	共识集 (bottom 10%)	争议集 (top 10%)	分离倍数	显著性
平均分歧 \(D\)	0.057	0.255	4.46×（Controversy Score）	\(p<0.001\)
平均多样性（唯一预测类占比）	0.045	0.185	~4.1×	\(p<0.001\)
分歧标准差	0.005	0.024	~4.8×	—

全体分歧分布右偏（均值 0.106、标准差 0.056），大多数图像挤在 0.05–0.10 的低分歧带，少数延伸到 0.30+，印证"争议高度集中在一小撮图像"。模型整体准确率 72.6%–84.0%（均值 79.9%，ConvNeXt-Tiny 最高 84.0%），差异不大，但分歧结构差异巨大。

家族一致性与集成分析¶

分析	关键数值	说明
家族内 vs 家族间一致率	83.5% vs 80.2%	3.3pp 的系统性差距，跨争议/共识子集都稳定存在
ResNet 变体之间	>0.88	家族内最高，共享残差学习框架
ViT-Base ↔ DeiT-Base	93.4%	ViT 家族内高度一致
ConvNeXt 平均一致率	85.3%	全场最高，因其借鉴了 Transformer 设计、向各家族靠拢
MLP-Mixer / gMLP 平均一致率	78.8% / 83.5%	最低，无卷积无注意力 → 决策边界最独特
多样性 vs 分歧相关性	\(r=0.82\)	分歧高时模型是预测了不同类，而非只是置信度分散
Jaccard 覆盖（6 / 8 模型逼近全争议集）	47.8% / 57.1%	即便一半模型也覆盖不到一半争议图像 → 多样性贡献真实非冗余
ADER	24.6	跨家族分歧在 10% 争议图上的浓度是数据占比的 24.6 倍

稳健性、校准与代价-精度权衡¶

验证	结果	结论
Isotonic 校准后 CS	4.46 → 18.65（ECE 0.089→0.044）	校准非但没削弱、反而放大分离 → 争议不是误校准伪影
α 阈值敏感性 (5%–20%)	CS 在 4.4–4.8，峰值在 10%	10% 阈值对应分布的自然拐点，非任意选择
OOD：ImageNet-A / -R	CS10 = 2.89 / 3.34；ADER10 = 9.82 / 10.14	分布偏移下争议空间现象依然成立
序贯门控（ConvNeXt→ResNet→ViT，τ=0.50）	83.7% 准确率，平均仅 1.18 次模型调用	省 90% 算力，仅掉 0.3pp，ECE 仍低至 0.028
类别级争议	top-20 争议类比率 30–42%（远高于 10% 基线）	palace/steel drum/hook/lipstick 等细粒度/视角异常类最易引发架构分歧

关键发现¶

架构差异是局部化的，不是均匀的：只有 top-10% 图像贡献了绝大部分跨模型方差；剩下 90% 的图像上用哪个架构、是否集成几乎无所谓。这直接改写了"集成就要凑很多模型"的直觉——应只在检测到不确定时才升级到更贵的多样化模型。
争议 ≠ 难度，也 ≠ 标签噪声：共识集里只有 9.7% 是"全对的平凡图"，争议集里只有 1.0% 是"全错的不可能图"；标签错误候选与争议集的重叠也仅 1.0%。所以争议捕捉的是一种独立于"难度/噪声"的"高置信度离散"现象。
校准也带架构指纹：ViT-Small 的 ECE 最低（0.020，准确率仅 74.6%），ResNet-101 的 ECE 最高（0.155，准确率却有 81.9%）——Transformer 普遍比 CNN 更好校准，架构不仅影响"预测什么"，还影响"多自信地预测"。
集成应跨家族而非堆同类：多样性与分歧强相关（\(r=0.82\)），且不同家族模型对争议集的覆盖呈次线性增长，说明组合不同家族能在"最该集成的图像"上最大化"群体智慧"。

亮点与洞察¶

把"分歧"从噪声升格为可量化的研究对象：一套不训练、纯靠现成模型预测的"取证框架"，就把"架构归纳偏置在哪显形"这种以往只能定性讨论的问题，变成了可统计显著性检验、可跨数据集复现的实证结论。这个范式很容易迁移到 NLP、语音等其它领域的"多模型分歧分析"。
ADER 与 Controversy Score 这两个轻量指标很可复用：只要有一组模型的预测概率，就能算出"差异有多集中""集中在哪些样本"，可直接用于挑选评测子集、构建高效集成、或诊断一个新架构到底带来了多少"真·新视角"。
"校准反而放大分离"是漂亮的反驳实验：审稿人最容易质疑"你的高分歧是不是只是某些模型没校准好"，作者用 isotonic 校准后 CS 从 4.46 飙到 18.65 一锤定音，方法论上很扎实。
序贯门控给出了立竿见影的工程价值：90% 算力换 0.3pp 精度损失，把"争议空间"理论直接落到了部署侧的自适应推理上。

局限与展望¶

分歧度量绑定 top-1 置信度：\(D_i\) 用的是最大概率标准差，作者自己也指出 top-5 Jaccard 分歧与之近乎零相关（\(r=0.012\)），说明它只捕捉了架构差异的一个侧面，top-1 与 top-5 争议是互补的两套信号，单一指标可能漏掉部分差异。
没有解释"为什么是这些图争议"：框架精确定位了争议图像，但停在统计层面——到底是纹理 vs 形状偏置、全局 vs 局部信息、还是视角异常导致分歧，论文只给了猜测（如某些图主要难住 CNN、某些难住 ViT），未做视觉属性层面的归因。作者也把"按分歧模式聚类争议图像"列为未来工作。
模型集成的家族不均衡：CNN 有 7 个、ViT 只有 3 个、MLP 仅 2 个，家族内成员数差异可能影响"家族内一致率"的可比性（成员越多越容易出现低一致对），⚠️ 这点论文未充分讨论。
结论限于图像分类 + ImageNet 系：虽然在 ImageNet-A/-R 上验证了 OOD 稳健性，但是否推广到检测、分割、生成等任务仍未知。

评分¶

新颖性: ⭐⭐⭐⭐ 把"模型分歧"显式映射成可量化的"争议空间"，并提出 ADER/Controversy Score 两个简洁指标，视角新颖；但用的全是现成模型与基础统计，技术深度有限。
实验充分度: ⭐⭐⭐⭐ 全 ImageNet 验证集 + 12 模型，覆盖家族结构、多样性、校准、阈值敏感性、OOD、类别级与序贯门控，分析维度很全。
写作质量: ⭐⭐⭐⭐ 论点清晰、指标定义严谨、反驳实验（校准放大分离）有说服力。
价值: ⭐⭐⭐⭐ 为模型选型与高效集成提供了可操作指导（跨家族集成 + 自适应门控省 90% 算力），实用性强。