Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation¶

会议: ACL 2025
arXiv: 2502.13576
代码: https://github.com/marvelcell/TailoredBench
作者: Peiwen Yuan, Yueqi Zhang, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Jiayi Shi, Chuyi Tan, Boyuan Pan, Yao Hu, Kan Li
机构: Beijing Institute of Technology, Xiaohongshu Inc
领域: 高效评估 / 基准压缩
关键词: 高效评估, 基准压缩, 核心集选择, 预测一致性, K-Medoids聚类, 模型排序

一句话总结¶

提出 TailoredBench 方法，为每个待评估的目标模型自适应构建定制化核心集（Native-coreset），而非使用所有模型共享的静态子集，通过自适应源模型选择、可扩展 K-Medoids 聚类和校准估计策略，在仅需 20-40 个样本的推理预算下将准确率估计的 MAE 平均降低 31.4%。

研究背景与动机¶

评估成本危机：在 HELM 排行榜上评估一个 10B 参数模型需花费 $1,700（API）或 1,200+ GPU 小时。当需要比较 $X$ 个配置时，成本线性增长。

现有高效评估范式： - 利用已公开的源模型（source models）评测结果构建样本嵌入 - 聚类选取少量代表性核心集（coreset，通常 <100 样本） - 用目标模型（target model）在核心集上的表现估算全基准性能

核心假设的问题：现有方法假设源模型和目标模型的预测一致性（prediction consistency）很高——如果源模型在样本 a 和 b 上表现相似，目标模型也应如此。但作者发现这一假设在实践中不成立： - t-SNE 可视化（Hellaswag）显示：用目标模型嵌入后，样本到聚类中心的平均距离从 10.09 增加到 12.48 - 源模型选定的核心集无法有效代表目标模型的行为模式

核心动机：摒弃"一刀切"的静态核心集，为每个目标模型量身定制评估子集。

方法详解¶

整体框架：Global-to-Native 评估流程¶

TailoredBench 包含四个紧密集成的步骤：

Step 1: 构建 G-set（Global-coreset）¶

对每个样本 $x_k$，用所有 $|\mathcal{S}|$ 个源模型的正确率构建嵌入向量 $\dot{x}_k^{\mathcal{S}}$
在该嵌入空间上执行 K-Medoids 聚类，选取聚类中心构成 G-set（默认 10 个样本）
G-set 作为探针，用于识别与目标模型最一致的源模型
距离度量选择：采用曼哈顿距离（element-wise）而非相关距离（correlation），因为相关距离假设线性关系，不适用于离散二值嵌入

Step 2: 自适应原生源模型选择¶

让目标模型在 G-set 上做推理
将所有源模型和目标模型的 G-set 预测编码为嵌入
计算所有模型间的平均预测一致性 $\bar{d}$ 作为阈值
对每个目标模型 $t_m$，选取距离小于 $\bar{d}$ 的源模型组成原生源模型集 $\mathcal{S}_{t_m}$
跨所有目标模型统一原生源模型数量 $\bar{n}$，保持嵌入维度一致

Step 3: 可扩展 K-Medoids 聚类构建 N-set¶

基于原生源模型的预测重新构建样本嵌入（更贴合目标模型视角）
锚定初始化：G-set 中的样本固定为初始聚类中心，新增 $|N-set| - |G-set|$ 个随机样本
动态精炼：非 G-set 聚类中心可更新（选择最小化簇内距离的样本），G-set 中心保持不变
迭代直至收敛 → 得到定制化 N-set $\mathcal{N}_{t_m}$

Step 4: 校准性能估计¶

不直接用中心样本的表现代表整个簇，而是利用源模型预测一致性进行校准：

对簇内非中心样本 $x'$，计算缩放因子：$\text{Scale}(x') = \frac{\bar{c}_{\mathcal{S}_{t_m}, x'} + 0.5}{\bar{c}_{\mathcal{S}_{t_m}, x} + 0.5}$
用缩放因子校准目标模型在所有样本上的预测：$c_{t_m, x'} = (c_{t_m, x} + 0.5) \cdot \text{Scale}(x') - 0.5$
全基准性能：$P_{t_m} = \frac{1}{|\mathcal{D}|} \sum_{x' \in \mathcal{D}} c_{t_m, x'}$

实验关键数据¶

主实验（5 基准，300+ 模型）¶

基准	推理数	最佳基线 MAE	TailoredBench MAE	MAE降幅
ARC Challenge	30	0.036	0.028	22.2%
Hellaswag	30	0.043	0.018	58.1%
GSM8K	30	0.041	0.033	19.5%
Winogrande	30	0.038	0.024	36.8%
POPE	30	0.034	0.031	8.8%

平均 MAE 降低 31.4%
Kendall's τ 也一致提升（排序准确性更高）
Hellaswag 上成对模型排序准确率达 96.0%

距离度量消融¶

距离类型	Kendall's τ	MAE
Correlation	0.720	0.032
Cosine	0.736	0.028
Manhattan	0.740	0.027

曼哈顿距离在连续和离散正确率格式上均优于相关距离

校准策略消融¶

策略	Kendall's τ	MAE
无校准	0.724	0.030
有校准	0.740	0.027

G-set 大小分析¶

G-set 大小	Kendall's τ	MAE
5	0.734	0.030
10	0.740	0.027
15	0.736	0.028
25	0.731	0.029

10 个样本作为探针即足够，过多 G-set 反而挤压 N-set 的灵活性

大推理预算验证（Hellaswag）¶

推理数	方法	Kendall's τ	MAE
150	Random	0.935	0.030
150	AnchorPoints	0.940	0.040
150	gp-IRT	0.936	0.012
150	TailoredBench	0.943	0.012

在较大推理预算下仍保持优势

关键发现¶

原生源模型数量越多、与目标模型预测一致性越高，估计越准确
目标模型倾向于选择同家族的源模型（如 Llama 选 Llama，Qwen 选 Qwen），说明模型家族内部共享预测模式
所有优势通过 Z 检验验证统计显著（p < 0.05）

亮点与洞察¶

直击核心假设缺陷：通过 t-SNE 可视化直观展示了"预测一致性假设"的失败，动机清晰有力
从全局到局部的优雅设计：G-set 作为探针 → 自适应选源模型 → 定制 N-set → 校准估计，四步流程逻辑自洽
10 样本探针：仅需目标模型在 10 个样本上的推理即可识别最匹配的源模型子集，极高效
跨模态泛化：在 NLP（ARC、Hellaswag、GSM8K、Winogrande）和多模态（POPE）基准上均有效
实际意义巨大：对于模型开发者，在超参/配置搜索时可将评估成本降低数个数量级

局限性¶

依赖源模型评测结果：需要大量源模型在全基准上的完整评测结果，对新/私有基准的冷启动成本仍然存在
假设源模型表征足够：若目标模型的行为模式与所有源模型差异极大，方法可能失效
仅验证选择题/分类基准：对开放式生成任务（如摘要、对话）的适用性未探索
静态 G-set：G-set 对所有目标模型共享，若目标模型群体分化极大，单一 G-set 可能不够
校准策略简单：线性缩放因子假设源-目标模型行为关系是线性的

评分¶

⭐⭐⭐⭐ (4/5)

创新性：⭐⭐⭐⭐ 定制化核心集的思路清晰且新颖，对预测一致性假设的质疑有充分实验支撑
实验充分性：⭐⭐⭐⭐⭐ 5 基准 300+ 模型，多种消融和分析，极其充分
写作质量：⭐⭐⭐⭐ 公式推导清楚，但符号较多需要仔细阅读
实用性：⭐⭐⭐⭐ 对排行榜维护者和模型开发者有直接应用价值