Cost-of-Pass: An Economic Framework for Evaluating Language Models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=vC9S20zsgN
代码: https://github.com/mhamzaerol/Cost-of-Pass
领域: LLM 评测
关键词: 语言模型评测, 推理成本, 生产前沿, 成本效益, 经济学框架

一句话总结¶

这篇论文借用经济学里的"生产前沿"理论，提出 cost-of-pass（生成一个正确答案的期望美元成本）这一把"准确率 × 推理成本"合并成单一指标的评测框架，并用它揭示出不同体量模型在不同任务上的经济生态位、过去一年成本前沿的下降速度，以及多数推理时增强技巧（多数投票、自我修正）在"花钱买正确"这个尺度上其实并不划算。

研究背景与动机¶

领域现状：语言模型评测长期以来把"能力"和"成本"分开报告——榜单只比准确率，定价表只列每百万 token 多少钱。但用户真正关心的是"花一块钱能不能换来一个正确答案"，而模型生态越来越拥挤，一个新模型值不值得用，必须放在"它比现有最便宜的可行方案省了多少钱"的语境里看，而不是孤立地看它准不准。

现有痛点：此前把成本纳入评测的尝试大多依赖固定推理预算（给每题限定 token 数）、启发式打分，或者用简洁度这类非货币的代理量。这些做法把结论绑死在某个具体约束或经验权重上，既缺乏普适性，也丢失了经济学意义上的可解释性——你没法直接说"这个模型在这个任务上每个正确答案要花多少钱"。

核心矛盾：模型有一个绕不开的 trade-off——更强的模型 / 更重的推理时技巧能换来更高准确率，但代价是更高的算力和金钱开销。只看准确率会无脑偏向推理模型，只看单价会无脑偏向轻量模型，两者都没有回答"综合下来谁最划算"。

本文目标：构造一个既能反映准确率、又能反映货币成本、还自带经济学解释的统一指标，进而回答三个子问题：(1) 不同体量模型各自在什么任务上最划算；(2) 过去一年成本前沿下降得有多快、是谁在推动；(3) 常见的推理时增强技巧到底值不值这个钱。

切入角度：作者注意到语言模型本质上就是经济学里的随机生产者——给定一个输入（problem），它以某个概率产出合格品（正确解），失败就得重试，这跟 Farrell (1957) 的生产效率理论、以及 Aigner et al. (1977) 的随机前沿生产函数高度同构。于是把"最小化单位合格产出成本"这套成熟框架迁移到 LM 评测上。

核心 idea：用"生成一个正确答案的期望花费 = 单次推理成本 ÷ 成功概率"作为统一指标，再取所有可用模型（含人类专家）的下确界作为"成本前沿"，把语言模型的进步翻译成一条随时间下降的成本曲线。

方法详解¶

整体框架¶

整个框架的出发点是把"评测一个模型在某道题上的经济效率"形式化为两个量：成功概率 \(R_m(p)\)（模型 \(m\) 在题目 \(p\) 上一次推理产出正确答案的概率）和单次成本 \(C_m(p)\)（一次推理尝试的期望美元开销，由 prompt + 生成的 token 数乘以提供商单价、再加上第三方调用等附加费用算出）。由这两个量出发，论文层层搭出四级概念：先定义单个模型的 cost-of-pass，再取所有模型的下确界得到 frontier cost-of-pass（成本前沿），加入人类专家基线让前沿有了参照系且永远有限，最后用 gain（增益） 度量每个新模型把前沿往下压了多少、从而把"进步"量化成随时间下降的曲线。整个评测靠一套 5 步操作流程（估成功率 → 估单次成本 → 算 cost-of-pass → 定前沿 → 在 benchmark 上聚合）落地。这是一篇分析/评测框架论文，核心不是一个新网络结构，而是一组环环相扣的经济学指标定义，因此下面逐个把这些指标讲清，不强行画 pipeline 图。

关键设计¶

1. cost-of-pass：把准确率和成本压成"每个正确答案多少钱"

针对"准确率和成本一直被分开报告、无法回答谁更划算"这个痛点，论文把单个模型在题目 \(p\) 上的效率定义为期望需要尝试的次数乘以单次成本。因为输出是随机的、且假设各次尝试独立，拿到第一个正确解的期望尝试次数是 \(1/R_m(p)\)，于是 cost-of-pass 为

\[v(m, p) = \frac{C_m(p)}{R_m(p)}.\]

它的含义非常直白：把财力转化成正确产出的效率。这个定义有两个很自然的好性质——当模型根本解不出来（\(R_m(p)=0\)）时 \(v(m,p)=\infty\)，恰好标记"不可行"；而单价低但常做错的轻量模型、和单价高但几乎不出错的推理模型，会在这个指标下被放到同一把尺子上公平比较，这是单看准确率或单看 token 单价都做不到的。

2. frontier cost-of-pass 与人类专家基线：用"生态系统里最便宜的可行方案"当标尺

单个模型的 cost-of-pass 只能评价一个模型，但用户面对的是整个模型生态。于是论文仿照经济学的前沿成本 \(V_u=\min_{f_i\in F}\{w_i^\top x \mid f_i(x)\ge u\}\)，定义题目 \(p\) 的 LM 成本前沿为所有可用策略里 cost-of-pass 的最小值：

\[V_p(M) = \min_{m\in M} v(m, p).\]

但纯 LM 前沿有两个缺陷：它不告诉你 LM 相比雇人到底划不划算，而且当没有任何 LM 能解出 \(p\) 时会变成无穷。论文的解法是把人类专家也当成一个策略 \(m_{\text{expert}}\) 纳入进来——假设合格专家近乎必对（\(R_{\text{expert}}(p)\approx 1\)），其 cost-of-pass 就约等于雇佣这位专家解这道题的劳务成本 \(v(\text{expert},p)\approx C_{\text{expert}}(p)\)（这个数值通过查 benchmark 标注的薪酬/耗时、相关研究报酬、或按竞赛规则推每题耗时等"证据层级"估出）。于是带专家基线的前沿为

\[V_p(M \cup M_0) = \min\big(V_p(M),\ v(\text{expert}, p)\big),\]

它永远有限，且天然回答了"现在用 LM 比雇人省多少钱"。

3. gain 与随时间追踪进步：把"模型迭代"翻译成一条下降的成本曲线

有了带基线的前沿，论文进一步度量"每个新模型的经济贡献"。随着新模型在时刻 \(t\) 发布，可用集合扩张 \(M_t = M_{t-1}\cup\{m_t\}\)，前沿 \(V_p(M_t)\) 必然是一条非增序列。新模型带来的 gain 就是它把前沿往下压的幅度：

\[G_p(\{m_t\}, M_{t-1}) = V_p(M_{t-1}) - V_p(M_{t-1} \cup \{m_t\}).\]

gain 越大，说明这个新模型在解题 \(p\) 上相比包括人类在内的旧有最优方案"便宜"得越多，经济贡献越显著。把单题指标对题目分布 \(P=\{p_i\}\) 取经验期望（\(V_{p\sim D}(M_t)\approx \mathbb{E}_{p\sim P}[V_p(M_t)]\)、gain 同理），就能在整个 benchmark 上画出前沿随时间下降的曲线。论文还对这条曲线拟合指数衰减 \(V_p(M_t)\approx a\,e^{-bt}+c\)，用 \(T_{1/2}=\ln 2/b\) 量化"成本减半要多久"。

4. counterfactual frontier：用"抽掉一个家族"反推谁不可或缺

前面回答了前沿在降，这个设计回答"是谁在推它降"。论文做反事实分析：把模型分成轻量、大模型、推理三个家族 \(M_g\)，看去掉某个家族后前沿会变差多少，用相对改进量度量该家族的"不可或缺性"：

\[\frac{G_{p\sim D}(M_g,\ M_T \setminus M_g)}{V_{p\sim D}(M_T \setminus M_g)},\]

其中 \(M_T\) 是全部模型。这个比值越高，说明把这个家族拿掉、前沿就退化得越厉害，即该家族对维持当前成本前沿越关键。它的巧妙在于：直接看哪个家族在某任务上 cost-of-pass 最低，可能被"恰好它也最便宜"误导，而反事实问的是"没有它，别人能不能补位"，更干净地分离出每个家族的独特贡献。

一个完整示例：把框架落到 AIME-24 的复杂数学题上¶

以"复杂定量推理"这一类为例走一遍 5 步操作流程：(1) 对每个模型-题目对，跑多次独立采样估出成功率 \(R_m(p)\)；(2) 统计每次尝试的平均 token 数 × 单价 + 附加费，得到单次成本 \(C_m(p)\)；(3) 算 cost-of-pass \(v(m,p)=C_m(p)/R_m(p)\)；(4) 估出人类专家成本（AIME 按竞赛规则约每题 12 分钟，配以相应专业时薪），与各模型取最小得到前沿；(5) 在整个数据集上聚合并按发布时间累积。结果是：推理模型（如 o1、o3-mini、DeepSeek-R1）虽然单价远高于轻量和大模型，但因为它们把成功率 \(R_m(p)\) 拉得足够高，反而在 AIME-24 上拿下最低的 cost-of-pass（o3-mini 仅 2.03 美元，而 Llama-3.1-8B 高达 15.33 美元）；同期 MATH-500 的前沿成本每 ~2.6 个月减半、AIME-24 每 ~7.1 个月减半。这个例子说明同一套指标如何在"贵单价但高成功率"和"便宜单价但低成功率"之间自动算出谁才真省钱。

实验关键数据¶

实验用三类模型（轻量 / 大模型 / 推理，每类 3–4 个，2024 下半年至 2025 初发布）× 三类任务（基础定量：两位数加法、GSM8K；知识密集：GPQA-Diamond、BBQ；复杂定量：MATH-500、AIME-24）。

主实验：不同家族各占一个经济生态位¶

Table 1 给出每个模型 + 人类基线下的前沿 dollar cost-of-pass \(V_{p\sim D}(\{m\}\cup M_0)\)（单位美元，越低越好）：

任务类别	数据集	最划算的家族	代表值
基础定量	两位数加法	轻量模型	Llama-3.1-8B：4.8e−5
知识密集	GPQA-Diamond	大 / 推理模型	o1：8.07，o3-mini：8.18
复杂定量	AIME-24	推理模型	o3-mini：2.03，o1：2.85
复杂定量	MATH-500	推理模型	DeepSeek-R1：0.21

关键发现是不同家族占据不同经济生态位：基础定量任务上所有模型准确率都很高，于是最便宜的轻量模型最划算；知识密集任务上大模型靠知识储备胜出；复杂定量任务上推理模型尽管单价最贵，却因成功率优势把 cost-of-pass 压到最低。而如果只看准确率或只看成本（论文附录 Table 5/6），指标会一边倒地偏向推理或轻量模型，恰好说明合并指标的必要性。

进步追踪与反事实分析¶

成本前沿随时间指数下降：复杂定量任务降得最稳，MATH-500 约每 2.6 个月减半、AIME-24 约每 7.1 个月减半；基础定量和知识任务则是早期模型一来就骤降、之后趋于平台。
反事实家族重要性（Figure 3，去掉某家族后前沿的相对退化 %）：轻量模型对基础定量任务最关键（两位数加法去掉后退化 93.5%），大模型仅在知识密集任务上不可或缺，推理模型主导复杂定量推理（AIME-24 去掉后退化 81.0%、MATH-500 退化 74.4%）。结论是当前成本效率前沿主要由轻量模型和推理模型两端推动。

推理时技巧的经济性（最反直觉的结论）¶

Table 2 给出各推理时技巧相对原前沿的增益（%）：

技巧	基础定量	知识密集（GPQA）	复杂定量
TALE-EP（预算感知）	1.5 / 66.6	24.5 / 50	0.2 / 16.6
自我修正 Self-Refine	0 / 0	6.7 / 24.9	0 / 0
多数投票 k=3	全 0	全 0	全 0
多数投票 k=4	全 0	全 0	全 0

关键发现：多数投票几乎不带来任何经济增益（虽然可能提准确率，但把成本翻了几倍）；自我修正仅在 GPQA-Diamond 上有 24.9% 的可观收益；只有"预算感知"的 TALE-EP（让生成自适应一个预测出的 token 预算）在多个任务上有可见但不均匀的收益。综合看，靠堆推理时算力换的边际准确率提升，在"每个正确答案多少钱"这个尺度上大多得不偿失——成本前沿的真正下降几乎全靠模型本身的迭代。

亮点与洞察¶

用一条经济学公式统一了两件被割裂的事：\(v=C/R\) 这个再简单不过的式子，把"准确率"和"花钱"焊死在一起，且自带"\(R=0\) 即不可行"的边界行为，比任何加权组合都更有解释力。
把人类专家纳进同一张前沿表，让"用 AI 还是雇人"第一次有了可直接比较的货币标尺，也顺手解决了"没有 LM 能解时前沿无穷"的退化问题。
反事实前沿是个可迁移的分析范式：不问"谁最好"，而问"抽掉谁别人补不上"，能干净地分离出每个组件/家族的独特贡献，这个思路完全可以搬到模型集成、数据子集、甚至特征重要性分析上。
"多数投票不划算"这一结论的价值在于它给出了量化反例——很多刷榜技巧在准确率维度有效，但放到经济维度立刻原形毕露，这对实际部署的选型很有指导意义。

局限与展望¶

依赖准确的成本与成功率估计：单次成本 \(C_m(p)\) 随提供商定价、用量档位、第三方调用而变，token 价格本身在快速下跌，前沿曲线对定价快照敏感；成功率靠有限次采样估计，长尾难题上方差大。
人类专家成本是估算而非实测：作者假设合格专家近乎必对（\(R_{\text{expert}}\approx 1\)），且劳务成本靠薪酬/耗时的"证据层级"推断，不同来源差异很大，基线本身带有不小的不确定性（作者在附录 D.3 讨论了可放宽的假设）。
只覆盖三类任务、几个时间点的模型：结论（哪类模型在哪类任务划算）绑定在所选 benchmark 和 2024–2025 这段窗口上，换任务分布或换时间段结论可能漂移；不同任务的减半周期不可直接横向比大小。
未纳入隐性成本：延迟、可靠性、安全/合规、运维等没有体现在单纯的 token 货币成本里，纯经济指标可能低估某些场景的真实代价。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把成熟的生产前沿理论干净地迁移到 LM 评测，cost-of-pass + 反事实前沿是少见且有解释力的视角。
实验充分度: ⭐⭐⭐⭐ 覆盖三类任务、十个模型、时间序列与多种推理时技巧，论证扎实；但任务面与时间窗口有限。
写作质量: ⭐⭐⭐⭐⭐ 概念层层递进、公式与经济学动机对应清晰，图表把结论讲得很透。
价值: ⭐⭐⭐⭐⭐ 给"AI 划不划算"提供了可量化、可比较人类基线的标尺，对选型与进步度量都有直接实用价值。