跳转至

Cost-of-Pass: An Economic Framework for Evaluating Language Models

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=vC9S20zsgN
代码: https://github.com/mhamzaerol/Cost-of-Pass
领域: LLM 评测
关键词: 语言模型评测, 推理成本, 生产前沿, 成本效益, 经济学框架

一句话总结

这篇论文借用经济学里的"生产前沿"理论,提出 cost-of-pass(生成一个正确答案的期望美元成本)这一把"准确率 × 推理成本"合并成单一指标的评测框架,并用它揭示出不同体量模型在不同任务上的经济生态位、过去一年成本前沿的下降速度,以及多数推理时增强技巧(多数投票、自我修正)在"花钱买正确"这个尺度上其实并不划算。

研究背景与动机

领域现状:语言模型评测长期以来把"能力"和"成本"分开报告——榜单只比准确率,定价表只列每百万 token 多少钱。但用户真正关心的是"花一块钱能不能换来一个正确答案",而模型生态越来越拥挤,一个新模型值不值得用,必须放在"它比现有最便宜的可行方案省了多少钱"的语境里看,而不是孤立地看它准不准。

现有痛点:此前把成本纳入评测的尝试大多依赖固定推理预算(给每题限定 token 数)、启发式打分,或者用简洁度这类非货币的代理量。这些做法把结论绑死在某个具体约束或经验权重上,既缺乏普适性,也丢失了经济学意义上的可解释性——你没法直接说"这个模型在这个任务上每个正确答案要花多少钱"。

核心矛盾:模型有一个绕不开的 trade-off——更强的模型 / 更重的推理时技巧能换来更高准确率,但代价是更高的算力和金钱开销。只看准确率会无脑偏向推理模型,只看单价会无脑偏向轻量模型,两者都没有回答"综合下来谁最划算"。

本文目标:构造一个既能反映准确率、又能反映货币成本、还自带经济学解释的统一指标,进而回答三个子问题:(1) 不同体量模型各自在什么任务上最划算;(2) 过去一年成本前沿下降得有多快、是谁在推动;(3) 常见的推理时增强技巧到底值不值这个钱。

切入角度:作者注意到语言模型本质上就是经济学里的随机生产者——给定一个输入(problem),它以某个概率产出合格品(正确解),失败就得重试,这跟 Farrell (1957) 的生产效率理论、以及 Aigner et al. (1977) 的随机前沿生产函数高度同构。于是把"最小化单位合格产出成本"这套成熟框架迁移到 LM 评测上。

核心 idea:用"生成一个正确答案的期望花费 = 单次推理成本 ÷ 成功概率"作为统一指标,再取所有可用模型(含人类专家)的下确界作为"成本前沿",把语言模型的进步翻译成一条随时间下降的成本曲线。

方法详解

整体框架

整个框架的出发点是把"评测一个模型在某道题上的经济效率"形式化为两个量:成功概率 \(R_m(p)\)(模型 \(m\) 在题目 \(p\) 上一次推理产出正确答案的概率)和单次成本 \(C_m(p)\)(一次推理尝试的期望美元开销,由 prompt + 生成的 token 数乘以提供商单价、再加上第三方调用等附加费用算出)。由这两个量出发,论文层层搭出四级概念:先定义单个模型的 cost-of-pass,再取所有模型的下确界得到 frontier cost-of-pass(成本前沿),加入人类专家基线让前沿有了参照系且永远有限,最后用 gain(增益) 度量每个新模型把前沿往下压了多少、从而把"进步"量化成随时间下降的曲线。整个评测靠一套 5 步操作流程(估成功率 → 估单次成本 → 算 cost-of-pass → 定前沿 → 在 benchmark 上聚合)落地。这是一篇分析/评测框架论文,核心不是一个新网络结构,而是一组环环相扣的经济学指标定义,因此下面逐个把这些指标讲清,不强行画 pipeline 图。

关键设计

1. cost-of-pass:把准确率和成本压成"每个正确答案多少钱"

针对"准确率和成本一直被分开报告、无法回答谁更划算"这个痛点,论文把单个模型在题目 \(p\) 上的效率定义为期望需要尝试的次数乘以单次成本。因为输出是随机的、且假设各次尝试独立,拿到第一个正确解的期望尝试次数是 \(1/R_m(p)\),于是 cost-of-pass 为

\[v(m, p) = \frac{C_m(p)}{R_m(p)}.\]

它的含义非常直白:把财力转化成正确产出的效率。这个定义有两个很自然的好性质——当模型根本解不出来(\(R_m(p)=0\))时 \(v(m,p)=\infty\),恰好标记"不可行";而单价低但常做错的轻量模型、和单价高但几乎不出错的推理模型,会在这个指标下被放到同一把尺子上公平比较,这是单看准确率或单看 token 单价都做不到的。

2. frontier cost-of-pass 与人类专家基线:用"生态系统里最便宜的可行方案"当标尺

单个模型的 cost-of-pass 只能评价一个模型,但用户面对的是整个模型生态。于是论文仿照经济学的前沿成本 \(V_u=\min_{f_i\in F}\{w_i^\top x \mid f_i(x)\ge u\}\),定义题目 \(p\)LM 成本前沿为所有可用策略里 cost-of-pass 的最小值:

\[V_p(M) = \min_{m\in M} v(m, p).\]

但纯 LM 前沿有两个缺陷:它不告诉你 LM 相比雇人到底划不划算,而且当没有任何 LM 能解出 \(p\) 时会变成无穷。论文的解法是把人类专家也当成一个策略 \(m_{\text{expert}}\) 纳入进来——假设合格专家近乎必对(\(R_{\text{expert}}(p)\approx 1\)),其 cost-of-pass 就约等于雇佣这位专家解这道题的劳务成本 \(v(\text{expert},p)\approx C_{\text{expert}}(p)\)(这个数值通过查 benchmark 标注的薪酬/耗时、相关研究报酬、或按竞赛规则推每题耗时等"证据层级"估出)。于是带专家基线的前沿为

\[V_p(M \cup M_0) = \min\big(V_p(M),\ v(\text{expert}, p)\big),\]

它永远有限,且天然回答了"现在用 LM 比雇人省多少钱"。

3. gain 与随时间追踪进步:把"模型迭代"翻译成一条下降的成本曲线

有了带基线的前沿,论文进一步度量"每个新模型的经济贡献"。随着新模型在时刻 \(t\) 发布,可用集合扩张 \(M_t = M_{t-1}\cup\{m_t\}\),前沿 \(V_p(M_t)\) 必然是一条非增序列。新模型带来的 gain 就是它把前沿往下压的幅度:

\[G_p(\{m_t\}, M_{t-1}) = V_p(M_{t-1}) - V_p(M_{t-1} \cup \{m_t\}).\]

gain 越大,说明这个新模型在解题 \(p\) 上相比包括人类在内的旧有最优方案"便宜"得越多,经济贡献越显著。把单题指标对题目分布 \(P=\{p_i\}\) 取经验期望(\(V_{p\sim D}(M_t)\approx \mathbb{E}_{p\sim P}[V_p(M_t)]\)、gain 同理),就能在整个 benchmark 上画出前沿随时间下降的曲线。论文还对这条曲线拟合指数衰减 \(V_p(M_t)\approx a\,e^{-bt}+c\),用 \(T_{1/2}=\ln 2/b\) 量化"成本减半要多久"。

4. counterfactual frontier:用"抽掉一个家族"反推谁不可或缺

前面回答了前沿在降,这个设计回答"是谁在推它降"。论文做反事实分析:把模型分成轻量、大模型、推理三个家族 \(M_g\),看去掉某个家族后前沿会变差多少,用相对改进量度量该家族的"不可或缺性":

\[\frac{G_{p\sim D}(M_g,\ M_T \setminus M_g)}{V_{p\sim D}(M_T \setminus M_g)},\]

其中 \(M_T\) 是全部模型。这个比值越高,说明把这个家族拿掉、前沿就退化得越厉害,即该家族对维持当前成本前沿越关键。它的巧妙在于:直接看哪个家族在某任务上 cost-of-pass 最低,可能被"恰好它也最便宜"误导,而反事实问的是"没有它,别人能不能补位",更干净地分离出每个家族的独特贡献。

一个完整示例:把框架落到 AIME-24 的复杂数学题上

以"复杂定量推理"这一类为例走一遍 5 步操作流程:(1) 对每个模型-题目对,跑多次独立采样估出成功率 \(R_m(p)\);(2) 统计每次尝试的平均 token 数 × 单价 + 附加费,得到单次成本 \(C_m(p)\);(3) 算 cost-of-pass \(v(m,p)=C_m(p)/R_m(p)\);(4) 估出人类专家成本(AIME 按竞赛规则约每题 12 分钟,配以相应专业时薪),与各模型取最小得到前沿;(5) 在整个数据集上聚合并按发布时间累积。结果是:推理模型(如 o1、o3-mini、DeepSeek-R1)虽然单价远高于轻量和大模型,但因为它们把成功率 \(R_m(p)\) 拉得足够高,反而在 AIME-24 上拿下最低的 cost-of-pass(o3-mini 仅 2.03 美元,而 Llama-3.1-8B 高达 15.33 美元);同期 MATH-500 的前沿成本每 ~2.6 个月减半、AIME-24 每 ~7.1 个月减半。这个例子说明同一套指标如何在"贵单价但高成功率"和"便宜单价但低成功率"之间自动算出谁才真省钱。

实验关键数据

实验用三类模型(轻量 / 大模型 / 推理,每类 3–4 个,2024 下半年至 2025 初发布)× 三类任务(基础定量:两位数加法、GSM8K;知识密集:GPQA-Diamond、BBQ;复杂定量:MATH-500、AIME-24)。

主实验:不同家族各占一个经济生态位

Table 1 给出每个模型 + 人类基线下的前沿 dollar cost-of-pass \(V_{p\sim D}(\{m\}\cup M_0)\)(单位美元,越低越好):

任务类别 数据集 最划算的家族 代表值
基础定量 两位数加法 轻量模型 Llama-3.1-8B:4.8e−5
知识密集 GPQA-Diamond 大 / 推理模型 o1:8.07,o3-mini:8.18
复杂定量 AIME-24 推理模型 o3-mini:2.03,o1:2.85
复杂定量 MATH-500 推理模型 DeepSeek-R1:0.21

关键发现是不同家族占据不同经济生态位:基础定量任务上所有模型准确率都很高,于是最便宜的轻量模型最划算;知识密集任务上大模型靠知识储备胜出;复杂定量任务上推理模型尽管单价最贵,却因成功率优势把 cost-of-pass 压到最低。而如果只看准确率或只看成本(论文附录 Table 5/6),指标会一边倒地偏向推理或轻量模型,恰好说明合并指标的必要性。

进步追踪与反事实分析

  • 成本前沿随时间指数下降:复杂定量任务降得最稳,MATH-500 约每 2.6 个月减半、AIME-24 约每 7.1 个月减半;基础定量和知识任务则是早期模型一来就骤降、之后趋于平台。
  • 反事实家族重要性(Figure 3,去掉某家族后前沿的相对退化 %):轻量模型对基础定量任务最关键(两位数加法去掉后退化 93.5%),大模型仅在知识密集任务上不可或缺,推理模型主导复杂定量推理(AIME-24 去掉后退化 81.0%、MATH-500 退化 74.4%)。结论是当前成本效率前沿主要由轻量模型推理模型两端推动。

推理时技巧的经济性(最反直觉的结论)

Table 2 给出各推理时技巧相对原前沿的增益(%):

技巧 基础定量 知识密集(GPQA) 复杂定量
TALE-EP(预算感知) 1.5 / 66.6 24.5 / 50 0.2 / 16.6
自我修正 Self-Refine 0 / 0 6.7 / 24.9 0 / 0
多数投票 k=3 全 0 全 0 全 0
多数投票 k=4 全 0 全 0 全 0

关键发现:多数投票几乎不带来任何经济增益(虽然可能提准确率,但把成本翻了几倍);自我修正仅在 GPQA-Diamond 上有 24.9% 的可观收益;只有"预算感知"的 TALE-EP(让生成自适应一个预测出的 token 预算)在多个任务上有可见但不均匀的收益。综合看,靠堆推理时算力换的边际准确率提升,在"每个正确答案多少钱"这个尺度上大多得不偿失——成本前沿的真正下降几乎全靠模型本身的迭代。

亮点与洞察

  • 用一条经济学公式统一了两件被割裂的事\(v=C/R\) 这个再简单不过的式子,把"准确率"和"花钱"焊死在一起,且自带"\(R=0\) 即不可行"的边界行为,比任何加权组合都更有解释力。
  • 把人类专家纳进同一张前沿表,让"用 AI 还是雇人"第一次有了可直接比较的货币标尺,也顺手解决了"没有 LM 能解时前沿无穷"的退化问题。
  • 反事实前沿是个可迁移的分析范式:不问"谁最好",而问"抽掉谁别人补不上",能干净地分离出每个组件/家族的独特贡献,这个思路完全可以搬到模型集成、数据子集、甚至特征重要性分析上。
  • "多数投票不划算"这一结论的价值在于它给出了量化反例——很多刷榜技巧在准确率维度有效,但放到经济维度立刻原形毕露,这对实际部署的选型很有指导意义。

局限与展望

  • 依赖准确的成本与成功率估计:单次成本 \(C_m(p)\) 随提供商定价、用量档位、第三方调用而变,token 价格本身在快速下跌,前沿曲线对定价快照敏感;成功率靠有限次采样估计,长尾难题上方差大。
  • 人类专家成本是估算而非实测:作者假设合格专家近乎必对(\(R_{\text{expert}}\approx 1\)),且劳务成本靠薪酬/耗时的"证据层级"推断,不同来源差异很大,基线本身带有不小的不确定性(作者在附录 D.3 讨论了可放宽的假设)。
  • 只覆盖三类任务、几个时间点的模型:结论(哪类模型在哪类任务划算)绑定在所选 benchmark 和 2024–2025 这段窗口上,换任务分布或换时间段结论可能漂移;不同任务的减半周期不可直接横向比大小。
  • 未纳入隐性成本:延迟、可靠性、安全/合规、运维等没有体现在单纯的 token 货币成本里,纯经济指标可能低估某些场景的真实代价。

相关工作与启发

  • vs 固定预算 / 启发式打分类成本评测(Wang et al. 2024;McDonald et al. 2024;Nayab et al. 2024 用简洁度):它们把结论绑死在某个具体约束或代理量上,缺乏普适性和经济解释;本文用真实美元成本 + 成功概率,无需预设预算或代理指标,给出单一可解释的货币量。
  • vs 主张用真实成本与随机性的工作(Kapoor et al. 2024):本文与其核心主张一致(关注真实 dollar 成本、考虑随机性),但进一步把它形式化成扎根生产理论的完整框架(cost-of-pass + 前沿 + 反事实增益),而不只是呼吁。
  • vs 经济学视角的 AI 影响研究(Eloundou et al. 2024;Brynjolfsson et al. 2025 等):那些工作讨论 AI 对生产力和劳动的宏观影响,本文的 cost-of-pass 则充当技术性能与经济后果之间的桥梁,把"某个具体 AI 系统的经济贡献"落到可计算的每题美元成本上。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把成熟的生产前沿理论干净地迁移到 LM 评测,cost-of-pass + 反事实前沿是少见且有解释力的视角。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖三类任务、十个模型、时间序列与多种推理时技巧,论证扎实;但任务面与时间窗口有限。
  • 写作质量: ⭐⭐⭐⭐⭐ 概念层层递进、公式与经济学动机对应清晰,图表把结论讲得很透。
  • 价值: ⭐⭐⭐⭐⭐ 给"AI 划不划算"提供了可量化、可比较人类基线的标尺,对选型与进步度量都有直接实用价值。