ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=VwNzKPqBxk
代码: https://github.com/NVlabs/ProfBench （数据 HuggingFace）
领域: LLM评估 / 基准测试
关键词: rubric 评测, 专业领域, LLM-as-Judge, 自我增强偏置, 报告生成

一句话总结¶

ProfBench 用物理/化学博士与金融/咨询 MBA 专家亲手撰写的 7000+ 条「回答-评分准则」对，搭起一个跨 4 个专业领域、需要真专业知识才能答也才能判的 rubric 评测基准，并配套一个去偏置、便宜 2-3 个数量级的 LLM-Judge，发现连 GPT-5-high 也只能拿 65.9% 总分。

研究背景与动机¶

领域现状：大模型的能力评测高度依赖「答案好不好验证」。数学（AIME）、竞赛编程（LiveCodeBench）、精确指令跟随（IFBench）这些任务之所以热门，正是因为可以用一段脚本或单元测试自动判对错，从而支撑 RLVR（带可验证奖励的强化学习）。科学领域的评测（MMLU-Pro、GPQA、HLE）也被迫退化成单选或短答案 span，只为了「有唯一正确答案」。

现有痛点：但现实世界里有价值的专业任务——读一堆专业文档、综合信息、写一份多页报告——根本没有唯一正确答案，无法套用上述验证方式。已有的 rubric 类基准要么只覆盖单一领域（PaperBench 限于复现 ML 论文、HealthBench 限于医疗），要么虽然号称多领域却质量堪忧：DeepResearch-Bench RACE 的题目「巴菲特和芒格的投资哲学是什么」一个本科生几次搜索就能答，而且它的评分准则和参考答案都由 Gemini-2.5-Pro 合成，导致 Gemini-2.5-Pro 自己在 4 个维度上拿到 >97% 的虚高分。

核心矛盾：「任务要够专业、够真实」与「评分要可验证、可负担、还得公平」这几件事很难同时满足。专业 rubric 必须请真专家手写（贵、慢、难招），而用 LLM 当裁判又会带来自我增强偏置（模型偏爱自家或同族模型的回答），跑一遍还可能花掉上千美元。

本文目标：(1) 造一个跨多个专业领域、由真专家手写 rubric 的硬基准；(2) 配一个既贴近人类标注、又对各家模型公平、还便宜到社区能负担得起的 LLM-Judge；(3) 用它系统性地测一遍 40+ 个模型，看专业领域上谁强谁弱、思考到底有没有用。

核心 idea：把「复杂专业问题」拆成一组「好回答必须满足的二元准则」，让专家写准则、让一个经过去偏置和降本改造的 LLM 来逐条判断是否满足，从而把无法验证的开放式专业任务变成可量化、可复现的评测。

方法详解¶

整体框架¶

ProfBench 不是一个模型方法，而是一条「数据采集 → 裁判遴选 → 模型评测」的评测流水线。输入是 4 个专业领域（物理 PhD、化学 PhD、金融 MBA、咨询 MBA）专家提出的真实工作任务，输出是一张能同时排「谁更会当裁判」和「谁更会写报告」的双榜单。整条管线分三段：先由专家完成「出题 → 写准则 → 给三个模型的回答逐条打 Yes/No」拿到 7347 条带人工真值的回答-准则对；再把这些真值当标尺，去 benchmark 一大批 LLM 当裁判的能力（用 Macro-F1 衡量与人类的一致性、用 Bias-Index 衡量公平性），选出一个又准又便宜的最优裁判；最后用这个裁判去给 40+ 个模型生成的报告打分，得到报告生成榜。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["4 领域专家<br/>物理/化学 PhD · 金融/咨询 MBA"] --> B["1. 专家 rubric 数据集<br/>出题→写准则→逐条 Yes/No"]
    B --> C["7347 条回答-准则对<br/>含人工真值"]
    C --> D["2. 去偏置 LLM-Judge<br/>Macro-F1 + Bias-Index"]
    D -->|选出又准又便宜的裁判| E["3. 降本与领域自适应<br/>GPT-OSS-120B 按域调思考力度"]
    E --> F["报告生成榜<br/>40+ 模型按准则达成率打分"]

关键设计¶

1. 专家手写的多领域 rubric 数据集：把开放式专业任务拆成可判定的二元准则

针对「真实专业任务没有唯一正确答案、无法验证」的痛点，ProfBench 把每个任务分解成一组独立可用的评分准则，好回答必须逐条满足。数据由 8 个国家的 38 位专家产出，44.7% 持 PhD、18.4% 持 MBA，平均毕业后 5.24 年从业经验，全程禁止使用任何 LLM。每位专家完整走「出题（Prompt Ideation）→ 写准则（Rubric Creation）→ 标注回答（Response Annotation）」三步，每个任务花 10-20 小时，且每人最多贡献 5 个任务以保证多样性。出的题刻意设计得连 2025 年 7 月最强的 o3 / Grok4 / DeepSeek R1-0528 都难住——通常是会让初级同事去做、最终产出一份多页报告的多子问题任务（如金融 MBA 那道分析 IFFIm 如何在资本市场为疫苗融资的投资备忘录题）。每个任务写 15-60 条准则，每条带描述、理由、重要性和一个或多个类型标签；准则按内容分为 Reasoning（占 62.9%，判逻辑正确性）、Extraction（34.1%，判信息检索准确性）、Style（3.0%，判格式与清晰度）。最终得到 80 个任务、4 域各 20 个、共 7347 条回答-准则对。质量把控很硬：41.4% 的准则在评审中被标为「需改进」，且做了交叉验证——另请两位同领域专家重标 1127 条，Fleiss' $\kappa = 0.912$，说明标注高度可信。

2. 去自我增强偏置的 LLM-Judge：用 Bias-Index 把「公平」量化进总分

光看裁判与人类一致不够，因为 LLM 有自我增强偏置——会给自家或同族模型的回答虚高打分。ProfBench 把任务设计成一个二分类的 NLI/文本蕴含问题：给裁判「回答 + 单条准则」，问是否满足（Yes/No），且故意不给原始题目（准则本就设计为可独立使用，给题目反而会干扰裁判）。一致性用 Macro-F1 衡量。公平性则用自定义的 Bias-Index：先对每个被评模型算偏置 $\frac{1}{N}\sum_{i=1}^{N}(c_i^{\text{model}} - c_i^{\text{human}})$，即裁判预测的准则达成与人类真值之差的平均；再在三个被评模型（o3、Grok4、R1-0528）上取最大偏置减最小偏置作为 Bias-Index。Bias-Index 越接近 0，说明裁判没有相对地偏袒或打压某家模型。最终的总分定义为 $\text{Overall} = \text{Macro-F1} - \text{Bias-Index}$，把「准」和「公平」拧成一个可比的数。结果显示这套设计能把跨三家模型的偏置压到不超过 1%，且 GPT-4.1 裁判在三次独立运行间 Macro-F1 与 Bias-Index 波动 <0.2%，稳定到只需跑一次就够。

3. 降本与领域自适应裁判：把评测成本砍掉 2-3 个数量级

要让基准对社区可负担，裁判不能贵。ProfBench 在推理设置上做文章：非推理 LLM 只生成 1 个 token（Yes/No），推理 LLM 最多生成 32000 token，使得非推理裁判比推理裁判便宜快约 2-3 个数量级。在 benchmark 完 40+ 个裁判后，作者并不无脑选最强的专有模型，而是综合「Overall 分 + 运行成本」选了开源的 GPT-OSS-120B。更巧的是观察到：高思考力度版本在物理、化学和 Style 类准则上更强，低思考力度版本在其余准则上更优——于是按「领域/准则类型」动态切换思考力度（物理/化学/Style 用 high effort、其余用 low effort）。这个领域自适应裁判达到 78.2% Overall，追平最强专有模型 Gemini-2.5-Pro，却只花它 1.68% 的成本（$0.70 vs $41.46，而对比 PaperBench JudgeEval 的 $1320 更是天壤之别）。一半数据公开、一半留作私有集以缓解测试污染。

一个例子：金融 MBA 任务怎么被评¶

以「评估某投行新设健康金融业务单元、研究 GAVI 通过 IFFIm 在资本市场融资」这道题为例：专家先写出一道含 6 个子问题、明确要求「投资备忘录风格、以文字为主、少用表格」的多页报告题；再写出几十条准则，如 Extraction 类「指出 IFFIm 违反流动性政策会损害其评级」、Reasoning 类「指出疫苗是全球最具成本效益的健康投资之一」、Style 类「清晰呈现结论以便有效使用」；接着让 o3/Grok4/R1-0528 各生成一份回答，专家逐条判 Yes/No 并写理由。评测时，裁判拿到「某模型的回答 + 单条准则」（不含原题），判是否满足，最后按准则重要性加权（additional=1、minor=2、major=3、critical=4）算达成率，得到该回答的分数。

实验关键数据¶

主实验：LLM 当裁判（与人类一致性 + 公平性）¶

裁判榜的核心结论是「专有模型领先，但开源紧追且便宜得多」。

裁判模型	Macro-F1 (All)	Bias-Index ↓	Overall ↑	成本($)
Gemini-2.5-Pro (Thinking)	79.2	1.0	78.2	41.46
GPT-OSS-120B（领域自适应思考力度）	78.7	0.5	78.2	0.70
o3-low	78.7	2.3	78.7→76.4	14.01
GPT-4.1（1 token/任务，非推理最佳）	76.3	0.9	75.4	11.31
Kimi-K2-Instruct-0711（开源非推理）	77.6	2.4	75.2	0.81
GPT-4.1-nano	67.9	13.8	54.1	0.56

非推理类里 GPT-4.1 最佳（75.4%），开源 Kimi-K2-0711 只差 0.2% 却仅花其 7.16% 成本；推理类里 Gemini-2.5-Pro 称王（78.2%），开源 GPT-OSS-120B-low 仅差 1.5% 却只花其 1.21% 成本。最终领域自适应版 GPT-OSS-120B 以 1.68% 的成本追平 Gemini-2.5-Pro。

主实验：LLM 当报告生成器¶

即便用最强裁判去评，这个基准也极难。

模型	Physics	Chemistry	Finance	Consulting	Overall
GPT-5 (high)	49.3	70.6	63.7	80.0	65.9
o3	46.1	61.8	60.9	76.8	61.4
Gemini-2.5-Pro	46.8	66.3	54.0	74.2	60.3
GPT-OSS-120b（开源最佳）	49.1	55.3	45.5	69.4	54.9
DeepSeek-V3.1 (Thinking)	44.8	59.8	43.3	67.4	53.8

最强的 GPT-5-high 也只有 65.9%，与 HealthBench（GPT-5 67.2%）难度相当，却远难于 AIME 25（94.6%）、GPQA-Diamond（87.0%）。领域上物理最难（49.3%），其次金融、化学、咨询。

关键发现¶

思考不一定有用，要看怎么比：同一模型开/关思考通常小幅提升（0.3-4.8%），GPT-5 从 minimal 到 high 递增 4.8%；但若是「同尺寸、分别为指令跟随和思考训练的两个模型」相比，思考版反而可能更差——Qwen3-30B-Thinking 只有 44.6%，而 Instruct 版 49.3%，原因之一是 Instruct 版回答更长（11167 vs 4757 字符）。
思考越多偏置越大：增大思考力度普遍提升与人类的一致性，但也增大对特定模型（尤其 o3）的偏置，可能是自我增强偏置随思考加深而放大——这正是要把 Bias-Index 纳入总分的实证理由。
规模有用但很快饱和：同族内大模型更强，但收益递减；GPT-5-mini 比 nano 提升 10.2%，GPT-5 比 mini 只提升 5.6%；llama-3.1-70B→3.3-70B（+3.4%，换 post-training 配方）的跃升甚至大于 70B→405B（+0.9%，纯堆规模）。
开源在金融上差距最大：闭源 vs 开源在物理上差 <1%，化学/咨询差 9.2%/9.6%，金融差最大达 15.0%——可能因开源模型偏重 Code/Math 类基准（与物理解题路数相近），而对化学、咨询、金融关注不足。

亮点与洞察¶

「Overall = Macro-F1 − Bias-Index」是个可复用的裁判设计范式：很多 LLM-as-Judge 工作只报一致性，ProfBench 把「公平性」显式量化并直接扣进总分，逼着裁判既准又不偏心，这个思路可迁移到任何用 LLM 当裁判的评测里。
领域自适应思考力度是个便宜的好 trick：发现「物理/化学/Style 吃思考、其余不吃」后按域切 high/low effort，用一个开源模型以 1.68% 成本追平顶级专有裁判，对预算有限的研究者极友好。
「禁止 LLM 介入标注」是它对 DeepResearch-Bench 的针对性修正：用合成准则会引入对生成模型的系统性偏袒（Gemini 虚高 97%），ProfBench 全程人工 + 交叉验证（κ=0.912）把这条堵死。
「验证比求解简单，但不该限制能训什么任务」这个出发点很有启发：rubric 分解让本来不可验证的开放式专业报告变得可量化，为把 RLVR 扩展到真实高价值任务铺了路。

局限与展望¶

数据规模受限于专家招募的高成本——80 个任务、38 位标注者，虽与 PaperBench/HealthBench 同量级，但领域内任务覆盖仍有限。
只覆盖文本模态、英文、且禁用专有文档（只能用公网可查资料），与真实专业工作中常见的多模态、非公开材料场景有差距。
一半数据留作私有集以防污染，意味着公开可复现部分只有一半；且裁判的偏置只在 o3/Grok4/R1-0528 三个模型上度量，对更广模型族的公平性是否成立未充分验证。
Bias-Index 用「max−min 偏置」定义，对仅三个参照模型较敏感，参照集换了结论可能漂移。

评分¶

新颖性: ⭐⭐⭐⭐ 把多领域专家 rubric、裁判去偏置、降本三件事系统地拼成一个可负担的硬基准，范式扎实但单项技术非颠覆性。
实验充分度: ⭐⭐⭐⭐⭐ 40+ 模型 × 裁判榜 + 报告生成榜，思考/规模/开源闭源/成本多维分析齐全，交叉验证 κ=0.912。
写作质量: ⭐⭐⭐⭐ 动机清晰、对比表点明痛点，指标定义到位；表格密集但叙事顺畅。
价值: ⭐⭐⭐⭐⭐ 给「不可验证的专业任务」提供了可量化、便宜、公平的评测底座，对推动化学/金融/咨询等被忽视领域的进展有直接价值。