BizCompass: Benchmarking the Reasoning Capabilities of LLMs in Business Knowledge and Applications¶

会议: ACL 2026 Findings
arXiv: 2604.17305
代码: https://bizcompass.dev.ypemc.com/
领域: LLM评测
关键词: 商业推理基准, 知识与应用评估, LLM能力诊断, 金融经济, 双轴设计

一句话总结¶

本文提出 BizCompass，一个连接理论基础与实际应用的商业推理基准，覆盖金融/经济/统计/运营四个知识域和分析师/交易员/顾问三个应用角色，系统评估了开源与闭源 LLM 的商业推理能力，揭示理论知识向实际表现转化的规律。

研究背景与动机¶

领域现状：LLM 在商业应用中前景广阔，但商业分析本质上复杂，需要严谨推理和多元知识整合。现有基准（如 FinBen、CFLUE 等）通常只针对单一狭窄任务（如情感分析、实体抽取），无法回答一个根本问题：LLM 如何在商业中可靠应用，这些应用能力的理论基础是什么？

现有痛点：(1) 现有基准多聚焦金融领域，缺少对经济学、统计学、运营管理等其他商业核心领域的覆盖；(2) 缺乏将理论知识能力与实际应用表现联系起来的诊断框架——知道 LLM 在某个具体任务上表现好/差，但不知道背后是哪些基础能力在起作用。

核心矛盾：模型规模扩大和推理链技术（CoT）并不保证商业推理能力的提升——DeepSeek-R1（671B）在某些任务上甚至不如小得多的闭源模型，说明简单的 scaling 不够，需要深入理解知识与应用之间的映射关系。

本文目标：(1) 构建一个覆盖商业全景的评估基准；(2) 通过双轴设计诊断理论知识如何驱动或限制实际应用表现；(3) 为模型选型和训练优化提供可操作的建议。

切入角度：采用"知识层 + 应用层"的双轴设计——知识层回答"模型掌握了什么"，应用层回答"模型能做什么"，两者交叉分析回答"为什么能/不能"。

核心 idea：用双轴基准将商业 LLM 评估从"任务表现"提升到"能力诊断"层面，不仅衡量做得好不好，还诊断好/差的根因。

方法详解¶

整体框架¶

BizCompass 要回答的核心问题是"LLM 能否在商业中可靠应用、这些应用能力背后的理论基础是什么"，为此把基准拆成正交的两层。知识层覆盖金融（FIN）、经济学（ECON）、统计学（STAT）、运营管理（OM）四个核心领域，每个领域含多项选择题与开放问答题，回答"模型掌握了什么"；应用层围绕分析师、交易员、顾问三个代表性商业角色设计任务，回答"模型能做什么"。两层的分数再通过跨域相关性分析交叉起来回答"为什么能/不能"，评估指标按任务类型选用准确率、F1、ROUGE 和以 GPT-4o 作评判者的多维度 GPT-Eval。

关键设计¶

1. 知识层四领域覆盖：把商业理论基础铺成完整面

现有商业基准多扎堆在金融领域，对经济学、统计学、运营管理等其他核心领域几乎不覆盖，无法测出商业决策真正依赖的跨领域知识整合能力。BizCompass 让金融领域取材于 FRM、CFA 等专业考试题目，经济学覆盖微观/宏观经济理论，统计学覆盖概率论、假设检验、回归分析，运营管理覆盖供应链、项目管理、质量控制，且每个领域都铺开不同难度的题目。四个领域合起来正好构成商业分析的核心理论谱系，使知识层能成为后续诊断应用瓶颈的"地基刻度"。

2. 应用层三角色设计：测理论知识向实际业务技能的转化

不同商业角色对知识的要求和运用方式截然不同，单一任务格式测不出从定量到定性的完整能力跨度。本文用三个角色把这条谱系铺满：分析师角色要求数据解读、趋势分析、风险量化等分析能力；交易员角色要求市场判断、投资组合构建、风险管理等决策能力；顾问角色要求战略思考、方案评估、客户沟通等综合能力。每个角色对应具体的任务格式（选择题、开放问答、案例分析等），从而让应用层既覆盖定量分析又覆盖定性推理，与知识层的四领域形成可交叉的双轴。

3. 跨域相关性分析：诊断知识能力如何驱动应用表现

只给分数无法解释"为什么好/差"，本文因此计算知识层四个领域与应用层各任务之间的相关性矩阵。结果显示分析型/定量任务与 OM 和 STAT 相关性更强，文本型/咨询类任务与知识域相关性较弱；进一步把这套分析延伸到与代码推理能力（SWE-bench）的相关性上，发现两者正相关，暗示分解推理和结构化思维是商业与代码共通的底层能力。这一步让基准从"打分"升级为"定位瓶颈"，可以指出哪些基础能力是短板、应当针对性补训。

实验关键数据¶

主实验¶

模型	金融 Acc	经济 Acc	统计 Acc	运营 Acc	应用层 Avg Acc
GPT (闭源)	80.4%	83.0%	83.8%	79.3%	79.9%
Gemini (闭源)	82.1%	87.8%	85.7%	82.7%	77.4%
Claude (闭源)	81.8%	85.8%	84.6%	80.2%	75.5%
DeepSeek-R1 (671B)	73.8%	81.7%	70.9%	71.1%	71.3%
Qwen (235B)	78.6%	81.7%	82.1%	80.0%	64.8%
Llama (70B)	52.6%	62.8%	57.8%	60.5%	60.2%

消融实验¶

分析维度	发现	说明
规模 vs 性能	非线性	DeepSeek-R1 (671B) 多项指标不如较小闭源模型
CoT vs 无CoT	不稳定	加入 CoT 不保证提升，效果依赖数据质量和对齐
知识到应用相关性	不均匀	OM/STAT 对分析类任务影响大，FIN/ECON 影响弱
代码推理到商业表现	正相关	SWE-bench 成绩与知识层表现正相关

关键发现¶

闭源模型在知识层和应用层均一致领先，但差距在应用层更为明显，说明应用能力更难通过开源训练习得
模型规模不是决定因素：DeepSeek-R1 (671B) 在统计和运营管理上低于 Qwen (235B)，蒸馏模型更差
跨域相关性分析揭示统计和运营管理知识对分析型应用任务更关键
代码推理能力与商业知识正相关，说明分解推理和结构化思维是共通的底层能力

亮点与洞察¶

双轴设计的诊断能力：不同于传统 benchmark 只给分数，BizCompass 能诊断"为什么好/差"——通过知识层与应用层的交叉分析，可以指出具体的能力瓶颈
"规模不等于能力"的实证：671B 参数的 DeepSeek-R1 在多项商业推理指标上不如较小的闭源模型，有力挑战了 scaling law 在垂直领域的适用性
评估指标的多元化：综合使用准确率、F1、ROUGE 和 GPT-Eval 四种指标适配不同任务类型，评估设计合理

局限与展望¶

知识层主要基于英文考试题目，非英语商业环境下的评估缺失
应用层的三个角色设计虽有代表性，但未覆盖所有商业场景（如人力资源、市场营销等）
GPT-Eval 使用 GPT-4o 作为评判者，存在评判模型自身偏见的风险
数据集是静态的，商业环境快速变化，基准的时效性是挑战
40 页论文中大量篇幅用于展示完整结果表格，核心发现可以更聚焦

评分¶

新颖性: ⭐⭐⭐⭐ 双轴设计有创新性，但 benchmark 论文本身的技术贡献有限
实验充分度: ⭐⭐⭐⭐⭐ 评估了大量开源和闭源模型，指标多元，分析深入
写作质量: ⭐⭐⭐⭐ 结构清晰，但过于冗长（40页）
价值: ⭐⭐⭐⭐ 填补了商业领域 LLM 评估的空白，对行业应用有参考价值