EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements¶

会议: ICLR 2026
arXiv: 2506.08762
代码: GitHub
领域: 时间序列
关键词: financial benchmark, LLM evaluation, fraud detection, earnings forecasting, Japanese NLP

一句话总结¶

构建了基于日本 EDINET 十年年报的金融基准 EDINET-Bench，包含会计欺诈检测、盈利预测和行业分类三项专家级任务，发现即使是 SOTA LLM 也仅略优于逻辑回归。

研究背景与动机¶

领域现状: LLM 在数学、编程等领域已超越人类表现，基准数据集是推动进步的关键驱动力。但金融领域基准数据集相对匮乏，现有基准（FinQA、ConvFinQA 等）多为简单 QA 或数据抽取任务。

现有痛点: 现有金融基准不涉及专家级推理（如整合多张报表和文本段落），无法评估 LLM 在真实高风险金融任务上的能力。

核心矛盾: LLM 在通用任务上表现优越，但金融领域需要同时处理大量表格数据和文本信息，并进行跨年度复杂推理。

本文目标: 提供首个开源的、需要专家级推理的日语金融基准，特别是首个开放的会计欺诈检测数据集。

切入角度: 利用日本 EDINET 系统（类似美国 EDGAR）十年的真实年报数据，构建三个挑战性任务。

核心 idea: 真实年报 + 专家级金融任务 = 揭示 LLM 在金融推理上的不足。

方法详解¶

整体框架¶

EDINET-Bench 要解决的问题是：现有金融基准都停留在简单 QA 或表格抽取，没有一套需要"读完整份年报、跨多张报表和文本做专家级推理"的公开评测，更没有任何开放的会计欺诈检测数据。作者的做法是搭一条从原始监管文件到可评测任务的数据管线——先用自研工具 edinet2dataset 调 EDINET API 把十年（2014–2025）约 41,691 份日本年报批量下载、解析成结构化语料 EDINET-Corpus；再在语料上构建会计欺诈检测、盈利预测、行业分类三项任务，难点都落在如何为真实年报"造出可靠标签"；最后用一套统一的零样本协议，让十余个 LLM 与经典机器学习基线在相同提示、不同年报输入组合下横向比拼。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["十年日本年报<br/>(EDINET API, 41,691 份)"] --> B["edinet2dataset 解析工具<br/>Polars 高速解析 TSV"]
    B --> C["EDINET-Corpus<br/>Meta / Summary / BS / PL / CF / Text 六类"]
    C --> D["会计欺诈检测<br/>修正年报 → Claude 判因 → 人工审核"]
    C --> E
    subgraph E["盈利预测与行业分类"]
        direction TB
        E1["盈利预测<br/>跨年度净利润方向二分类"]
        E2["行业分类<br/>TOPIX-33 → 16 大类"]
    end
    D --> F["统一零样本评测协议<br/>切换年报输入组合"]
    E --> F
    F --> G["LLM vs 经典 ML<br/>横向对比 (ROC-AUC / MCC / Acc)"]

关键设计¶

1. edinet2dataset 与 EDINET-Corpus：把异构监管文件压成统一结构

年报在 EDINET 里以 TSV 形式存放，每一行是一个属性记录，字段散乱、直接喂给模型既臃肿又难对齐，下游也无从控制"到底给模型看了哪些信息"。作者参照美国 EDGAR 的 edgar-crawler 写了 edinet2dataset，用 EDINET API 拉取 2014 年 4 月至 2025 年 4 月约 41,691 份年报与修正年报，借助 Polars 做高速解析，把每份文件归并成六类信息：Meta（公司名、EDINET 代码等元数据）、Summary（关键财务指标）、Balance Sheet（BS，资产负债表）、Profit & Loss（PL，利润表）、Cash Flow（CF，现金流量表）、Text（公司沿革、业务风险等文本段落），整体沉淀为公开语料 EDINET-Corpus。这一层不只是数据基础设施，它还把"年报内容"切成了可拆可组的模块，下游才能做"只给 Summary / 再加三张报表 / 再加 Text"的输入消融——后面所有任务和实验都站在这套结构之上。

2. 会计欺诈检测：用修正年报反推欺诈标签

这是整个基准最关键、也最缺现成数据的一环——欺诈本来就没有公开标注。作者抓住一个事实：年报若被发现有问题，公司会发布修正年报，而修正年报会用文本明确写出"为什么要修"。于是先下载十年共 6,712 份修正年报，用 pdfminer 抽出修正原因文本，再让 Claude 3.7 Sonnet 判断每条原因是否真正构成会计欺诈（很多修正只是误报大股东持股、漏报高管薪酬等非欺诈问题）。这样筛出 668 份欺诈正样本，并由人工逐条复核修正原因，把误标率压到 5% 以下。负样本则从其余公司中随机抽 700 家、每家随机取一份年报。划分时严格保证同一家公司不跨训练/测试集，避免主体泄漏；因解析失败实际得到 534 份欺诈、555 份非欺诈（训练 865、测试 224）。"用修正年报当弱监督、再用 LLM+人工把噪声标签提纯"正是这套基准能成为首个开源欺诈检测数据集的核心技巧。

3. 盈利预测与行业分类：两项标签更直接的对照任务

这两项任务的标签构造比欺诈检测简单，但分别考察不同能力。盈利预测设计成二分类：把同一公司相邻两年的年报配对，以"归母净利润"相对上一年的增减方向作标签，看模型能否从当期财报推断下一年盈利走势；划分用时间切分（2020 年之前为训练，得到 549 条训练、451 条测试），保证测试集严格在训练时间之后，贴近真实预测场景。行业分类则是多分类：直接用日本 SICC 的 TOPIX-33 细分行业会让每类样本过少，作者把它合并成 16 个大类（每类约 30+ 家公司，测试集 476 条），更依赖对业务描述文本的语义理解，是衡量模型对日语金融文本基本把握能力的对照项。两项都不需要 LLM 提纯标签，因而能和欺诈检测形成"难标签 vs 易标签"的对比。

4. 统一零样本评测协议：相同提示、可控输入下横向对比

为了让结论可比，三项任务都走同一套零样本协议：系统消息固定为 "You are a financial analyst"，再通过切换年报输入组合（仅 Summary / +BS+CF+PL / 再 +Text）观察信息量对性能的边际影响——这一步只有靠设计 1 的六类切分才能做到。受测模型涵盖 GPT-4o、o4-mini、GPT-5、Claude 3.5 Haiku/Sonnet、Claude 3.7 Sonnet、Kimi-K2、DeepSeek-V3/R1、Llama 3.3 70B；同时以 Logistic Regression、Random Forest、XGBoost 三个经典机器学习模型作基线，用来检验 LLM 相对传统统计方法到底有没有真优势。正是这套协议让全文得出"最强 LLM 也只是略胜逻辑回归"的诚实结论。

实验关键数据¶

主实验¶

欺诈检测 ROC-AUC（部分）:

模型	Summary	+BS/CF/PL	+Text
Claude 3.5 Sonnet	0.64	0.63	0.73
GPT-5	0.56	0.62	0.67
Logistic Regression†	-	0.61	-

盈利预测 ROC-AUC:

模型	Summary	+BS/CF/PL	+Text
GPT-5	0.58	0.62	0.65
Claude 3.7 Sonnet	0.55	0.58	0.61
Logistic Regression†	-	0.60	-

消融实验¶

输入信息量的消融:

输入配置	欺诈检测(avg)	盈利预测(avg)
Summary only	~0.58	~0.48
+BS/CF/PL	~0.59	~0.52
+Text	~0.64	~0.52

关键发现¶

LLM 仅略优于逻辑回归: 在二分类任务上，最强 LLM 的 MCC 也仅在 0.1-0.3 之间
文本信息有帮助: 加入 Text 段后欺诈检测 ROC-AUC 平均提升 ~0.06
开源模型落后: DeepSeek-V3/R1 在金融任务上明显弱于闭源模型
行业分类相对简单: 提供完整报表后 Claude 3.5 Sonnet 达 41% 准确率（16类随机基线 6.25%）
每份年报约30K tokens，单次推理成本约$0.1（Claude 3.7 Sonnet）

亮点与洞察¶

首个开源会计欺诈检测数据集: 此前无公开的欺诈检测评估基准
edinet2dataset 工具开源: 提供了从 EDINET 构建金融数据集的完整管线，基于 Polars 高速解析 TSV
诚实的结论: 直言仅提供年报让 LLM 直接推理是不够的，需要更多脚手架（如模拟环境、任务特定推理支持）
跨语言价值: 日语金融基准填补了非英语金融 NLP 的空白
实验设计严谨: 多种输入配置的消融，经典ML基线的对比，成本分析透明
标签质量控制: 欺诈标签经 Claude 判断 + 人工审核，误标率 <5%

局限与展望¶

仅评估零样本设置，缺少 few-shot 和 RAG 实验，未探索 chain-of-thought 等推理增强
欺诈标签由 Claude 3.7 Sonnet 生成而非完全人工标注，可能存在系统性偏差
评估的 LLM 多数对日语金融术语理解有限，特别是开源模型
数据仅覆盖日本市场，未评估跨国泛化能力
缺少对 LLM 推理过程的深入分析（如关注哪些报表项目、推理路径可视化等）
fine-tuned Llama-3.2-1B 未展示完整结果，缺少小模型微调的充分探索
欺诈检测和盈利预测均为二分类，未探索更细粒度的回归任务
年报长度约30K tokens，接近部分模型的上下文限制，可能影响结果

评分¶

新颖性: ⭐⭐⭐⭐ 首个开源欺诈检测基准，但任务本身设计较为直接
实验充分度: ⭐⭐⭐⭐ 覆盖10+模型和3种输入配置，但缺少 few-shot 等进阶实验
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建流程详尽，表格丰富
价值: ⭐⭐⭐⭐ 开源工具和数据集对金融 NLP 社区有实际贡献，揭示 LLM 金融推理的不足