FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging¶
会议: ICCV 2025
arXiv: 2508.04625
代码: 无(提供在线评测平台)
领域: 多模态VLM
关键词: 多模态推理, 金融数值推理, benchmark, 大语言模型评测, 视觉感知
一句话总结¶
提出 FinMMR,一个双语(中英文)多模态金融数值推理基准,包含 4,300 道题目、8,700+ 张金融图表、14 个金融子领域,系统评估了 15 个 MLLM 在专业领域复杂推理中的瓶颈,并提出视觉过滤、知识增强和模型协作三种改进策略。
研究背景与动机¶
当前大规模推理模型(LRMs)在纯文本推理任务上表现出色,但在需要融合视觉感知和领域专业知识的实际场景中仍面临显著挑战。金融领域是典型高风险场景,分析师需要阅读视觉丰富的财务文档,从表格、图表和文本中提取关键指标并进行多步精确数值计算。
现有金融推理基准存在三个主要不足:
缺少多模态:FinanceMath、CodeFinQA 等基准仅支持纯文本
领域覆盖窄:多数基准仅覆盖 6-10 个子领域
推理难度低:FAMMA 来自教科书/考试,MMMU 限于选择题格式,无法真正检验精确数值推理能力
方法详解¶
整体框架¶
FinMMR 基准由两个数据来源构成: - 改造公共基准:从 MMMU、MMMU-Pro、FinanceMath、CodeTAT-QA、CodeFinQA、DocMath-Eval 中提取并转化为多模态问题(将表格文本渲染为图片) - 全新构建 CRRQA:从 90 份中文金融研究报告中构建 2,150 道新题
每道题包含:丰富的图片输入、明确的问题描述、Python 格式的解题方案和精确数值答案。
关键设计¶
-
多模态性设计: 将所有表格、图表渲染为图片而非结构化文本,迫使模型必须进行视觉感知。特别地,中文题目中混入来自同一报告相邻页面的干扰图片(共 3,938 张干扰图用于 2,150 道题),模拟真实场景中多图筛选的挑战。14 类图片涵盖条形图、折线图、股权结构图、K线图等。
-
全面性设计: 覆盖 14 个金融子领域(公司金融、银行业、行业分析、资产管理等),大幅超越现有基准的知识广度。支持中英双语,每种语言 2,150 道题。
-
挑战性设计: 所有题目要求精确数值答案(非选择题),采用严格的 0.2% 误差容忍度评估。难度按启发式公式分级:\(rc = \ln(\max(o,1)) + \ln(\max(l+p,1))\),其中 \(o\) 为运算符数量、\(l\) 为代码行数、\(p\) 为括号对数。Hard 子集平均需 5.34 个运算符和 7.34 行代码。
损失函数 / 训练策略¶
作为 benchmark 论文,无模型训练。评测体系包括: - Prompting 方法:IO(无提示)、CoT(思维链)、PoT(程序思维) - 答案提取:CoT/IO 用 GPT-4o-mini 提取数值,PoT 直接执行生成的 Python 程序 - 评测标准:0.2% 严格误差容忍度
实验关键数据¶
主实验¶
| 模型 | 推理增强 | Hard (CoT) | Hard (PoT) | Medium (CoT) | Easy (CoT) | Avg (CoT) |
|---|---|---|---|---|---|---|
| Claude 3.7 Sonnet (64K) | ✔ | 53.00 | 51.40 | 62.50 | 78.50 | 64.00 |
| OpenAI o1 | ✔ | 48.40 | 44.70 | - | - | - |
| GPT-4o | ✘ | 45.40 | 47.80 | 63.33 | 78.00 | 62.24 |
| Llama 4 Maverick (17B) | ✘ | 48.70 | 47.80 | 63.25 | 77.83 | 63.26 |
| Qwen2.5-VL-72B | ✘ | 43.30 | 46.20 | 63.42 | 77.42 | 61.38 |
| QVQ-72B-Preview | ✔ | 40.30 | 6.20 | 55.67 | 75.42 | 57.13 |
最佳模型在 Hard 子集上仅达 53%,远低于及格线。
消融实验(知识增强与模型协作)¶
| 策略 | PoT 基线 | RAG + PoT | 提升 |
|---|---|---|---|
| Gemini 2.0 Flash Thinking | 78.71 | 83.02 | +4.31 |
| GPT-4o | 80.60 | 83.62 | +3.02 |
| Claude 3.7 Sonnet | 81.21 | 85.43 | +4.22 |
| Claude 3.7 Sonnet (64K) | 83.53 | 86.29 | +2.76 |
| 干扰图实验 (Qwen2.5-VL-72B) | Ground Images | Distractor Images | 性能下降 |
|---|---|---|---|
| Hard | 57.18% | 47.23% | ↓9.95 |
| Medium | 73.01% | 61.36% | ↓11.65 |
| Easy | 61.59% | 53.64% | ↓7.95 |
视觉过滤-推理两阶段管道使 Medium 子集准确率从 64.73% 提升至 71.56%(+6.83)。
关键发现¶
- 推理增强模型代价高昂:Claude 3.7 Sonnet 64K 思考模式使用近 12 倍 token(4.06M vs 0.34M),仅提升 2.2 个百分点
- PoT 优于 CoT:PoT 在需精确计算时更优,Qwen2.5-VL-72B 用 PoT 减少 58.88% token 消耗同时提升准确率
- QVQ 灾难性退化:强化学习训练导致代码生成能力丧失,PoT 执行成功率仅 10.9%,准确率从 40.3%(CoT)暴跌至 6.2%(PoT)
- 模型协作有效:GPT-4o(视觉解析器)+ DeepSeek-R1(推理器)组合达 86.72%,超越单模型最佳 83.53%
- 错误类型分析:38% 知识推理错误、32% 数值计算错误、30% 视觉感知错误
亮点与洞察¶
- 干扰图片机制非常贴近真实金融分析场景,揭示了MLLM在多图筛选上的脆弱性(超过10%的性能下降)
- 视觉过滤+推理的两阶段解耦思路简洁有效,为复杂多模态推理提供了实用范式
- 知识增强实验展示了结构化领域知识(3,133 个 Python 金融函数库)对 MLLM 推理的巨大提升潜力
- 数据质量保障:16名金融研究生+2名CFA持证人历时3个月标注验证
局限与展望¶
- 测试集答案未公开(防泄露),依赖在线评测平台,可能限制复现和深度分析
- 干扰图片仅用于中文子集,英文子集缺乏此类挑战
- 难度分级基于代码复杂度的启发式公式,可能无法完全反映认知难度
- 未评测开源推理增强模型(如 DeepSeek-R1 的多模态版本)
相关工作与启发¶
- 与 FAMMA(教科书/考试来源)和 FinMME(选择题格式)形成互补,FinMMR 更贴近真实金融工作场景
- 视觉解析器+推理器的模型协作范式具有一般性,可推广到医疗、法律等其他专业领域
- MLLM-Instructed Knowledge Retrieval(让 MLLM 生成检索查询)是一个实用的 RAG 改进思路
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模多模态金融数值推理基准,干扰图片和精确数值评估设计独到
- 实验充分度: ⭐⭐⭐⭐⭐ 评测了 15 个模型,三种提示方法,多种改进策略,错误分析深入
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验组织合理,但部分表格信息密度极高
- 价值: ⭐⭐⭐⭐⭐ 为 MLLM 在专业领域的应用提供了重要评测基准和改进方向
FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging¶
会议: ICCV 2025
arXiv: 2508.04625
代码: 无(提供在线评测平台)
领域: 多模态视觉语言模型
关键词: 金融数值推理, 多模态基准, 大语言模型评估, 思维链推理, 知识增强
一句话总结¶
提出 FinMMR,一个双语(中英文)多模态金融数值推理基准,包含 4300 道题目和 8700 张图像,覆盖 14 个金融子领域,要求模型进行多步精确数值计算;评测了 15 个 SOTA MLLM,最好模型在 Hard 子集仅达 53% 准确率,揭示了当前 MLLM 在专业领域多模态推理中的核心瓶颈。
研究背景与动机¶
大型推理模型(LRM)在代码、数学和科学推理上已取得显著进展,多模态大语言模型(MLLM)也在通用多模态推理上表现优异。然而在金融等高风险专业领域,MLLM 面临的挑战尚未被充分理解: - 金融分析需要从视觉丰富的文档中提取关键指标,并进行多步精确数值计算 - 现有基准存在局限:FAMMA 来自教科书/考试题,MathVista 不涉及金融知识,MMMU 仅有选择题
FinMMR 的三大优势: 1. 多模态性:所有表格、图表以图像形式呈现,包含干扰图像 2. 综合性:覆盖 14 个金融子领域(公司金融、银行业、行业分析等) 3. 挑战性:要求精确数值答案,消除选择题中的猜测偏差
方法详解¶
整体框架¶
FinMMR 的构建分为两条路径: 1. 从公开文本金融推理基准(MMMU、MMMU-Pro、FinanceMath、CodeTAT-QA、CodeFinQA、DocMath-Eval)中提取题目并转化为多模态形式 2. 从最新中国金融研究报告中全新构建 CRRQA(Chinese Research Report QA,2150 道) 两个来源合并为 FinMMR,每道题均配备可执行 Python 解决方案和精确数值答案。
关键设计¶
-
多模态转换:将表格数据渲染为图像,从文本中移除对应表格信息,确保 MLLM 不能仅依赖文本内容。核心创新是引入干扰图像——从同一报告中相邻位置选取语义相关但无关的图像,模拟真实场景。
-
难度分级系统:基于 Python 解题方案的复杂度指标进行启发式分级,考虑运算符数量 \(o\)、代码行数 \(l\) 和括号对数 \(p\):\(rc = \ln(\max(o,1)) + \ln(\max(l+p,1))\)。据此分为 Easy(1300)、Medium(1500)和 Hard(1500)三个级别。
-
评估系统:采用 CoT(思维链)、PoT(程序思维)和 IO(无提示)三种提示方法。PoT 生成 Python 代码并执行,严格数值评估的误差容限为 0.2%,要求精确到单位、百分比和小数位。
损失函数 / 训练策略¶
本文为基准测试,不涉及模型训练。评估策略的核心贡献包括: - 视觉过滤推理流水线:先让 MLLM 判断图像相关性,过滤干扰图后再推理 - 知识增强:构建含 3133 个 Python 函数的金融函数库,通过 MLLM 引导的知识检索增强推理 - 模型协作:用 GPT-4o 作为视觉解析器将图像转为结构化文本,再由 LRM 进行推理
实验关键数据¶
主实验¶
| 模型 | Extended Thinking | Hard (CoT) | Hard (PoT) | Medium (CoT) | Easy (CoT) | Avg (CoT) |
|---|---|---|---|---|---|---|
| Claude 3.7 Sonnet | ✔ (64K) | 53.00 | 51.40 | 62.50 | 78.50 | 64.00 |
| Claude 3.7 Sonnet | ✘ | 50.80 | 48.50 | 62.25 | 77.00 | 63.35 |
| OpenAI o1 | ✔ | 48.40 | 44.70 | — | — | — |
| GPT-4o | ✘ | 45.40 | 47.80 | 63.33 | 78.00 | 62.24 |
| Llama 4 Maverick | ✘ | 48.70 | 47.80 | 63.25 | 77.83 | 63.26 |
| Qwen2.5-VL-72B | ✘ | 43.30 | 46.20 | 63.42 | 77.42 | 61.38 |
| QVQ-72B-Preview | ✔ | 40.30 | 6.20 | 55.67 | 75.42 | 57.13 |
消融实验 / 知识增强效果¶
| 模型 | PoT 基线 | + 知识增强 (RAG) | 提升 |
|---|---|---|---|
| Gemini 2.0 Flash Thinking | 78.71 | 83.02 | +4.31 |
| GPT-4o | 80.60 | 83.62 | +3.02 |
| Claude 3.7 Sonnet | 81.21 | 85.43 | +4.22 |
| Claude 3.7 Sonnet (64K) | 83.53 | 86.29 | +2.76 |
(以上基于 1160 道表格 QA 实例)
干扰图像的影响(Qwen2.5-VL-72B,PoT):
| 子集 | 标准图像 | 干扰图像 | 降幅 |
|---|---|---|---|
| Hard | 57.18% | 47.23% | ↓9.95 |
| Medium | 73.01% | 61.36% | ↓11.65 |
| Easy | 61.59% | 53.64% | ↓7.95 |
视觉过滤推理流水线在 Medium 验证集上将准确率从 64.73% 提升到 71.56%(+6.83)。
关键发现¶
- 所有 MLLM 在 FinMMR 上均表现不佳:最强模型 Claude 3.7 Sonnet (64K思考) 在 Hard 子集仅 53%,远低于 60% 的及格线
- PoT 优于 CoT:PoT 平均准确率 37.64% vs CoT 36.20%,且 token 消耗更少。但 QVQ-72B 因强化学习偏差导致 PoT 仅 6.2%,暴露了训练策略问题
- 干扰图像严重影响推理:导致准确率下降超 10%,说明 MLLM 的视觉过滤能力不足
- 错误分析(100个失败案例):视觉感知错误 30%、知识推理错误 38%、数值计算错误 32%
- 模型协作有效:GPT-4o 解析 + DeepSeek-R1 推理达 86.72%,优于单模型 Claude 3.7 Sonnet 的 83.53%
亮点与洞察¶
- 基准设计的实践导向:引入干扰图像模拟真实场景中的信息过载,这是其他基准缺乏的
- 全面的错误归因:将失败分解为视觉感知、知识推理、数值计算三类,为改进方向提供了清晰路线图
- 知识增强的有效性:通过结构化金融函数库 + MLLM 引导检索 + MLLM 判断,弱模型可逼近 SOTA 性能
- 关于 Extended Thinking 的洞察:提升有限(+2.2pp)但 token 消耗增加 12 倍,引出效率与效果的权衡问题
局限与展望¶
- 仅评估了 zero-shot 设置,未探索 few-shot 或微调场景
- CRRQA 部分依赖 Qwen-VL-Max 生成初始问题,可能引入模型偏差
- 金融函数库为手动构建,覆盖范围和可扩展性受限
- 未评估最新的 GPT-o3 等模型
- 干扰图像的构造方式(相邻图像)相对简单,更复杂的干扰模式值得探索
相关工作与启发¶
- 与 MathVista、MMMU 等通用基准相比,FinMMR 在领域深度和推理复杂度上具有显著优势
- 视觉过滤推理流水线(解耦感知与推理)的思路对其他领域也有参考价值
- 模型协作(视觉解析器 + 文本推理器)的框架为多模态系统设计提供了新思路
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模多模态金融数值推理基准,干扰图像和三维错误分析设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 15个模型、3种提示方法、错误分析、视觉过滤、知识增强、模型协作等全面评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰,RQ 驱动的实验组织方式便于理解
- 价值: ⭐⭐⭐⭐⭐ 填补了金融领域多模态推理评测的空白,对 MLLM 改进具有明确指导意义