FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging¶
会议: ICCV 2025
arXiv: 2508.04625
代码: 无(提供在线评测平台)
领域: 多模态视觉语言模型
关键词: 金融数值推理, 多模态基准, 大语言模型评估, 思维链推理, 知识增强
一句话总结¶
提出 FinMMR,一个双语(中英文)多模态金融数值推理基准,包含 4300 道题目和 8700 张图像,覆盖 14 个金融子领域,要求模型进行多步精确数值计算;评测了 15 个 SOTA MLLM,最好模型在 Hard 子集仅达 53% 准确率,揭示了当前 MLLM 在专业领域多模态推理中的核心瓶颈。
研究背景与动机¶
大型推理模型(LRM)在代码、数学和科学推理上已取得显著进展,多模态大语言模型(MLLM)也在通用多模态推理上表现优异。然而在金融等高风险专业领域,MLLM 面临的挑战尚未被充分理解: - 金融分析需要从视觉丰富的文档中提取关键指标,并进行多步精确数值计算 - 现有基准存在局限:FAMMA 来自教科书/考试题,MathVista 不涉及金融知识,MMMU 仅有选择题
FinMMR 的三大优势: 1. 多模态性:所有表格、图表以图像形式呈现,包含干扰图像 2. 综合性:覆盖 14 个金融子领域(公司金融、银行业、行业分析等) 3. 挑战性:要求精确数值答案,消除选择题中的猜测偏差
方法详解¶
整体框架¶
FinMMR 的构建分为两条路径: 1. 从公开文本金融推理基准(MMMU、MMMU-Pro、FinanceMath、CodeTAT-QA、CodeFinQA、DocMath-Eval)中提取题目并转化为多模态形式 2. 从最新中国金融研究报告中全新构建 CRRQA(Chinese Research Report QA,2150 道) 两个来源合并为 FinMMR,每道题均配备可执行 Python 解决方案和精确数值答案。
关键设计¶
-
多模态转换:将表格数据渲染为图像,从文本中移除对应表格信息,确保 MLLM 不能仅依赖文本内容。核心创新是引入干扰图像——从同一报告中相邻位置选取语义相关但无关的图像,模拟真实场景。
-
难度分级系统:基于 Python 解题方案的复杂度指标进行启发式分级,考虑运算符数量 \(o\)、代码行数 \(l\) 和括号对数 \(p\):\(rc = \ln(\max(o,1)) + \ln(\max(l+p,1))\)。据此分为 Easy(1300)、Medium(1500)和 Hard(1500)三个级别。
-
评估系统:采用 CoT(思维链)、PoT(程序思维)和 IO(无提示)三种提示方法。PoT 生成 Python 代码并执行,严格数值评估的误差容限为 0.2%,要求精确到单位、百分比和小数位。
损失函数 / 训练策略¶
本文为基准测试,不涉及模型训练。评估策略的核心贡献包括: - 视觉过滤推理流水线:先让 MLLM 判断图像相关性,过滤干扰图后再推理 - 知识增强:构建含 3133 个 Python 函数的金融函数库,通过 MLLM 引导的知识检索增强推理 - 模型协作:用 GPT-4o 作为视觉解析器将图像转为结构化文本,再由 LRM 进行推理
实验关键数据¶
主实验¶
| 模型 | Extended Thinking | Hard (CoT) | Hard (PoT) | Medium (CoT) | Easy (CoT) | Avg (CoT) |
|---|---|---|---|---|---|---|
| Claude 3.7 Sonnet | ✔ (64K) | 53.00 | 51.40 | 62.50 | 78.50 | 64.00 |
| Claude 3.7 Sonnet | ✘ | 50.80 | 48.50 | 62.25 | 77.00 | 63.35 |
| OpenAI o1 | ✔ | 48.40 | 44.70 | — | — | — |
| GPT-4o | ✘ | 45.40 | 47.80 | 63.33 | 78.00 | 62.24 |
| Llama 4 Maverick | ✘ | 48.70 | 47.80 | 63.25 | 77.83 | 63.26 |
| Qwen2.5-VL-72B | ✘ | 43.30 | 46.20 | 63.42 | 77.42 | 61.38 |
| QVQ-72B-Preview | ✔ | 40.30 | 6.20 | 55.67 | 75.42 | 57.13 |
消融实验 / 知识增强效果¶
| 模型 | PoT 基线 | + 知识增强 (RAG) | 提升 |
|---|---|---|---|
| Gemini 2.0 Flash Thinking | 78.71 | 83.02 | +4.31 |
| GPT-4o | 80.60 | 83.62 | +3.02 |
| Claude 3.7 Sonnet | 81.21 | 85.43 | +4.22 |
| Claude 3.7 Sonnet (64K) | 83.53 | 86.29 | +2.76 |
(以上基于 1160 道表格 QA 实例)
干扰图像的影响(Qwen2.5-VL-72B,PoT):
| 子集 | 标准图像 | 干扰图像 | 降幅 |
|---|---|---|---|
| Hard | 57.18% | 47.23% | ↓9.95 |
| Medium | 73.01% | 61.36% | ↓11.65 |
| Easy | 61.59% | 53.64% | ↓7.95 |
视觉过滤推理流水线在 Medium 验证集上将准确率从 64.73% 提升到 71.56%(+6.83)。
关键发现¶
- 所有 MLLM 在 FinMMR 上均表现不佳:最强模型 Claude 3.7 Sonnet (64K思考) 在 Hard 子集仅 53%,远低于 60% 的及格线
- PoT 优于 CoT:PoT 平均准确率 37.64% vs CoT 36.20%,且 token 消耗更少。但 QVQ-72B 因强化学习偏差导致 PoT 仅 6.2%,暴露了训练策略问题
- 干扰图像严重影响推理:导致准确率下降超 10%,说明 MLLM 的视觉过滤能力不足
- 错误分析(100个失败案例):视觉感知错误 30%、知识推理错误 38%、数值计算错误 32%
- 模型协作有效:GPT-4o 解析 + DeepSeek-R1 推理达 86.72%,优于单模型 Claude 3.7 Sonnet 的 83.53%
亮点与洞察¶
- 基准设计的实践导向:引入干扰图像模拟真实场景中的信息过载,这是其他基准缺乏的
- 全面的错误归因:将失败分解为视觉感知、知识推理、数值计算三类,为改进方向提供了清晰路线图
- 知识增强的有效性:通过结构化金融函数库 + MLLM 引导检索 + MLLM 判断,弱模型可逼近 SOTA 性能
- 关于 Extended Thinking 的洞察:提升有限(+2.2pp)但 token 消耗增加 12 倍,引出效率与效果的权衡问题
局限与展望¶
- 仅评估了 zero-shot 设置,未探索 few-shot 或微调场景
- CRRQA 部分依赖 Qwen-VL-Max 生成初始问题,可能引入模型偏差
- 金融函数库为手动构建,覆盖范围和可扩展性受限
- 未评估最新的 GPT-o3 等模型
- 干扰图像的构造方式(相邻图像)相对简单,更复杂的干扰模式值得探索
相关工作与启发¶
- 与 MathVista、MMMU 等通用基准相比,FinMMR 在领域深度和推理复杂度上具有显著优势
- 视觉过滤推理流水线(解耦感知与推理)的思路对其他领域也有参考价值
- 模型协作(视觉解析器 + 文本推理器)的框架为多模态系统设计提供了新思路
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模多模态金融数值推理基准,干扰图像和三维错误分析设计新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 15个模型、3种提示方法、错误分析、视觉过滤、知识增强、模型协作等全面评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰,RQ 驱动的实验组织方式便于理解
- 价值: ⭐⭐⭐⭐⭐ 填补了金融领域多模态推理评测的空白,对 MLLM 改进具有明确指导意义