What Factors Affect LLMs and RLLMs in Financial Question Answering?¶
会议: ACL 2026 Findings
arXiv: 2507.08339
代码: https://github.com/WPENGxs/LLM_RLLM_financial_analysis
领域: 多语言/金融NLP
关键词: 金融问答, 推理型大模型, Long CoT, 提示方法, 多语言对齐
一句话总结¶
本文系统研究了提示方法、Agent 框架和多语言对齐方法对 LLM 和 RLLM(推理型大模型)在金融问答任务上的影响,发现现有方法本质上是通过模拟 Long CoT 来提升 LLM 性能,但对已具备 Long CoT 能力的 RLLM 效果有限。
研究背景与动机¶
领域现状:大语言模型已在金融问答领域取得显著进展,研究者通过提示方法(如 CoT)、Agent 框架和多语言对齐等手段来提升 LLM 的金融推理能力。同时,推理型大模型(RLLM,如 DeepSeek-R1、O4-mini)通过 Long CoT 显著增强了复杂问题的推理能力。
现有痛点:尽管各种增强方法层出不穷,但缺乏系统性研究来探明哪些方法能真正释放 LLM 和 RLLM 在金融领域的潜力,尤其是在 RLLM 出现后,传统增强方法是否仍然有效尚不清楚。
核心矛盾:现有的提示方法和 Agent 框架主要通过延长推理链来提升性能,这与 RLLM 自带的 Long CoT 能力形成冗余,导致对 RLLM 的增益极为有限甚至产生负面效果。
本文目标:使用 5 个 LLM 和 4 个 RLLM,系统评估提示方法、Agent 框架和多语言对齐方法在金融问答任务上的影响。
切入角度:从"长推理链是性能提升的关键瓶颈"这一假设出发,通过对比 LLM 和 RLLM 在相同方法下的表现差异来验证假设。
核心 idea:当前提升 LLM 金融问答性能的有效方法本质上都是在模拟 Long CoT,而 RLLM 已天然具备此能力,因此传统方法对 RLLM 边际收益递减。
方法详解¶
整体框架¶
本文是一项系统性实证研究,不提出新方法,而是在 FAMMA 金融问答基准上测试 9 个模型 × 7 种方法的组合。评估涵盖三个维度:提示方法(Direct、Zero-shot CoT、Plan-and-Solve)、Agent 框架(Self-Refine、S3 Agent)和多语言对齐方法(Direct、Translate-en、Cross-lingual Prompting)。
关键设计¶
1. 提示方法对比:检验提示带来的增益是不是在「替模型模拟 Long CoT」
如果提示方法的好处本质上是在临时延长推理链,那它对一个自带 Long CoT 的 RLLM 就应该是冗余的——这正是作者想验证的。他们挑了三种代表性提示:Direct(直接输入)、Zero-shot CoT(加一句 "let's think step by step")和 Plan-and-Solve(先理解问题、再制定计划分步求解)。
结果恰好印证了假设:Plan-and-Solve 这种最"费推理"的提示在多数普通 LLM 上表现最优,可一旦换到 RLLM 上反而可能拖低性能。原因是 RLLM 本来就会展开长推理,外加的结构化提示和它内生的 Long CoT 互相打架,不仅没补足反而干扰了原有节奏。
2. Agent 框架对比:看多 Agent 协作的价值是否随模型自身推理能力而递减
提示之外,另一类增强手段是让模型多轮自我反馈或多视角协作,作者测了两种:Self-Refine(模型对自己的输出反馈迭代,这里仅 1 轮)和 S3 Agent(从表层表达、语义信息、情感表达三个视角协作推理)。
观察到的规律是一条清晰的反比线:越弱的模型从 Agent 框架获益越大——Llama-3.1-8B 用上 S3 Agent 能从 16.50% 跳到 24.62%,而大型 LLM 和 RLLM 的增益就很有限。这说明 Agent 协作主要是在替推理能力不足的小模型"补课";对本就具备强推理的 RLLM,这种外部脚手架边际价值很小。
3. 多语言对齐方法对比:验证跨语言增益是否同样来自延长推理链
中文、法语等非英语金融问答上,常用做法是先把问题对齐到英语再推理。作者比较了三种:Direct(英文提示 + 本地语言问题)、Translate-en(先翻成英文再答)和 Cross-lingual Prompting(CLP,跨语言对齐提示 + 任务求解器两阶段)。
CLP 对普通 LLM 效果最好,平均能提 4-5%,但对 RLLM 效果有限甚至转负。把它和前两个设计放在一起看,三类增强(提示 / Agent / 多语言)指向同一个解释:它们的增益都来自"想办法让模型多推理几步",而 RLLM 已经通过 Long CoT 在内部完成了跨语言自对齐,外部再叠一层对齐自然收益递减。
损失函数 / 训练策略¶
本文为纯评估研究,不涉及训练。所有模型使用推理模式,开放题由 GPT-4o-mini 基于标准答案评分。
实验关键数据¶
主实验¶
| 模型 | 方法 | Overall Acc | 相比 Direct 提升 |
|---|---|---|---|
| DeepSeek-V3 (LLM) | Direct | 58.86 | - |
| DeepSeek-V3 (LLM) | Plan-and-Solve | 58.81 | -0.05 |
| DeepSeek-V3 (LLM) | S3 Agent | 56.81 | -2.05 |
| DeepSeek-R1-Distill-32B (RLLM) | Direct | 53.41 | - |
| DeepSeek-R1-Distill-32B (RLLM) | S3 Agent | 54.29 | +0.88 |
| O4-mini (RLLM) | Direct | 65.29 | - |
| O4-mini (RLLM) | Zero-shot CoT | 66.52 | +1.23 |
| Llama-3.1-8B (LLM) | Direct | 16.50 | - |
| Llama-3.1-8B (LLM) | S3 Agent | 24.62 | +8.12 |
消融实验¶
| 配置 | Qwen-2.5-32B | R1-Distill-32B | 说明 |
|---|---|---|---|
| Direct | 44.88 | 53.41 | R1蒸馏后平均提升7.4% |
| Zero-shot CoT | 46.11 | 53.62 | 提示方法对 RLLM 增益微弱 |
| Plan-and-Solve | 44.06 | 53.26 | Plan-and-Solve 对 RLLM 甚至降低 |
| Self-Refine | 45.19 | 47.96 | Self-Refine 对 RLLM 大幅降低 |
| S3 Agent | 45.34 | 54.29 | Agent 协作对 RLLM 有一定增益 |
关键发现¶
- 小模型从 Agent 框架获益最大:Llama-3.1-8B 使用 S3 Agent 后性能从 16.50% 提升到 24.62%(+49%),但大模型 DeepSeek-V3 反而下降。
- Long CoT 是核心瓶颈:LLM 的有效方法本质上都在模拟 Long CoT;输出 token 数与性能正相关(表 3)。RLLM 平均输出约 2000 tokens,而 LLM 仅 250-470 tokens。
- RLLM 的自对齐能力:RLLM 在多语言场景下通过 Long CoT 自动实现跨语言推理,无需额外的多语言对齐方法。
- 过度思考问题:RLLM 在简单题上生成过多 token 但并未带来性能提升,存在明显的 overthinking 现象。
- Scaling Law 仍然成立:Qwen-3 系列从 0.6B 到 32B,参数越大性能越好,输出也越长。开启思考模式后平均提升 16.9%。
亮点与洞察¶
- LLM vs RLLM 的系统对比:首次在金融问答场景下系统对比了提示方法、Agent 框架和多语言方法对 LLM 和 RLLM 的差异化影响,揭示了 Long CoT 作为统一解释框架的重要性。
- 方法论启示:对 LLM 来说应投入更多精力设计能延长推理链的方法;对 RLLM 来说,应转向更复杂的 Agent 机制来规范输出,而非简单延长思考。
- 动态 CoT 长度控制:针对 RLLM 的 overthinking 问题,根据问题复杂度动态调整 CoT 长度将是重要研究方向。
局限与展望¶
- 所有模型仅运行一次,缺乏多次运行的统计显著性检验。
- 仅使用 FAMMA 的文本子集,未涉及多模态金融问答。
- Agent 框架(Self-Refine 仅 1 轮迭代)的探索较浅,未测试更复杂的多轮 Agent 系统。
- 未探索专门为 RLLM 设计的增强方法。
相关工作与启发¶
- vs BloombergGPT: BloombergGPT 训练了 500 亿参数的金融专用 LLM,本文则从推理策略角度探索通用 LLM 的金融能力释放。
- vs FinBen: FinBen 是综合金融基准,本文使用 FAMMA 但聚焦于方法对比而非模型排名。
评分¶
- 新颖性: ⭐⭐⭐ 研究视角有价值但不提出新方法,属于实证调查
- 实验充分度: ⭐⭐⭐⭐ 9个模型7种方法的大规模对比,数据量充足
- 写作质量: ⭐⭐⭐⭐ 分析清晰,发现总结到位
- 价值: ⭐⭐⭐⭐ 为金融 NLP 社区选择 LLM/RLLM 策略提供了实用指导