What Factors Affect LLMs and RLLMs in Financial Question Answering?¶

会议: ACL 2026
arXiv: 2507.08339
代码: https://github.com/WPENGxs/LLM_RLLM_financial_analysis
领域: 多语言/金融NLP
关键词: 金融问答, 推理型大模型, Long CoT, 提示方法, 多语言对齐

一句话总结¶

本文系统研究了提示方法、Agent 框架和多语言对齐方法对 LLM 和 RLLM（推理型大模型）在金融问答任务上的影响，发现现有方法本质上是通过模拟 Long CoT 来提升 LLM 性能，但对已具备 Long CoT 能力的 RLLM 效果有限。

研究背景与动机¶

领域现状：大语言模型已在金融问答领域取得显著进展，研究者通过提示方法（如 CoT）、Agent 框架和多语言对齐等手段来提升 LLM 的金融推理能力。同时，推理型大模型（RLLM，如 DeepSeek-R1、O4-mini）通过 Long CoT 显著增强了复杂问题的推理能力。

现有痛点：尽管各种增强方法层出不穷，但缺乏系统性研究来探明哪些方法能真正释放 LLM 和 RLLM 在金融领域的潜力，尤其是在 RLLM 出现后，传统增强方法是否仍然有效尚不清楚。

核心矛盾：现有的提示方法和 Agent 框架主要通过延长推理链来提升性能，这与 RLLM 自带的 Long CoT 能力形成冗余，导致对 RLLM 的增益极为有限甚至产生负面效果。

本文目标：使用 5 个 LLM 和 4 个 RLLM，系统评估提示方法、Agent 框架和多语言对齐方法在金融问答任务上的影响。

切入角度：从"长推理链是性能提升的关键瓶颈"这一假设出发，通过对比 LLM 和 RLLM 在相同方法下的表现差异来验证假设。

核心 idea：当前提升 LLM 金融问答性能的有效方法本质上都是在模拟 Long CoT，而 RLLM 已天然具备此能力，因此传统方法对 RLLM 边际收益递减。

方法详解¶

整体框架¶

本文是一项系统性实证研究，不提出新方法，而是在 FAMMA 金融问答基准上测试 9 个模型 × 7 种方法的组合。评估涵盖三个维度：提示方法（Direct、Zero-shot CoT、Plan-and-Solve）、Agent 框架（Self-Refine、S3 Agent）和多语言对齐方法（Direct、Translate-en、Cross-lingual Prompting）。

关键设计¶

提示方法对比:
- 功能：评估不同提示策略对 LLM/RLLM 金融推理的影响
- 核心思路：选取三种代表性提示方法——Direct（直接输入）、Zero-shot CoT（"let's think step by step"）和 Plan-and-Solve（先理解问题再制定计划分步求解）。Plan-and-Solve 在大多数 LLM 上表现最优，但在 RLLM 上反而可能降低性能。
- 设计动机：验证提示方法的增益来源是否为模拟 Long CoT，以及这种模拟对已有 Long CoT 能力的 RLLM 是否冗余。
Agent 框架对比:
- 功能：评估多 Agent 协作对 LLM/RLLM 的增益
- 核心思路：测试 Self-Refine（LLM 对自身输出反馈迭代优化，仅 1 轮）和 S3 Agent（从表层表达、语义信息、情感表达三个视角协作推理）。较小的 LLM（如 Llama-3.1-8B）从 Agent 框架获益更大，而大型 LLM 和 RLLM 的增益有限。
- 设计动机：探索 Agent 框架是否能通过结构化协作弥补 LLM 的推理不足，以及对 RLLM 是否仍有价值。
多语言对齐方法对比:
- 功能：评估多语言方法对中文和法语金融问答的提升效果
- 核心思路：比较 Direct（英文提示+本地语言问题）、Translate-en（翻译为英文后回答）和 Cross-lingual Prompting（CLP，跨语言对齐提示+任务求解器两阶段）。CLP 对 LLM 效果最好（平均提升 4-5%），但对 RLLM 效果有限甚至为负。
- 设计动机：验证多语言对齐的增益是否同样来自延长推理链，以及 RLLM 是否已通过 Long CoT 实现了自对齐。

损失函数 / 训练策略¶

本文为纯评估研究，不涉及训练。所有模型使用推理模式，开放题由 GPT-4o-mini 基于标准答案评分。

实验关键数据¶

主实验¶

模型	方法	Overall Acc	相比 Direct 提升
DeepSeek-V3 (LLM)	Direct	58.86	-
DeepSeek-V3 (LLM)	Plan-and-Solve	58.81	-0.05
DeepSeek-V3 (LLM)	S3 Agent	56.81	-2.05
DeepSeek-R1-Distill-32B (RLLM)	Direct	53.41	-
DeepSeek-R1-Distill-32B (RLLM)	S3 Agent	54.29	+0.88
O4-mini (RLLM)	Direct	65.29	-
O4-mini (RLLM)	Zero-shot CoT	66.52	+1.23
Llama-3.1-8B (LLM)	Direct	16.50	-
Llama-3.1-8B (LLM)	S3 Agent	24.62	+8.12

消融实验¶

配置	Qwen-2.5-32B	R1-Distill-32B	说明
Direct	44.88	53.41	R1蒸馏后平均提升7.4%
Zero-shot CoT	46.11	53.62	提示方法对 RLLM 增益微弱
Plan-and-Solve	44.06	53.26	Plan-and-Solve 对 RLLM 甚至降低
Self-Refine	45.19	47.96	Self-Refine 对 RLLM 大幅降低
S3 Agent	45.34	54.29	Agent 协作对 RLLM 有一定增益

关键发现¶

小模型从 Agent 框架获益最大：Llama-3.1-8B 使用 S3 Agent 后性能从 16.50% 提升到 24.62%（+49%），但大模型 DeepSeek-V3 反而下降。
Long CoT 是核心瓶颈：LLM 的有效方法本质上都在模拟 Long CoT；输出 token 数与性能正相关（表 3）。RLLM 平均输出约 2000 tokens，而 LLM 仅 250-470 tokens。
RLLM 的自对齐能力：RLLM 在多语言场景下通过 Long CoT 自动实现跨语言推理，无需额外的多语言对齐方法。
过度思考问题：RLLM 在简单题上生成过多 token 但并未带来性能提升，存在明显的 overthinking 现象。
Scaling Law 仍然成立：Qwen-3 系列从 0.6B 到 32B，参数越大性能越好，输出也越长。开启思考模式后平均提升 16.9%。

亮点与洞察¶

LLM vs RLLM 的系统对比：首次在金融问答场景下系统对比了提示方法、Agent 框架和多语言方法对 LLM 和 RLLM 的差异化影响，揭示了 Long CoT 作为统一解释框架的重要性。
方法论启示：对 LLM 来说应投入更多精力设计能延长推理链的方法；对 RLLM 来说，应转向更复杂的 Agent 机制来规范输出，而非简单延长思考。
动态 CoT 长度控制：针对 RLLM 的 overthinking 问题，根据问题复杂度动态调整 CoT 长度将是重要研究方向。

局限与展望¶

所有模型仅运行一次，缺乏多次运行的统计显著性检验。
仅使用 FAMMA 的文本子集，未涉及多模态金融问答。
Agent 框架（Self-Refine 仅 1 轮迭代）的探索较浅，未测试更复杂的多轮 Agent 系统。
未探索专门为 RLLM 设计的增强方法。

评分¶

新颖性: ⭐⭐⭐ 研究视角有价值但不提出新方法，属于实证调查
实验充分度: ⭐⭐⭐⭐ 9个模型7种方法的大规模对比，数据量充足
写作质量: ⭐⭐⭐⭐ 分析清晰，发现总结到位
价值: ⭐⭐⭐⭐ 为金融 NLP 社区选择 LLM/RLLM 策略提供了实用指导