Reasoning Gets Harder for LLMs Inside A Dialogue¶
会议: ACL 2026
arXiv: 2603.20133
代码: https://github.com/ivankartac/boulder
领域: 对话系统 / LLM评测 / 推理能力
关键词: 任务型对话、动态基准、嵌入式推理、多轮交互、工具调用
一句话总结¶
这篇论文提出 Boulder 动态基准,证明 LLM 在孤立推理题上表现很好,但同一问题嵌入任务型对话后会显著退化,主要原因来自多轮上下文、对话角色约束和工具调用负担。
研究背景与动机¶
领域现状:LLM 推理能力通常通过数学、代码、空间或时间推理 benchmark 评估。这些 benchmark 往往把问题设计成孤立任务,输入干净、目标明确、答案格式容易验证。
现有痛点:真实使用场景并不总是孤立题。一个旅行助手、订票助手或酒店推荐系统中,模型需要同时记住对话历史、遵循助手角色、读取工具返回、生成自然语言回答,并在这个过程中完成隐式推理。传统 benchmark 可能高估了模型在真实交互场景中的稳定性。
核心矛盾:孤立推理强调“算对答案”,任务型对话强调“在复杂交互里自然回答”。当这两者叠加时,模型会在角色、格式、工具、上下文和推理之间分配注意力,原本强的推理能力可能被对话框架削弱。
本文目标:构建一个可控 benchmark,让同一个问题实例同时出现在 isolated prompt 和 task-oriented dialogue prompt 中,从而衡量对话嵌入本身带来的性能损失,并通过消融分析找出损失来源。
切入角度:作者选择旅行相关任务型对话,因为它天然包含算术、时间、空间、常识和结构化数据推理,而且可以用数据库和模板动态生成,降低训练数据污染风险。
核心 idea:不要只问 LLM “会不会推理”,还要问它“在扮演对话助手时还能不能推理”。
方法详解¶
论文的核心不是提出一个新模型,而是提出一个评测框架 Boulder,并用严格的对照实验揭示 dialogue framing 对推理的影响。Boulder 的每个样例都有同一个底层问题实例,但呈现方式不同:孤立设置直接给问题和 JSON 数据;对话设置把同样信息分散在多轮历史、用户请求、工具调用和工具结果中。
整体框架¶
Boulder 包含八类旅行任务,覆盖火车、酒店、餐馆、景点等四个领域。每类任务都可以自动生成新样例,并有可验证的标准答案。实验中,每个任务生成 100 个样例,共 800 个测试样例。
评估流程分三步:首先生成同一问题的 Baseline、Dialogue、Dialogue-concise 三种输入;然后让八个开源或闭源 LLM 在 greedy decoding 下回答;最后用专门的 LLM parser 从自然语言输出中抽取答案,并用人工验证与 prediction-powered inference 校正 parser 噪声。
关键设计¶
-
同实例双形态 benchmark:
- 功能:隔离“问题本身难度”和“对话呈现方式”的影响。
- 核心思路:每个样例都有同一底层数据库、同一目标答案和近似同义的用户问题。Baseline 直接展示问题与数据,Dialogue 则把数据作为工具结果和历史对话的一部分呈现。
- 设计动机:如果不同设置使用不同问题,就无法判断性能下降来自推理难度还是对话形式。双形态设计让比较更干净。
-
动态生成与自动可验证答案:
- 功能:降低数据污染风险,并支持大规模评估。
- 核心思路:基于 MultiWOZ 数据库和作者编写模板生成旅行任务;部分数据做合成扩展以增加多样性。目标答案以金额、时间、距离、布尔关系或路径序列形式自动计算。
- 设计动机:LLM 很可能见过静态 benchmark。动态生成可以让研究者重新采样样例,同时保持答案可验证。
-
对话因素消融:
- 功能:拆解性能下降来自哪里。
- 核心思路:作者设计 reduced domains、without tools、single-turn dialogue、multi-turn baseline、baseline with dialogue role、dialogue with reasoning instruction 等变体,逐步移除或加入领域复杂度、工具 schema、多轮历史和角色设定。
- 设计动机:仅观察 Baseline vs Dialogue 无法解释原因;消融能说明多轮交互、工具负担和角色偏置各自的贡献。
损失函数 / 训练策略¶
本文是评测论文,没有训练新模型。所有模型使用统一 prompt 和 greedy decoding。对于开放权重模型,作者通过 Ollama 或 OpenRouter 推理;对于闭源模型,通过 OpenRouter API 调用。聚合指标把准确率、precision 和归一化后的 MAE 映射到 0 到 1 的区间,以便跨任务平均。
实验关键数据¶
主实验¶
Boulder 的任务覆盖不同推理类型,输出也不强制固定格式,因此更贴近真实对话系统。
| 任务 | 领域 | 推理类型 | 抽取值 | 指标 |
|---|---|---|---|---|
| Train ticket price | trains | 算术 + 常识 | 金额 | Accuracy |
| Hotel booking price | hotels | 算术 + 房型约束 | 金额 | Accuracy |
| Train departure time | trains | 时间顺序 | HH:MM | Accuracy |
| Train departure frequency | trains | 时间频率 | 分钟 | MAE |
| Restaurant opening hours | restaurants | 时间区间关系 | 餐馆列表 | Precision |
| Distance between venues | hotels/restaurants | 空间距离 | 米 | MAE |
| Directional relations | attractions/restaurants | 方位关系 | yes/no/unknown | Accuracy |
| Shortest walking path | attractions/hotels | 路径优化 | 景点顺序 | Accuracy |
主要结论是:大多数模型在 Baseline 中表现高,但进入 Dialogue 后显著下降;Dialogue-concise 通常只比 Dialogue 更低一点,说明问题不只是短回答限制,而是对话框架本身改变了模型行为。
| 设置 | 输入形态 | 论文报告的总体趋势 | 关键解释 |
|---|---|---|---|
| Baseline | 孤立问题 + JSON 数据 | 多数模型平均分约 0.87-0.97,Gemini 2.5 Flash 略高于 0.70 | 任务清晰,模型可展开推理 |
| Dialogue | 多轮 TOD 历史 + 工具 schema/结果 | 所有模型明显低于 Baseline,较小模型下降更大 | 推理被角色、历史和工具负担干扰 |
| Dialogue-concise | Dialogue + 最多两句回答 | 通常只比 Dialogue 稍低 | 显式长度限制不是唯一原因 |
消融实验¶
Parser 的可靠性是这类 benchmark 的基础。作者人工检查 5,760 个解析结果,并报告 95%-99% 的准确率,双标一致性 κ=0.94。
| Parser 维度 | 准确率 | Parser 维度 | 准确率 |
|---|---|---|---|
| Ticket price | 96.39% | Qwen3 4B 输出 | 96.52% |
| Booking price | 98.75% | Mistral Small 24B 输出 | 98.47% |
| Departure time | 98.61% | Qwen3 30B 输出 | 98.05% |
| Departure frequency | 97.50% | Command A 111B 输出 | 98.61% |
| Opening hours | 94.86% | Qwen3 235B 输出 | 95.83% |
| Distance | 96.11% | DeepSeek V3.2 输出 | 95.97% |
| Directional relation | 96.54% | Gemini 2.5 Flash 输出 | 93.47% |
| Shortest path | 98.06% | Claude 4.5 Sonnet 输出 | 95.97% |
对话因素消融进一步说明性能下降不是单一原因造成的。
| 消融设置 | 对比对象 | 观察结果 | 解释 |
|---|---|---|---|
| Dialogue with reduced domains | Dialogue | 对不同模型影响不一致 | 简化领域数量不能稳定解决问题 |
| Dialogue without tools | Dialogue | 多数模型显著提升但仍低于 Baseline | 工具 schema 和工具历史增加认知负担 |
| Single-turn dialogue | Dialogue | 性能上升 | 多轮历史是主要退化来源之一 |
| Multi-turn baseline | Baseline | 加入多轮历史后性能下降 | 即使没有 TOD 指令,多轮本身也会伤害推理 |
| Baseline with dialogue role | Baseline | 多数模型下降 | 助手角色会诱导更短、更会话化的回答 |
| Dialogue with reasoning instruction | Dialogue | 部分模型提升但 gap 仍大 | 简单提示模型“多推理”不足以恢复能力 |
关键发现¶
- 传统孤立 benchmark 的高分不能直接代表真实交互中的推理可靠性。
- 多轮交互是最显著的负面因素;它会让模型提前回答、事后合理化,或在历史信息中混淆规则。
- TOD 助手角色会让模型倾向于短回答、礼貌回答或请求澄清,而不是完整展开计算。
- 工具 schema 与工具调用历史也会干扰推理,可能因为模型同时承担“生成自然语言”和“理解工具结构”的双重角色。
- 单纯加一句 reasoning instruction 效果有限,说明这不是一个简单 prompt 能完全修复的问题。
亮点与洞察¶
- 论文最强的地方是 controlled comparison。同一个问题实例用两种形态呈现,让“对话变难”这个结论有比较坚实的因果解释。
- Boulder 是动态 benchmark,这对 2026 年后的 LLM 评测很重要。静态公开题越来越容易被污染,动态生成可以延长 benchmark 生命周期。
- 作者没有把错误简单归因于“模型不会推理”,而是指出对话环境改变了模型的行为模式。这对实际构建 agent 和对话系统很有价值。
- LLM parser + 人工校正 + PPI 的评估设计比较细致,避免完全依赖 LLM-as-a-judge 的主观判断。
局限与展望¶
- 任务只覆盖四个旅行相关领域,虽然包含算术、空间和时间推理,但不一定能代表医疗、法律、企业流程等更复杂场景。
- 实验主要是 zero-shot 单模型 TOD。现实系统可能有检索、规划器、专用工具执行器或多模块 pipeline,性能退化程度可能不同。
- 作者没有系统测试 few-shot、微调或专门的对话推理训练是否能缓解 gap。
- 图中很多主结果以曲线呈现,正文提供了趋势和范围,但若要复现实验,需要依赖公开代码和输出文件获取完整数值。
- 未来可以把 Boulder 扩展到跨语言对话、真实用户偏好、多 agent 工具链,以及更长历史的场景。
相关工作与启发¶
- vs TimeBench / TRAM: 这些 benchmark 关注时间推理,但多以孤立题或选择题为主。Boulder 更强调推理嵌入自然语言生成和对话历史后的表现。
- vs CoQA / TimeDial: 这些数据集有对话形式,但通常用阅读理解或选择答案评估。Boulder 的答案来自任务数据库和可执行逻辑,更贴近 task-oriented assistant。
- vs 多轮指令跟随评测: 既有多轮评测常看指令保持或偏好一致性;本文进一步观察到多轮会直接伤害算术、时间、空间推理。
- 启发: 评测 agent 时应把核心任务放进真实交互框架里测,而不是只测干净的子任务能力。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ “同一问题在孤立与对话中对照”的设计直接击中当前 LLM 评测盲点。
- 实验充分度: ⭐⭐⭐⭐☆ 模型覆盖、任务覆盖和消融较完整,但主结果数值主要依赖图形和公开输出。
- 写作质量: ⭐⭐⭐⭐☆ 结构清楚,错误分析有解释力;部分图表数值若在正文表格中列出会更方便复用。
- 价值: ⭐⭐⭐⭐⭐ 对对话系统、工具调用 agent 和真实场景推理评测都有很高参考价值。