跳转至

Reasoning Gets Harder for LLMs Inside A Dialogue

会议: ACL 2026
arXiv: 2603.20133
代码: https://github.com/ivankartac/boulder
领域: 对话系统 / LLM评测 / 推理能力
关键词: 任务型对话、动态基准、嵌入式推理、多轮交互、工具调用

一句话总结

这篇论文提出 Boulder 动态基准,证明 LLM 在孤立推理题上表现很好,但同一问题嵌入任务型对话后会显著退化,主要原因来自多轮上下文、对话角色约束和工具调用负担。

研究背景与动机

领域现状:LLM 推理能力通常通过数学、代码、空间或时间推理 benchmark 评估。这些 benchmark 往往把问题设计成孤立任务,输入干净、目标明确、答案格式容易验证。

现有痛点:真实使用场景并不总是孤立题。一个旅行助手、订票助手或酒店推荐系统中,模型需要同时记住对话历史、遵循助手角色、读取工具返回、生成自然语言回答,并在这个过程中完成隐式推理。传统 benchmark 可能高估了模型在真实交互场景中的稳定性。

核心矛盾:孤立推理强调“算对答案”,任务型对话强调“在复杂交互里自然回答”。当这两者叠加时,模型会在角色、格式、工具、上下文和推理之间分配注意力,原本强的推理能力可能被对话框架削弱。

本文目标:构建一个可控 benchmark,让同一个问题实例同时出现在 isolated prompt 和 task-oriented dialogue prompt 中,从而衡量对话嵌入本身带来的性能损失,并通过消融分析找出损失来源。

切入角度:作者选择旅行相关任务型对话,因为它天然包含算术、时间、空间、常识和结构化数据推理,而且可以用数据库和模板动态生成,降低训练数据污染风险。

核心 idea:不要只问 LLM “会不会推理”,还要问它“在扮演对话助手时还能不能推理”。

方法详解

论文的核心不是提出一个新模型,而是提出一个评测框架 Boulder,并用严格的对照实验揭示 dialogue framing 对推理的影响。Boulder 的每个样例都有同一个底层问题实例,但呈现方式不同:孤立设置直接给问题和 JSON 数据;对话设置把同样信息分散在多轮历史、用户请求、工具调用和工具结果中。

整体框架

Boulder 包含八类旅行任务,覆盖火车、酒店、餐馆、景点等四个领域。每类任务都可以自动生成新样例,并有可验证的标准答案。实验中,每个任务生成 100 个样例,共 800 个测试样例。

评估流程分三步:首先生成同一问题的 Baseline、Dialogue、Dialogue-concise 三种输入;然后让八个开源或闭源 LLM 在 greedy decoding 下回答;最后用专门的 LLM parser 从自然语言输出中抽取答案,并用人工验证与 prediction-powered inference 校正 parser 噪声。

关键设计

  1. 同实例双形态 benchmark:

    • 功能:隔离“问题本身难度”和“对话呈现方式”的影响。
    • 核心思路:每个样例都有同一底层数据库、同一目标答案和近似同义的用户问题。Baseline 直接展示问题与数据,Dialogue 则把数据作为工具结果和历史对话的一部分呈现。
    • 设计动机:如果不同设置使用不同问题,就无法判断性能下降来自推理难度还是对话形式。双形态设计让比较更干净。
  2. 动态生成与自动可验证答案:

    • 功能:降低数据污染风险,并支持大规模评估。
    • 核心思路:基于 MultiWOZ 数据库和作者编写模板生成旅行任务;部分数据做合成扩展以增加多样性。目标答案以金额、时间、距离、布尔关系或路径序列形式自动计算。
    • 设计动机:LLM 很可能见过静态 benchmark。动态生成可以让研究者重新采样样例,同时保持答案可验证。
  3. 对话因素消融:

    • 功能:拆解性能下降来自哪里。
    • 核心思路:作者设计 reduced domains、without tools、single-turn dialogue、multi-turn baseline、baseline with dialogue role、dialogue with reasoning instruction 等变体,逐步移除或加入领域复杂度、工具 schema、多轮历史和角色设定。
    • 设计动机:仅观察 Baseline vs Dialogue 无法解释原因;消融能说明多轮交互、工具负担和角色偏置各自的贡献。

损失函数 / 训练策略

本文是评测论文,没有训练新模型。所有模型使用统一 prompt 和 greedy decoding。对于开放权重模型,作者通过 Ollama 或 OpenRouter 推理;对于闭源模型,通过 OpenRouter API 调用。聚合指标把准确率、precision 和归一化后的 MAE 映射到 0 到 1 的区间,以便跨任务平均。

实验关键数据

主实验

Boulder 的任务覆盖不同推理类型,输出也不强制固定格式,因此更贴近真实对话系统。

任务 领域 推理类型 抽取值 指标
Train ticket price trains 算术 + 常识 金额 Accuracy
Hotel booking price hotels 算术 + 房型约束 金额 Accuracy
Train departure time trains 时间顺序 HH:MM Accuracy
Train departure frequency trains 时间频率 分钟 MAE
Restaurant opening hours restaurants 时间区间关系 餐馆列表 Precision
Distance between venues hotels/restaurants 空间距离 MAE
Directional relations attractions/restaurants 方位关系 yes/no/unknown Accuracy
Shortest walking path attractions/hotels 路径优化 景点顺序 Accuracy

主要结论是:大多数模型在 Baseline 中表现高,但进入 Dialogue 后显著下降;Dialogue-concise 通常只比 Dialogue 更低一点,说明问题不只是短回答限制,而是对话框架本身改变了模型行为。

设置 输入形态 论文报告的总体趋势 关键解释
Baseline 孤立问题 + JSON 数据 多数模型平均分约 0.87-0.97,Gemini 2.5 Flash 略高于 0.70 任务清晰,模型可展开推理
Dialogue 多轮 TOD 历史 + 工具 schema/结果 所有模型明显低于 Baseline,较小模型下降更大 推理被角色、历史和工具负担干扰
Dialogue-concise Dialogue + 最多两句回答 通常只比 Dialogue 稍低 显式长度限制不是唯一原因

消融实验

Parser 的可靠性是这类 benchmark 的基础。作者人工检查 5,760 个解析结果,并报告 95%-99% 的准确率,双标一致性 κ=0.94。

Parser 维度 准确率 Parser 维度 准确率
Ticket price 96.39% Qwen3 4B 输出 96.52%
Booking price 98.75% Mistral Small 24B 输出 98.47%
Departure time 98.61% Qwen3 30B 输出 98.05%
Departure frequency 97.50% Command A 111B 输出 98.61%
Opening hours 94.86% Qwen3 235B 输出 95.83%
Distance 96.11% DeepSeek V3.2 输出 95.97%
Directional relation 96.54% Gemini 2.5 Flash 输出 93.47%
Shortest path 98.06% Claude 4.5 Sonnet 输出 95.97%

对话因素消融进一步说明性能下降不是单一原因造成的。

消融设置 对比对象 观察结果 解释
Dialogue with reduced domains Dialogue 对不同模型影响不一致 简化领域数量不能稳定解决问题
Dialogue without tools Dialogue 多数模型显著提升但仍低于 Baseline 工具 schema 和工具历史增加认知负担
Single-turn dialogue Dialogue 性能上升 多轮历史是主要退化来源之一
Multi-turn baseline Baseline 加入多轮历史后性能下降 即使没有 TOD 指令,多轮本身也会伤害推理
Baseline with dialogue role Baseline 多数模型下降 助手角色会诱导更短、更会话化的回答
Dialogue with reasoning instruction Dialogue 部分模型提升但 gap 仍大 简单提示模型“多推理”不足以恢复能力

关键发现

  • 传统孤立 benchmark 的高分不能直接代表真实交互中的推理可靠性。
  • 多轮交互是最显著的负面因素;它会让模型提前回答、事后合理化,或在历史信息中混淆规则。
  • TOD 助手角色会让模型倾向于短回答、礼貌回答或请求澄清,而不是完整展开计算。
  • 工具 schema 与工具调用历史也会干扰推理,可能因为模型同时承担“生成自然语言”和“理解工具结构”的双重角色。
  • 单纯加一句 reasoning instruction 效果有限,说明这不是一个简单 prompt 能完全修复的问题。

亮点与洞察

  • 论文最强的地方是 controlled comparison。同一个问题实例用两种形态呈现,让“对话变难”这个结论有比较坚实的因果解释。
  • Boulder 是动态 benchmark,这对 2026 年后的 LLM 评测很重要。静态公开题越来越容易被污染,动态生成可以延长 benchmark 生命周期。
  • 作者没有把错误简单归因于“模型不会推理”,而是指出对话环境改变了模型的行为模式。这对实际构建 agent 和对话系统很有价值。
  • LLM parser + 人工校正 + PPI 的评估设计比较细致,避免完全依赖 LLM-as-a-judge 的主观判断。

局限与展望

  • 任务只覆盖四个旅行相关领域,虽然包含算术、空间和时间推理,但不一定能代表医疗、法律、企业流程等更复杂场景。
  • 实验主要是 zero-shot 单模型 TOD。现实系统可能有检索、规划器、专用工具执行器或多模块 pipeline,性能退化程度可能不同。
  • 作者没有系统测试 few-shot、微调或专门的对话推理训练是否能缓解 gap。
  • 图中很多主结果以曲线呈现,正文提供了趋势和范围,但若要复现实验,需要依赖公开代码和输出文件获取完整数值。
  • 未来可以把 Boulder 扩展到跨语言对话、真实用户偏好、多 agent 工具链,以及更长历史的场景。

相关工作与启发

  • vs TimeBench / TRAM: 这些 benchmark 关注时间推理,但多以孤立题或选择题为主。Boulder 更强调推理嵌入自然语言生成和对话历史后的表现。
  • vs CoQA / TimeDial: 这些数据集有对话形式,但通常用阅读理解或选择答案评估。Boulder 的答案来自任务数据库和可执行逻辑,更贴近 task-oriented assistant。
  • vs 多轮指令跟随评测: 既有多轮评测常看指令保持或偏好一致性;本文进一步观察到多轮会直接伤害算术、时间、空间推理。
  • 启发: 评测 agent 时应把核心任务放进真实交互框架里测,而不是只测干净的子任务能力。

评分

  • 新颖性: ⭐⭐⭐⭐☆ “同一问题在孤立与对话中对照”的设计直接击中当前 LLM 评测盲点。
  • 实验充分度: ⭐⭐⭐⭐☆ 模型覆盖、任务覆盖和消融较完整,但主结果数值主要依赖图形和公开输出。
  • 写作质量: ⭐⭐⭐⭐☆ 结构清楚,错误分析有解释力;部分图表数值若在正文表格中列出会更方便复用。
  • 价值: ⭐⭐⭐⭐⭐ 对对话系统、工具调用 agent 和真实场景推理评测都有很高参考价值。