Reasoning Gets Harder for LLMs Inside A Dialogue¶

会议: ACL 2026
arXiv: 2603.20133
代码: https://github.com/ivankartac/boulder
领域: 对话系统 / LLM评测 / 推理能力
关键词: 任务型对话、动态基准、嵌入式推理、多轮交互、工具调用

一句话总结¶

这篇论文提出 Boulder 动态基准，证明 LLM 在孤立推理题上表现很好，但同一问题嵌入任务型对话后会显著退化，主要原因来自多轮上下文、对话角色约束和工具调用负担。

研究背景与动机¶

领域现状：LLM 推理能力通常通过数学、代码、空间或时间推理 benchmark 评估。这些 benchmark 往往把问题设计成孤立任务，输入干净、目标明确、答案格式容易验证。

现有痛点：真实使用场景并不总是孤立题。一个旅行助手、订票助手或酒店推荐系统中，模型需要同时记住对话历史、遵循助手角色、读取工具返回、生成自然语言回答，并在这个过程中完成隐式推理。传统 benchmark 可能高估了模型在真实交互场景中的稳定性。

核心矛盾：孤立推理强调“算对答案”，任务型对话强调“在复杂交互里自然回答”。当这两者叠加时，模型会在角色、格式、工具、上下文和推理之间分配注意力，原本强的推理能力可能被对话框架削弱。

本文目标：构建一个可控 benchmark，让同一个问题实例同时出现在 isolated prompt 和 task-oriented dialogue prompt 中，从而衡量对话嵌入本身带来的性能损失，并通过消融分析找出损失来源。

切入角度：作者选择旅行相关任务型对话，因为它天然包含算术、时间、空间、常识和结构化数据推理，而且可以用数据库和模板动态生成，降低训练数据污染风险。

核心 idea：不要只问 LLM “会不会推理”，还要问它“在扮演对话助手时还能不能推理”。

方法详解¶

论文的核心不是提出一个新模型，而是提出一个评测框架 Boulder，并用严格的对照实验揭示 dialogue framing 对推理的影响。Boulder 的每个样例都有同一个底层问题实例，但呈现方式不同：孤立设置直接给问题和 JSON 数据；对话设置把同样信息分散在多轮历史、用户请求、工具调用和工具结果中。

整体框架¶

Boulder 包含八类旅行任务，覆盖火车、酒店、餐馆、景点等四个领域。每类任务都可以自动生成新样例，并有可验证的标准答案。实验中，每个任务生成 100 个样例，共 800 个测试样例。

评估流程分三步：首先生成同一问题的 Baseline、Dialogue、Dialogue-concise 三种输入；然后让八个开源或闭源 LLM 在 greedy decoding 下回答；最后用专门的 LLM parser 从自然语言输出中抽取答案，并用人工验证与 prediction-powered inference 校正 parser 噪声。

关键设计¶

1. 同实例双形态 benchmark：把“问题本身有多难”和“对话怎么呈现”这两件事彻底分开

如果孤立设置和对话设置用的是不同问题，性能下降到底来自推理难度还是对话形式就永远说不清。Boulder 让每个样例共用同一个底层数据库、同一个目标答案和一组近似同义的用户问题，只在呈现方式上分叉：Baseline 直接把问题和 JSON 数据摆出来，Dialogue 则把同样的信息打散到多轮历史、用户请求、工具调用和工具结果里。两端唯一的变量就是“信息怎么包装”，于是 Baseline 与 Dialogue 的分差可以干净地归到 dialogue framing 头上，而不会和题目难度混在一起。

2. 动态生成与自动可验证答案：既防数据污染，又撑得起大规模评估

LLM 很可能早就见过静态公开 benchmark，刷高分未必代表真会推理。Boulder 基于 MultiWOZ 数据库加作者编写的模板动态生成旅行任务，并对部分数据做合成扩展增加多样性；目标答案统一以金额、时间、距离、布尔关系或路径序列的形式自动计算出来，因此随时可以重新采样一批新样例而答案依然可验证。这让 benchmark 在污染风险越来越高的环境里更耐用，也支撑了八类任务、每类 100 例、共 800 个样例的规模化评估。

3. 对话因素消融：拆开看性能到底掉在哪个环节

只对比 Baseline 与 Dialogue 只能得出“对话变难了”，却说不清是多轮、工具还是角色在拖后腿。作者围绕 Dialogue 设计了一组变体——reduced domains、without tools、single-turn dialogue、multi-turn baseline、baseline with dialogue role、dialogue with reasoning instruction——逐个加入或移除领域复杂度、工具 schema、多轮历史和助手角色。通过观察每个变体相对参照设置的升降，就能把整体退化分解成各因素的贡献，结果指向多轮历史和工具负担是主要来源，而单加一句“请多推理”几乎无济于事。

损失函数 / 训练策略¶

本文是评测论文，没有训练新模型。所有模型使用统一 prompt 和 greedy decoding。对于开放权重模型，作者通过 Ollama 或 OpenRouter 推理；对于闭源模型，通过 OpenRouter API 调用。聚合指标把准确率、precision 和归一化后的 MAE 映射到 0 到 1 的区间，以便跨任务平均。

实验关键数据¶

主实验¶

Boulder 的任务覆盖不同推理类型，输出也不强制固定格式，因此更贴近真实对话系统。

任务	领域	推理类型	抽取值	指标
Train ticket price	trains	算术 + 常识	金额	Accuracy
Hotel booking price	hotels	算术 + 房型约束	金额	Accuracy
Train departure time	trains	时间顺序	HH:MM	Accuracy
Train departure frequency	trains	时间频率	分钟	MAE
Restaurant opening hours	restaurants	时间区间关系	餐馆列表	Precision
Distance between venues	hotels/restaurants	空间距离	米	MAE
Directional relations	attractions/restaurants	方位关系	yes/no/unknown	Accuracy
Shortest walking path	attractions/hotels	路径优化	景点顺序	Accuracy

主要结论是：大多数模型在 Baseline 中表现高，但进入 Dialogue 后显著下降；Dialogue-concise 通常只比 Dialogue 更低一点，说明问题不只是短回答限制，而是对话框架本身改变了模型行为。

设置	输入形态	论文报告的总体趋势	关键解释
Baseline	孤立问题 + JSON 数据	多数模型平均分约 0.87-0.97，Gemini 2.5 Flash 略高于 0.70	任务清晰，模型可展开推理
Dialogue	多轮 TOD 历史 + 工具 schema/结果	所有模型明显低于 Baseline，较小模型下降更大	推理被角色、历史和工具负担干扰
Dialogue-concise	Dialogue + 最多两句回答	通常只比 Dialogue 稍低	显式长度限制不是唯一原因

消融实验¶

Parser 的可靠性是这类 benchmark 的基础。作者人工检查 5,760 个解析结果，并报告 95%-99% 的准确率，双标一致性 κ=0.94。

Parser 维度	准确率	Parser 维度	准确率
Ticket price	96.39%	Qwen3 4B 输出	96.52%
Booking price	98.75%	Mistral Small 24B 输出	98.47%
Departure time	98.61%	Qwen3 30B 输出	98.05%
Departure frequency	97.50%	Command A 111B 输出	98.61%
Opening hours	94.86%	Qwen3 235B 输出	95.83%
Distance	96.11%	DeepSeek V3.2 输出	95.97%
Directional relation	96.54%	Gemini 2.5 Flash 输出	93.47%
Shortest path	98.06%	Claude 4.5 Sonnet 输出	95.97%

对话因素消融进一步说明性能下降不是单一原因造成的。

消融设置	对比对象	观察结果	解释
Dialogue with reduced domains	Dialogue	对不同模型影响不一致	简化领域数量不能稳定解决问题
Dialogue without tools	Dialogue	多数模型显著提升但仍低于 Baseline	工具 schema 和工具历史增加认知负担
Single-turn dialogue	Dialogue	性能上升	多轮历史是主要退化来源之一
Multi-turn baseline	Baseline	加入多轮历史后性能下降	即使没有 TOD 指令，多轮本身也会伤害推理
Baseline with dialogue role	Baseline	多数模型下降	助手角色会诱导更短、更会话化的回答
Dialogue with reasoning instruction	Dialogue	部分模型提升但 gap 仍大	简单提示模型“多推理”不足以恢复能力

关键发现¶

传统孤立 benchmark 的高分不能直接代表真实交互中的推理可靠性。
多轮交互是最显著的负面因素；它会让模型提前回答、事后合理化，或在历史信息中混淆规则。
TOD 助手角色会让模型倾向于短回答、礼貌回答或请求澄清，而不是完整展开计算。
工具 schema 与工具调用历史也会干扰推理，可能因为模型同时承担“生成自然语言”和“理解工具结构”的双重角色。
单纯加一句 reasoning instruction 效果有限，说明这不是一个简单 prompt 能完全修复的问题。

亮点与洞察¶

论文最强的地方是 controlled comparison。同一个问题实例用两种形态呈现，让“对话变难”这个结论有比较坚实的因果解释。
Boulder 是动态 benchmark，这对 2026 年后的 LLM 评测很重要。静态公开题越来越容易被污染，动态生成可以延长 benchmark 生命周期。
作者没有把错误简单归因于“模型不会推理”，而是指出对话环境改变了模型的行为模式。这对实际构建 agent 和对话系统很有价值。
LLM parser + 人工校正 + PPI 的评估设计比较细致，避免完全依赖 LLM-as-a-judge 的主观判断。

局限与展望¶

任务只覆盖四个旅行相关领域，虽然包含算术、空间和时间推理，但不一定能代表医疗、法律、企业流程等更复杂场景。
实验主要是 zero-shot 单模型 TOD。现实系统可能有检索、规划器、专用工具执行器或多模块 pipeline，性能退化程度可能不同。
作者没有系统测试 few-shot、微调或专门的对话推理训练是否能缓解 gap。
图中很多主结果以曲线呈现，正文提供了趋势和范围，但若要复现实验，需要依赖公开代码和输出文件获取完整数值。
未来可以把 Boulder 扩展到跨语言对话、真实用户偏好、多 agent 工具链，以及更长历史的场景。

评分¶

新颖性: ⭐⭐⭐⭐☆ “同一问题在孤立与对话中对照”的设计直接击中当前 LLM 评测盲点。
实验充分度: ⭐⭐⭐⭐☆ 模型覆盖、任务覆盖和消融较完整，但主结果数值主要依赖图形和公开输出。
写作质量: ⭐⭐⭐⭐☆ 结构清楚，错误分析有解释力；部分图表数值若在正文表格中列出会更方便复用。
价值: ⭐⭐⭐⭐⭐ 对对话系统、工具调用 agent 和真实场景推理评测都有很高参考价值。