跳转至

LLMs Get Lost In Multi-Turn Conversation

会议: ICLR 2026
arXiv: 2505.06120
OpenReview: https://openreview.net/forum?id=VKGTGGcwl6
代码: 待确认
领域: LLM 评测 / 多轮对话
关键词: 多轮对话、欠定指令、可靠性、模拟评测、Lost-in-Conversation

一句话总结

本文通过"指令分片 + 模拟对话"的大规模实验(20 万+ 模拟对话、15 个 LLM)证明:所有顶尖 LLM 在多轮欠定对话中相比单轮完整指令平均掉点 39%,而这种退化主要不是能力下降,而是可靠性崩溃——模型一旦在某轮走错就"迷失"且无法恢复。

研究背景与动机

领域现状:LLM 本质是对话接口,用户常常一开始说不清需求,要靠多轮交互逐步澄清。可现实是,LLM 评测几乎都停留在"单轮、完整指令"设定下,与真实使用场景脱节。

现有痛点:已有的多轮评测大多把对话当作 episodic(情景式)——每一轮都是一个能被孤立打分的自包含子任务。这种设计回避了人类对话最核心的特征:欠定(underspecification),即信息分散在多轮里、需要模型跨轮融合零碎线索。

核心矛盾:单轮 episodic 评测高估了模型能力。一旦要把分散在各轮的线索拼起来完成同一个任务,模型表现会急剧且一致地下滑,而这种下滑在传统评测里完全看不到。

本文目标:构造一个能把现有单轮高质量 benchmark 转成多轮欠定对话的公平评测环境,让单轮与多轮跑在同一组任务上,从而精确测量从单轮到多轮的退化幅度,并解释退化的成因。

核心 idea【指令分片 + 受控模拟】 把一条完整指令切成多个"分片(shard)",每轮只透露至多一个分片,强制信息逐步揭示;用 LLM 扮演 user / assistant / system 三角色跑模拟,并把退化拆解成 aptitude(能力)unreliability(不可靠性) 两个可量化维度。

方法详解

整体框架

方法分两步:先把单轮完整指令经"分片流程"转成一组分片,再把这组分片喂进"分片模拟环境"跑多轮对话。模拟环境是一个三角色循环——被测 assistant 自由作答,user(GPT-4o-mini)持有完整指令并决定每轮揭示哪个分片,system 负责给 assistant 回复打标签(七种策略之一)和打分。当 assistant 给出"答案尝试"时抽取答案片段送任务评估器,对话最终得分取所有轮次得分的最大值,直到答对或分片用尽。

flowchart LR
    A[单轮完整指令] -->|分片流程<br/>切分/改写/校验/人工| B[分片集合 shards]
    B --> C{模拟环境}
    C --> U[User: 每轮揭示≤1分片]
    U --> M[Assistant 被测模型]
    M --> S[System: 策略分类+答案抽取+打分]
    S -->|未答完且有分片| U
    S -->|答对/分片用尽| E[最终分=各轮最大值]

关键设计

1. 指令分片(Sharding):把"一句话说全"拆成"逐渐说清" 分片的目标是让一组小指令联合起来等价于原始完整指令,但信息被显式打散到各分片。为保证公平,作者定义了一套分片必须满足的性质(信息保全、首轮即有清晰意图、顺序不敏感等),并用"切分→改写→自动校验→人工逐条审查"的半自动流程生成(每 100 条约耗 3 小时人工)。人工环节会合并/拆分/重排分片,确保每个分片都是"用户在一轮里自然会说的一个信息单元",而非对抗性的刻意切割。这一步是整套评测可信度的根基——若分片本身漏了信息,退化就成了假象。

2. 三角色模拟与得分机制:给被测模型留足"翻盘"空间 user 模拟器拿到完整指令和对话历史,能根据上下文挑选并轻度改写下一个最贴合当前交流的分片(比如 assistant 提了澄清问题,就回相关的分片而非按固定顺序放),比模板/随机更接近真人。assistant 在首轮只拿到最小上下文(如工具列表),从不被告知"对话会欠定/多轮",以测量其默认行为。值得注意的是,一段 \(N\) 分片的对话里 assistant 最多有 \(N\) 次答案尝试、取最优计分,这反而让分片设定比单轮更占便宜(单轮只允许一次答案尝试)——即便如此多轮仍大幅落后,说明退化是真实的。

3. 五种模拟类型:隔离"多轮欠定"这一个变量 基于同一组分片,作者设计五种信息揭示节奏来做对照。单轮组有 FULL(原始完整指令,基线)和 CONCAT(所有分片拼成一条 bullet 列表,一轮给出——去掉欠定但保留分片改写,用来排除"是改写本身导致掉点"的可能);多轮组有 SHARDED(核心欠定设定)、RECAP(SHARDED 后加一轮复述全部分片,测 agent 式收尾能否补救)、SNOWBALL(每轮揭示新分片同时复述所有旧分片,测持续提醒能否减负)。CONCAT 表现达到 FULL 的 95.1%,干净地证明掉点来自多轮欠定本身而非信息丢失或改写。

4. Aptitude / Unreliability 双指标:把"掉点"拆成"变笨"还是"变飘" 对每条指令跑 \(N=10\) 次模拟得到分数集合 \(S=\{S_i\}\),定义三个指标:平均表现 \(P=\frac{1}{N}\sum_i S_i\)、能力 \(A^{90}=\text{percentile}_{90}(S)\)(最好 10% 的发挥,衡量"上限")、不可靠性 \(U^{90}_{10}=\text{percentile}_{90}(S)-\text{percentile}_{10}(S)\)(90 与 10 分位之差,衡量"波动")。可靠性即 \(R^{90}_{10}=100-U^{90}_{10}\)。这套设计的精妙之处在于:同样从 90% 掉到 60%,可能是上限塌了、也可能是发挥时好时坏,两个指标把它们彻底分开,从而能定位退化的真正病灶。

实验关键数据

主实验表格

15 个 LLM × 6 任务(Code/Database/Actions/Math/Data-to-Text/Summary)× 3 设定,共 20 万+ 模拟对话、成本约 $5,000。各设定平均表现(相对 FULL 的退化):

设定 平均表现 相对 FULL 退化 说明
FULL(单轮完整) ~90% 基线
CONCAT(单轮拼接) ~95.1%×FULL ≈ -5% 排除改写/信息丢失干扰
SHARDED(多轮欠定) ~65% -39% 所有模型在所有任务上一致掉点

代表性模型 SHARDED 退化幅度(强弱模型一样惨):

模型 FULL→SHARDED 退化
GPT-4.1 -32% 量级
Gemini 2.5 Pro -30~40%
Claude 3.7 Sonnet -30~40%
o3 / Deepseek-R1(推理模型) 与非推理模型同样退化
Llama3.1-8B / Phi-4(小模型) -30~40%

消融实验表格

实验 操作 结论
Aptitude vs Reliability 拆解 \(A\)\(U\) 多轮下能力仅降 16%,不可靠性暴增 +112%(翻倍多);最好与最差run差 ~50 分
渐进分片(1→8 shards) 固定复杂度只变分片粒度 只要≥2轮就迷失;唯一有效提升可靠性的办法是 1-shard 一次说全
RECAP / SNOWBALL(agent式) 复述/滚雪球补救 优于 SHARDED 但仍达不到 FULL;SNOWBALL 实测 +15~20%
温度消融(T=1/0.5/0) 降温提升可靠性? 单轮有效,多轮无效;即便 T=0 多轮不可靠性仍达 30%
System prompt 提示 告知"对话会多轮欠定" 仅 +1%,无实质帮助

关键发现

  • 能力强≠迷失少:单轮里能力越强越可靠(GPT-4.1、Gemini 2.5 Pro 不可靠性最低),但进入多轮后所有模型不可靠性都拉平到很高,再强也救不回来。
  • 退化主因是不可靠性而非能力:这是对 "Lost in Conversation" 现象的核心refinement。
  • 四大根因:模型倾向于(1)过早抛出完整答案并对欠定细节乱做假设、(2)过度依赖此前(错误的)答案尝试导致回答"臃肿"、(3)过度关注首尾轮出现"中间轮丢失"、(4)回答过于冗长引入更多假设干扰对用户话语的注意。推理模型回答平均长 33%,假设更多,反而更易乱。

亮点与洞察

  • 范式价值:第一个用"同一组任务、公平对照"精确量化单轮→多轮退化的工作,把"模型在真实对话里没那么好用"这一直觉变成可复现的 39% 数字。
  • Aptitude/Unreliability 二分是真正的概念贡献——它解释了为什么"换更强的模型"解决不了多轮问题:病根在可靠性,而社区一直只优化能力。
  • 可操作建议落到四类人群:给 LLM builder(联合优化能力与可靠性,目标 \(U<15\) 且 T=1)、agent builder(别指望框架记忆补救,模型要原生支持多轮)、NLP 研究者(为易退化任务发布分片变体)、普通用户("超时就重开""重试前先汇总")。

局限与展望

  • 模拟非真人:依赖 LLM 模拟 user,分片结构偏窄、末轮必定信息完整,缺少真人对话中的术语误解、放弃、无解目标等动态——作者明确指出实测退化很可能是真实世界的低估
  • 任务受限:只覆盖有分析型解答的任务,未验证创意写作等开放式任务是否同样迷失。
  • 仅英文文本:未涉及其他语言与多模态。
  • 复现性受限:多数实验用闭源 API 模型,未来模型退役后难以精确重跑;概率性本身也带来方差。

相关工作与启发

  • 对比 episodic 多轮评测(MT-Bench 等):本文论证 episodic 框架因可孤立打分而系统性高估能力,欠定才是缺失的关键维度。
  • 用户模拟谱系:从模板、固定标注到真人,本文选 LLM 模拟以平衡多样性与可控性,并强调它只是"探测 LLM 行为的探针",非"建模真人"。
  • 启发:(1) 评测应把"可靠性/方差"作为一等公民,而非只报平均分;(2) agent 框架的"记忆外置"不是银弹,多轮鲁棒性需要进模型本身;(3) "分片化"可作为通用工具,把任意单轮 benchmark 升级成多轮压力测试。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把"欠定多轮"做成公平可量化的评测范式,Aptitude/Unreliability 二分是真正的概念创新。
  • 实验充分度: ⭐⭐⭐⭐⭐ 15 个 LLM × 6 任务 × 多设定、20 万+ 对话,并配齐渐进分片/温度/system prompt/agent 式补救等消融。
  • 写作质量: ⭐⭐⭐⭐⭐ 论证链条干净(CONCAT 控制变量尤其漂亮),结论可操作,"Lost in Conversation"叙事强。
  • 价值: ⭐⭐⭐⭐⭐ 揭示了与真实使用严重脱节的评测盲区,对 LLM/agent/用户三方都有直接指导意义,影响面大。