LLMs Get Lost In Multi-Turn Conversation¶

会议: ICLR 2026
arXiv: 2505.06120
OpenReview: https://openreview.net/forum?id=VKGTGGcwl6
代码: 待确认
领域: LLM 评测 / 多轮对话
关键词: 多轮对话、欠定指令、可靠性、模拟评测、Lost-in-Conversation

一句话总结¶

本文通过"指令分片 + 模拟对话"的大规模实验（20 万+ 模拟对话、15 个 LLM）证明：所有顶尖 LLM 在多轮欠定对话中相比单轮完整指令平均掉点 39%，而这种退化主要不是能力下降，而是可靠性崩溃——模型一旦在某轮走错就"迷失"且无法恢复。

研究背景与动机¶

领域现状：LLM 本质是对话接口，用户常常一开始说不清需求，要靠多轮交互逐步澄清。可现实是，LLM 评测几乎都停留在"单轮、完整指令"设定下，与真实使用场景脱节。

现有痛点：已有的多轮评测大多把对话当作 episodic（情景式）——每一轮都是一个能被孤立打分的自包含子任务。这种设计回避了人类对话最核心的特征：欠定（underspecification），即信息分散在多轮里、需要模型跨轮融合零碎线索。

核心矛盾：单轮 episodic 评测高估了模型能力。一旦要把分散在各轮的线索拼起来完成同一个任务，模型表现会急剧且一致地下滑，而这种下滑在传统评测里完全看不到。

本文目标：构造一个能把现有单轮高质量 benchmark 转成多轮欠定对话的公平评测环境，让单轮与多轮跑在同一组任务上，从而精确测量从单轮到多轮的退化幅度，并解释退化的成因。

核心 idea：【指令分片 + 受控模拟】 把一条完整指令切成多个"分片（shard）"，每轮只透露至多一个分片，强制信息逐步揭示；用 LLM 扮演 user / assistant / system 三角色跑模拟，并把退化拆解成 aptitude（能力） 与 unreliability（不可靠性） 两个可量化维度。

方法详解¶

整体框架¶

方法分两步：先把单轮完整指令经"分片流程"转成一组分片，再把这组分片喂进"分片模拟环境"跑多轮对话。模拟环境是一个三角色循环——被测 assistant 自由作答，user（GPT-4o-mini）持有完整指令并决定每轮揭示哪个分片，system 负责给 assistant 回复打标签（七种策略之一）和打分。当 assistant 给出"答案尝试"时抽取答案片段送任务评估器，对话最终得分取所有轮次得分的最大值，直到答对或分片用尽。

flowchart LR
    A[单轮完整指令] -->|分片流程<br/>切分/改写/校验/人工| B[分片集合 shards]
    B --> C{模拟环境}
    C --> U[User: 每轮揭示≤1分片]
    U --> M[Assistant 被测模型]
    M --> S[System: 策略分类+答案抽取+打分]
    S -->|未答完且有分片| U
    S -->|答对/分片用尽| E[最终分=各轮最大值]

关键设计¶

1. 指令分片（Sharding）：把"一句话说全"拆成"逐渐说清"　分片的目标是让一组小指令联合起来等价于原始完整指令，但信息被显式打散到各分片。为保证公平，作者定义了一套分片必须满足的性质（信息保全、首轮即有清晰意图、顺序不敏感等），并用"切分→改写→自动校验→人工逐条审查"的半自动流程生成（每 100 条约耗 3 小时人工）。人工环节会合并/拆分/重排分片，确保每个分片都是"用户在一轮里自然会说的一个信息单元"，而非对抗性的刻意切割。这一步是整套评测可信度的根基——若分片本身漏了信息，退化就成了假象。

2. 三角色模拟与得分机制：给被测模型留足"翻盘"空间　user 模拟器拿到完整指令和对话历史，能根据上下文挑选并轻度改写下一个最贴合当前交流的分片（比如 assistant 提了澄清问题，就回相关的分片而非按固定顺序放），比模板/随机更接近真人。assistant 在首轮只拿到最小上下文（如工具列表），从不被告知"对话会欠定/多轮"，以测量其默认行为。值得注意的是，一段 $N$ 分片的对话里 assistant 最多有 $N$ 次答案尝试、取最优计分，这反而让分片设定比单轮更占便宜（单轮只允许一次答案尝试）——即便如此多轮仍大幅落后，说明退化是真实的。

3. 五种模拟类型：隔离"多轮欠定"这一个变量　基于同一组分片，作者设计五种信息揭示节奏来做对照。单轮组有 FULL（原始完整指令，基线）和 CONCAT（所有分片拼成一条 bullet 列表，一轮给出——去掉欠定但保留分片改写，用来排除"是改写本身导致掉点"的可能）；多轮组有 SHARDED（核心欠定设定）、RECAP（SHARDED 后加一轮复述全部分片，测 agent 式收尾能否补救）、SNOWBALL（每轮揭示新分片同时复述所有旧分片，测持续提醒能否减负）。CONCAT 表现达到 FULL 的 95.1%，干净地证明掉点来自多轮欠定本身而非信息丢失或改写。

4. Aptitude / Unreliability 双指标：把"掉点"拆成"变笨"还是"变飘"　对每条指令跑 $N=10$ 次模拟得到分数集合 $S=\{S_i\}$，定义三个指标：平均表现 $P=\frac{1}{N}\sum_i S_i$、能力 $A^{90}=\text{percentile}_{90}(S)$（最好 10% 的发挥，衡量"上限"）、不可靠性 $U^{90}_{10}=\text{percentile}_{90}(S)-\text{percentile}_{10}(S)$（90 与 10 分位之差，衡量"波动"）。可靠性即 $R^{90}_{10}=100-U^{90}_{10}$。这套设计的精妙之处在于：同样从 90% 掉到 60%，可能是上限塌了、也可能是发挥时好时坏，两个指标把它们彻底分开，从而能定位退化的真正病灶。

实验关键数据¶

主实验表格¶

15 个 LLM × 6 任务（Code/Database/Actions/Math/Data-to-Text/Summary）× 3 设定，共 20 万+ 模拟对话、成本约 $5,000。各设定平均表现（相对 FULL 的退化）：

设定	平均表现	相对 FULL 退化	说明
FULL（单轮完整）	~90%	—	基线
CONCAT（单轮拼接）	~95.1%×FULL	≈ -5%	排除改写/信息丢失干扰
SHARDED（多轮欠定）	~65%	-39%	所有模型在所有任务上一致掉点

代表性模型 SHARDED 退化幅度（强弱模型一样惨）：

模型	FULL→SHARDED 退化
GPT-4.1	-32% 量级
Gemini 2.5 Pro	-30~40%
Claude 3.7 Sonnet	-30~40%
o3 / Deepseek-R1（推理模型）	与非推理模型同样退化
Llama3.1-8B / Phi-4（小模型）	-30~40%

消融实验表格¶

实验	操作	结论
Aptitude vs Reliability	拆解 $A$ 与 $U$	多轮下能力仅降 16%，不可靠性暴增 +112%（翻倍多）；最好与最差run差 ~50 分
渐进分片（1→8 shards）	固定复杂度只变分片粒度	只要≥2轮就迷失；唯一有效提升可靠性的办法是 1-shard 一次说全
RECAP / SNOWBALL（agent式）	复述/滚雪球补救	优于 SHARDED 但仍达不到 FULL；SNOWBALL 实测 +15~20%
温度消融（T=1/0.5/0）	降温提升可靠性？	单轮有效，多轮无效；即便 T=0 多轮不可靠性仍达 30%
System prompt 提示	告知"对话会多轮欠定"	仅 +1%，无实质帮助

关键发现¶

能力强≠迷失少：单轮里能力越强越可靠（GPT-4.1、Gemini 2.5 Pro 不可靠性最低），但进入多轮后所有模型不可靠性都拉平到很高，再强也救不回来。
退化主因是不可靠性而非能力：这是对 "Lost in Conversation" 现象的核心refinement。
四大根因：模型倾向于（1）过早抛出完整答案并对欠定细节乱做假设、（2）过度依赖此前（错误的）答案尝试导致回答"臃肿"、（3）过度关注首尾轮出现"中间轮丢失"、（4）回答过于冗长引入更多假设干扰对用户话语的注意。推理模型回答平均长 33%，假设更多，反而更易乱。

亮点与洞察¶

范式价值：第一个用"同一组任务、公平对照"精确量化单轮→多轮退化的工作，把"模型在真实对话里没那么好用"这一直觉变成可复现的 39% 数字。
Aptitude/Unreliability 二分是真正的概念贡献——它解释了为什么"换更强的模型"解决不了多轮问题：病根在可靠性，而社区一直只优化能力。
可操作建议落到四类人群：给 LLM builder（联合优化能力与可靠性，目标 $U<15$ 且 T=1）、agent builder（别指望框架记忆补救，模型要原生支持多轮）、NLP 研究者（为易退化任务发布分片变体）、普通用户（"超时就重开""重试前先汇总"）。

局限与展望¶

模拟非真人：依赖 LLM 模拟 user，分片结构偏窄、末轮必定信息完整，缺少真人对话中的术语误解、放弃、无解目标等动态——作者明确指出实测退化很可能是真实世界的低估。
任务受限：只覆盖有分析型解答的任务，未验证创意写作等开放式任务是否同样迷失。
仅英文文本：未涉及其他语言与多模态。
复现性受限：多数实验用闭源 API 模型，未来模型退役后难以精确重跑；概率性本身也带来方差。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"欠定多轮"做成公平可量化的评测范式，Aptitude/Unreliability 二分是真正的概念创新。
实验充分度: ⭐⭐⭐⭐⭐ 15 个 LLM × 6 任务 × 多设定、20 万+ 对话，并配齐渐进分片/温度/system prompt/agent 式补救等消融。
写作质量: ⭐⭐⭐⭐⭐ 论证链条干净（CONCAT 控制变量尤其漂亮），结论可操作，"Lost in Conversation"叙事强。
价值: ⭐⭐⭐⭐⭐ 揭示了与真实使用严重脱节的评测盲区，对 LLM/agent/用户三方都有直接指导意义，影响面大。

实验	操作	结论
Aptitude vs Reliability	拆解 \(A\) 与 \(U\)	多轮下能力仅降 16%，不可靠性暴增 +112%（翻倍多）；最好与最差run差 ~50 分
渐进分片（1→8 shards）	固定复杂度只变分片粒度	只要≥2轮就迷失；唯一有效提升可靠性的办法是 1-shard 一次说全
RECAP / SNOWBALL（agent式）	复述/滚雪球补救	优于 SHARDED 但仍达不到 FULL；SNOWBALL 实测 +15~20%
温度消融（T=1/0.5/0）	降温提升可靠性？	单轮有效，多轮无效；即便 T=0 多轮不可靠性仍达 30%
System prompt 提示	告知"对话会多轮欠定"	仅 +1%，无实质帮助