LLM as a Broken Telephone: Iterative Generation Distorts Information¶

会议: ACL 2025
arXiv: 2502.20258
代码: https://github.com/amr-mohamedd/LLM-as-a-Broken-Telephone
领域: LLM / NLP
关键词: 信息失真, 迭代生成, 模型坍缩, 机器翻译, 事实性

一句话总结¶

以翻译为测试床模拟 LLM 的"传话游戏"，发现信息在 100 次迭代翻译后严重失真——一辆卡车司机的罚款新闻经 100 轮英泰互译后变成"小汽车获得赔偿后发生爆炸"，而中间语言的选择、链条复杂度和解码温度是失真速度的关键调控因素。

研究背景与动机¶

领域现状：随着 LLM 生成的内容日益充斥互联网，模型消费自身输出的循环不可避免。Model collapse（模型坍缩）研究已证明在合成数据上迭代训练会导致分布退化，但对推理阶段的迭代生成（非训练）的信息失真研究几乎空白。

现有痛点： - Model collapse 文献聚焦于训练循环，而非推理时的迭代处理 - Perez et al. (2024) 研究了复述/续写链中的文本属性演化（毒性、正面性、难度），但忽略了翻译——最常见的迭代 LLM 应用之一 - 已有研究仅用单模型单语言链，未考虑多模型协作（如多 agent 系统中模型 A 输出→模型 B 处理的场景） - 缺乏对事实性和文本相似度在迭代中退化速度的系统量化

核心矛盾：多 agent 系统和 AI 内容循环日益普遍，但我们对"信息经过 LLM 反复处理后还剩多少真实性"几乎一无所知

本文目标 (1) 量化 LLM 迭代翻译中的信息失真积累 (2) 分析中间语言/链条复杂度/模型组合对失真的影响 (3) 探索缓解策略

切入角度：借鉴人类传话游戏（Telephone Game）的隐喻，将翻译链设计为可控的迭代生成实验——每轮 EN→中间语言→EN，100 轮后与原文对比

核心 idea：LLM 也是"坏掉的电话"——信息经迭代生成后渐进失真，且失真程度受语言选择、链条复杂度和解码策略的系统性影响。

方法详解¶

整体框架¶

3 个数据集（BookSum、ScriptBase、News2024）× 150 个文档 × 6 种中间语言（FR/DE/NL/VN/ZH/TH）× 2 个模型（Llama-3.1-8B / Mistral-7B）→ 100 轮迭代翻译 → 每轮用 5 类文本相关性指标 + FActScore 事实性指标与原文对比

关键设计¶

三种实验设置的递进复杂度：
- Exp1 双语自环：单模型在 EN↔中间语言间反复翻译 100 轮，6 种中间语言 × 2 模型 × 3 数据集
- Exp2 双语双人：两个不同模型交替参与同一翻译链（模拟多 agent 协作），EN↔FR 和 EN↔TH
- Exp3 多语多人：2-4 种中间语言 + 2-3 个模型在同一链中随机排列，测试复杂度上限
- 设计动机：从单一到复杂递进探测，模拟真实场景中从单人翻译到多 agent 多语言信息传播
双轴评估体系：
- 文本相关性：BLEU（词串精确匹配）+ ROUGE-1（词级覆盖）+ CHR-F（字符级）+ METEOR（释义变体）+ BERTScore（语义相似度）
- 事实性：FActScore 将长文本分解为原子事实，用 Claude 3.5 Sonnet 逐条验证——以原始文本为事实参考
- 设计动机：文本相关性捕捉表层偏移，FActScore 捕捉深层事实扭曲
梯度量化方法：
- 对 FActScore 随迭代次数的变化曲线计算平均梯度（average gradient），量化失真速度
- 设计动机：不同语言/设置的最终得分可能趋同，但退化速度差异显著——梯度更能区分风险等级

消融实验¶

温度消融：1e-6, 0.25, 0.5, 0.75, 1.0 五档
Prompt 约束度消融：simple / base / constrained 三种翻译 prompt
复述链消融：将翻译替换为同语言复述，验证失真是否仅限翻译

实验关键数据¶

Exp1：FActScore 平均梯度（失真速度）¶

语言对	Llama (News2024)	Mistral (News2024)
EN↔FR	-0.004 ± 0.003	-0.007 ± 0.004
EN↔DE	-0.005 ± 0.003	-0.011 ± 0.006
EN↔NL	-0.005 ± 0.003	-0.011 ± 0.006
EN↔VN	-0.008 ± 0.005	-0.027 ± 0.015
EN↔ZH	-0.011 ± 0.006	-0.024 ± 0.012
EN↔TH	-0.018 ± 0.009	-0.038 ± 0.022

Exp3：链条复杂度影响（FActScore）¶

设置	语言数	模型数	第10轮	第100轮	平均梯度
Setting 1	3	2	0.063	0.04	-0.036 ± 0.02
Setting 2	3	3	0.075	0.04	-0.034 ± 0.02
Setting 3	5	2	0.054	0.04	-0.038 ± 0.02

温度消融（EN↔FR，Llama）¶

温度	前2轮后稳定性	100轮后 FActScore 趋势
1e-6	几乎稳定	轻微下降后持平
0.25	缓慢下降	持续缓慢下降
0.50	明显下降	中等速度下降
1.00	最陡下降	持续剧烈发散

关键发现¶

语言相似度决定失真速度：拉丁字母语言（FR/DE/NL）梯度接近 0，非拉丁字母语言（TH/ZH/VN）梯度大 3-10 倍
泰语是最"坏的电话"：EN↔TH 在所有数据集和模型上失真最快，BookSum 上 Mistral 梯度达 -0.040
更多语言 > 更多模型：Setting 3（5 种语言/2 模型）比 Setting 2（3 种语言/3 模型）退化更快——语言多样性比模型多样性更能放大失真
复述也会失真：非翻译的纯复述链同样表现出信息退化，但速度慢于翻译链
低温度 + 约束 prompt 可有效缓解：温度 1e-6 几乎冻结失真，constrained prompt 比 simple prompt 显著减缓退化

亮点与洞察¶

"传话游戏"的隐喻精准且具有广泛警示意义：Table 1 的卡车→巴士→小车的渐变例子直观展示了失真过程，对所有使用 LLM 做迭代加工的流程（摘要→翻译→摘要）都有警示
对多 agent 系统的直接启示：Agent A 的输出被 Agent B 处理再交给 Agent C——每一步都在积累失真。Chain-of-agents 的设计需要内建事实性校验
事实性退化比表层词汇变化更危险：BLEU 下降可能只是换了同义词，但 FActScore 下降意味着事实被扭曲——这对新闻/医疗/法律场景风险极大

局限与展望¶

仅用 7-9B 模型：更大的模型（70B+）或 GPT-4 级别模型是否更抗失真需要验证
数据集领域有限：书籍/剧本/新闻三个领域特征相似，专业领域（医学/法律）的失真可能更严重
仅用默认解码参数：贪心解码 vs beam search 的影响未探索
FActScore 的评估者偏差：用 Claude 3.5 Sonnet 做 judge，但 judge 模型本身可能有系统性偏差

LLM as a Broken Telephone: Iterative Generation Distorts Information¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

消融实验¶

实验关键数据¶

Exp1：FActScore 平均梯度（失真速度）¶

Exp3：链条复杂度影响（FActScore）¶

温度消融（EN↔FR，Llama）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

LLM as a Broken Telephone: Iterative Generation Distorts Information¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

消融实验¶

实验关键数据¶

Exp1：FActScore 平均梯度（失真速度）¶

Exp3：链条复杂度影响（FActScore）¶

温度消融（EN↔FR，Llama）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶