Alignment Drift in CEFR-prompted LLMs for Interactive Spanish Tutoring¶

会议: ACL 2025
arXiv: 2505.08351
代码: https://github.com/INTERACT-LLM/alignment-drift-llms
领域: LLM应用 / 教育NLP
关键词: alignment drift, CEFR, 语言教学, system prompting, 对话模拟

一句话总结¶

通过 LLM 模拟师生对话实验，发现基于 CEFR 等级的 system prompting 虽然能初步约束 LLM 输出的西班牙语难度，但随着对话轮次增加，这种约束效果逐渐衰减——作者将此现象命名为"alignment drift"，表明仅靠提示工程不足以支撑长期的自适应语言教学。

领域现状：LLM 被广泛探索作为语言学习的交互式导师，特别是为缺乏目标语言社区的 L2 学习者提供练习机会。现有研究主要集中在英语学习场景。

现有痛点：目前 LLM 语言教学主要依赖通用工具（如 ChatGPT），学习者需要自行掌握 prompt engineering 技巧来获得合适难度的输出。但没有系统性研究证明仅靠 system prompting 是否能可靠地将 LLM 输出约束在特定语言水平。

核心矛盾：CEFR（欧洲语言共同参考框架）提供了明确的语言水平定义（A1-C2），但 LLM 是否真正"理解"这些等级定义并能持续执行，在多轮对话中是否会漂移回无约束行为？

本文目标 系统性评估 CEFR-based system prompting 在多轮西班牙语教学对话中约束 LLM 输出难度的有效性和持久性。

切入角度：用 LLM 同时扮演"教师"和"学生"（独立聊天记录），模拟完整的多轮对话，避免人类实验的高成本，提供可规模化的低成本评估方法。

核心 idea：CEFR prompting 对 LLM 的约束效果随对话轮次增加而衰减（alignment drift），仅靠提示工程不足以构建可靠的自适应语言教学系统。

对话模拟方法:
- 功能：用同一 LLM 实例同时模拟教师和学生，通过切换聊天记录实现交替对话
- 核心思路：LLM 系统是无状态的，每次处理整个聊天记录。因此只需维护两个独立的聊天记录列表，交替传入即可
- 设计动机：避免人类参与者的高成本，提供可重复、可规模化的评估方法。固定初始消息 "Hola" 消除了学生端的变异性
CEFR System Prompt 设计:
- 功能：为教师 LLM 设计包含 CEFR 等级描述的 system prompt，仅改变等级相关的关键词
- 核心思路：提示中包含"beginner/intermediate/advanced"等级词 + CEFR Global Scale 的官方描述（3-4句话概括该等级学习者的能力）
- 设计动机：利用 CEFR 的标准化定义，使实验可复现且有明确的难度参照
多维度文本难度评估:
- 功能：提取 6 种指标覆盖可读性、结构复杂度和语义自然度
- 传统可读性（3种）：Fernández Huerta、Szigriszt-Pazos（西班牙版 Flesch）、Gutiérrez de Polini——基于音节数、字符数和句子长度
- 结构复杂度（2种）：平均依存距离 (MDD) 衡量句法复杂度；文本长度（token 数）
- LLM Surprisal（1种）：用 EuroBERT 计算句子级 surprisal 分数，越低表示文本越"自然"（更像高水平文本）
- 设计动机：单一指标不足以捕捉文本难度的多个维度，综合评估更可靠

对每个模型的每种指标，拟合线性混合效应模型：\(\text{metric}_{\text{model}} \sim \text{level} + (1|\text{chat}_{\text{id}})\)，以 A1 为基线比较 B1 和 C1 的显著性差异。Bonferroni 校正多重比较。

指标	模型	A1 vs B1 差异	A1 vs C1 差异	p 值
Fernández Huerta	所有模型	β: -4 ~ -9	β: -12 ~ -17	p<0.001
文本长度	所有模型	显著增加	显著增加	p<0.001
MDD	大多数模型	显著增加	显著增加	大多 p<0.001
Surprisal	除 Qwen 外	显著降低	显著降低	p<0.001

现象	观察	说明
Alignment Drift	所有模型、所有指标	随对话轮次增加，不同等级的指标值趋于收敛
A1 vs C1 区分度	较好	可读性差异最大约 17 Fernández Huerta 分
B1 vs C1 区分度	较差	分布大量重叠，Qwen 尤其严重
跨模型差异	Llama 最稳定	Gemma/Mistral 有更多波动，Qwen 在 surprisal 上无显著差异
语言切换问题	Gemma/Llama→英语, Qwen→中文	A1 等级尤其明显

Alignment Drift 概念的提出：首次系统性地命名和量化"LLM 在多轮对话中逐渐偏离 system prompt 约束"的现象。这个发现对所有依赖 system prompting 保持长期行为一致性的应用都有警示意义，不仅限于语言教学
低成本 LLM-LLM 对话模拟评估：用 LLM 同时模拟师生避免人类实验成本，是一种可规模化的评估方法，可迁移到其他对话系统评估场景
多维度度量体系：结合传统可读性、句法复杂度和神经语言模型 surprisal 的综合评估框架，在西班牙语 L2 教学领域是开创性的