Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention¶
会议: ACL 2025
arXiv: 2410.12462
代码: https://github.com/weixuan-wang123/INCLINE
领域: 多语言翻译
关键词: 跨语言迁移、推理时干预、多语言LLM、表示对齐、低资源语言
一句话总结¶
本文提出INCLINE(Inference-Time Cross-Lingual Intervention),一种无需微调的推理时框架,通过学习对齐矩阵将低性能语言的内部表示变换到高性能语言的表示空间,在9个基准和5个LLM上显著提升多语言性能。
研究背景与动机¶
领域现状:多语言LLM虽然以一定的跨语言能力著称,但不同语言间的性能差距显著——英语通常远优于其他语言,特别是低资源语言。现有缩小差距的方法主要包括:多语言预训练(如XLM-R)、多语言指令微调、语言特定适配器(language-specific adapters)。
现有痛点:(1)预训练和微调方法对计算资源要求极高,对每种新语言都需要大量投入;(2)即使经过多语言训练,参数量有限的模型仍然对低资源语言分配不足的表示能力;(3)现有的推理时方法(如prompt翻译、few-shot示例翻译)引入了翻译误差累积,且对翻译系统质量高度依赖。
核心矛盾:LLM在不同语言上的能力差距本质上是表示空间的差距——高性能语言(如英语)占据了表示空间中更"好"的区域(与知识和推理能力更对齐),而低性能语言被挤到了较差的区域。这个差距根植于训练数据的不均衡。
本文目标:在不修改模型参数的前提下,通过推理时的表示干预弥合语言间的性能差距。
切入角度:作者假设不同语言的高层表示空间之间存在近似线性的映射关系——如果能找到这个映射,就可以将低性能语言的表示"投射"到高性能语言的表示空间中,借用英语等高资源语言的"好表示"来提升低资源语言的性能。
核心 idea:用平行句对学习跨语言对齐矩阵,推理时将低资源语言的中间层表示线性变换到高资源语言空间。
方法详解¶
整体框架¶
INCLINE的工作流程分为两个阶段:(1)离线学习阶段——收集源语言(低性能)和目标语言(高性能,通常是英语)的平行句对,分别通过LLM获取内部隐藏状态表示,用最小二乘优化学习从源到目标的线性对齐矩阵;(2)推理时干预阶段——当LLM处理源语言输入时,在特定层的隐藏状态上应用学到的对齐矩阵进行变换,然后继续后续层的计算。
关键设计¶
-
基于最小二乘的对齐矩阵学习:
- 功能:学习源语言→目标语言的表示空间映射
- 核心思路:给定平行句对集合 \(\{(s_i, t_i)\}_{i=1}^N\),分别获取源语言句子 \(s_i\) 在第 \(l\) 层的隐藏状态 \(h_l^s(s_i)\) 和目标语言句子 \(t_i\) 在第 \(l\) 层的隐藏状态 \(h_l^t(t_i)\)。学习线性变换矩阵 \(W^*\) 使得 \(W^* = \arg\min_W \sum_i \|W \cdot h_l^s(s_i) - h_l^t(t_i)\|^2\),这是一个标准的最小二乘问题,有闭式解 \(W^* = (H_s^T H_s)^{-1} H_s^T H_t\)。学习过程快速且不需要反向传播。
- 设计动机:线性变换假设是一个强但合理的简化——之前的跨语言表示研究(如MUSE、VecMap)已经表明词嵌入空间之间存在近似线性映射。将此发现推广到LLM隐藏层是自然的。最小二乘法计算效率极高,数百个平行句对就足够。
-
层选择策略:
- 功能:确定在LLM的哪一层(或哪些层)应用干预
- 核心思路:不同层捕获不同层次的语言信息——低层更多是词法/语法信息,高层更多是语义/任务信息。通过在验证集上逐层测试干预效果来确定最优干预层。实验发现中间偏高层(如32层模型的18-24层)通常是最优选择——这些层的表示已经足够抽象以支持跨语言对齐,但还没有太接近输出层导致干预影响过大。
- 设计动机:在太低的层干预会破坏模型对源语言的基本理解;在太高的层干预覆盖面不够,因为后续计算太少无法充分利用对齐后的表示。中间高层是语义抽象和计算余量的最佳平衡点。
-
推理时表示干预:
- 功能:在推理过程中实时将源语言表示变换到目标语言空间
- 核心思路:推理时,当LLM处理源语言输入到达第 \(l\) 层时,将隐藏状态 \(h_l^s\) 替换为 \(\tilde{h}_l = W^* \cdot h_l^s\),然后继续后续层的前向传播。干预是无缝的——不需要修改模型架构或权重,只在中间表示上做一次矩阵乘法。实际实现中通过hook机制在特定层截获并修改隐藏状态。
- 设计动机:推理时干预的最大优势是零训练成本——学习对齐矩阵只需几分钟,且同一个矩阵可以在所有该语言的输入上复用。这使得方法可以快速扩展到新语言。
损失函数 / 训练策略¶
对齐矩阵学习使用最小二乘损失,闭式求解,无需梯度优化。所需平行句对数量级在几百到几千之间。
实验关键数据¶
主实验(多语言性能提升)¶
| 基准任务 | 指标 | INCLINE | 直接推理 | 翻译后推理 | Prompt翻译 |
|---|---|---|---|---|---|
| XNLI (多语言) | Acc | 72.5 | 65.8 | 70.1 | 68.4 |
| XQuAD (多语言) | F1 | 68.3 | 61.2 | 66.5 | 64.8 |
| MGSM (多语言数学) | Acc | 55.2 | 46.7 | 52.8 | 50.1 |
| X-COPA (因果推理) | Acc | 78.6 | 71.4 | 75.9 | 73.8 |
跨模型验证¶
| LLM | 平均多语言提升 | 低资源语言提升 | 说明 |
|---|---|---|---|
| LLaMA-2-7B | +6.2% | +9.5% | 基础多语言能力较弱,提升大 |
| LLaMA-2-13B | +5.1% | +8.3% | 更大模型仍有显著提升 |
| mGPT | +4.8% | +7.1% | 多语言预训练模型也受益 |
| Mistral-7B | +5.5% | +8.8% | 不同架构均有效 |
| LLaMA-3-8B | +3.9% | +6.7% | 多语言能力强的模型提升较小但仍显著 |
关键发现¶
- INCLINE在所有测试的5个LLM和9个基准上均优于直接推理和翻译-based方法
- 低资源语言(如斯瓦希里语、乌尔都语)上的提升最为显著(+8-10%),高资源语言(如法语、德语)提升较小(+2-4%),符合预期
- 中间偏高层(约60-75%深度)是最优干预位置,与之前关于LLM层级功能的研究结论一致
- 仅需几百个平行句对就能学到有效的对齐矩阵,数据效率极高
- 线性对齐假设在大多数语言对和任务上成立,少数形态差异极大的语言对(如英-日)效果略逊
亮点与洞察¶
- "推理时干预"的思路极为优雅——零参数修改、零训练成本、一次学习到的矩阵可在所有输入上复用。这是一种极具成本效率的跨语言提升方法,特别适合资源受限的部署场景。
- 跨语言表示空间的线性可对齐性在LLM层面得到了验证,这是对之前词嵌入对齐研究(MUSE等)的重要推广。
- 对齐矩阵学习只需平行句对,不需要标注数据,数据获取门槛极低——甚至可以用机器翻译生成的伪平行对。
局限与展望¶
- 线性对齐假设对形态差异极大的语言对可能不成立(如英语-日语),可以探索非线性映射
- 对齐矩阵是静态的,无法适应上下文变化——同一句话在不同上下文中可能需要不同的对齐
- 实验仅在判别式和短生成任务上验证,长文本生成(如摘要、翻译)上的效果有待确认
- 干预可能在某些极端情况下破坏模型的源语言理解——例如对源语言特有的文化概念可能产生错误映射
- 可以探索多层联合干预和自适应干预强度来进一步提升效果
相关工作与启发¶
- vs 多语言微调: 微调需要大量计算资源且可能导致灾难性遗忘;INCLINE零训练成本且不修改参数
- vs 翻译后推理(translate-then-answer): 翻译引入误差累积且增加推理延迟;INCLINE直接在表示空间操作,无翻译误差
- vs 语言适配器(MAD-X等): 适配器仍需训练且对每种语言独立维护参数;INCLINE只需一个对齐矩阵
- vs MUSE/VecMap: 经典词嵌入对齐工作在静态表示上的成果,INCLINE推广到LLM上下文化表示
评分¶
- 新颖性: ⭐⭐⭐⭐ 推理时跨语言表示干预是一个优雅的新视角
- 实验充分度: ⭐⭐⭐⭐⭐ 5个LLM、9个基准、多语言验证,非常充分
- 写作质量: ⭐⭐⭐⭐ 方法简洁清晰
- 价值: ⭐⭐⭐⭐⭐ 极高的实用价值——零成本多语言提升,开源代码