Multilingual Steering by Design: Multilingual Sparse Autoencoders and Principled Layer Selection¶

会议: ACL2026
arXiv: 2605.23036
代码: https://github.com/Yusser96/Multilingual-Steering-by-Design/
领域: 多语言控制 / 机制可解释性
关键词: 多语言SAE, activation steering, layer selection, 语言向量, CrossSumm

一句话总结¶

这篇论文证明，多语言 sparse autoencoder 和“多语言对齐-语言可分性”交叉点层选择可以让 SAE 语言 steering 更稳定，把原先靠经验选层的多语言控制问题转成可预测的表征诊断问题。

研究背景与动机¶

领域现状：Sparse autoencoder (SAE) 已成为解释和干预 LLM 内部激活的重要工具。已有工作表明，沿着某些稀疏特征或语言方向做 activation steering 可以改变模型输出语言，但常见做法仍依赖 English-only SAE、手动 layer sweep 或“中后层更有效”这类经验规则。

现有痛点：多语言语言控制并不只是找到“某个语言特征”然后放大。若干预层过早，模型可能只接触到共享跨语言语义，语言切换不够具体；若干预层过晚，语言身份更强但生成质量和语义保持能力可能下降。更麻烦的是，不同模型和 SAE 变体的最佳层不稳定，导致复现实验昂贵且缺少机制解释。

核心矛盾：可靠语言 steering 需要同时满足两个条件：一方面要保留跨语言共享语义结构，让模型还能生成可读内容；另一方面要暴露足够语言特异信息，让 intervention 能把输出推向目标语言。只追求 separability 或只追求 alignment 都会失衡。

本文目标：作者希望回答三个问题：多语言语料训练的 SAE 是否比 English-only SAE 更适合语言控制；能否在不跑完整 downstream sweep 的情况下先验预测有效 steering 层；这种预测是否能跨 LLaMA-3.1-8B、Gemma-2-9B、机器翻译和跨语言摘要任务成立。

切入角度：论文把语言 steering 建模为表征空间中的平衡点搜索。作者不先看 downstream 生成指标，而是先分析每层语言向量相关矩阵：主成分解释率高代表共享跨语言对齐强，主成分之外的互补量代表语言可分性强。两者相交的层被认为是最佳干预候选。

核心 idea：训练覆盖 21 种语言的 MULTI21-SAE，并用 multilinguality 与 separability 的交叉点选层，从而替代手工 layer sweep。

方法详解¶

论文的方法由三部分组成：先在 dense residual stream 或 SAE sparse code 中构造语言向量；再比较 English-only SAE 与 MULTI21-SAE 对语言结构的保留情况；最后根据每层语言向量相关矩阵计算 multilinguality / separability，并在交叉层施加 SAE steering。

整体框架¶

输入是一组多语言文本样本。对每个模型层 \(\ell\)，方法收集目标语言样本的 SAE code \(\mathcal{Z}^+\) 和其他语言样本的 code \(\mathcal{Z}^-\)，用 DiffMean 构造语言向量 \(w_{\mathrm{DiffMean}}(\ell)=\bar{z}_{\ell}^{+}-\bar{z}_{\ell}^{-}\)。该向量既是分析语言表征的探针，也是推理时加到 SAE space 的 steering direction。

作者分别为 LLaMA-3.1-8B 和 Gemma-2-9B 训练两套 JumpReLU SAE：一套只用英语 Wikipedia，另一套用 21 种 FLORES-200 语言的平衡 Wikipedia 语料。两套 SAE 的 token 总量、架构和优化超参相同，以隔离“训练语料语言覆盖”这一变量。

层选择不依赖下游指标。对每层的语言向量两两 Pearson correlation matrix 做特征值分解，用第一主成分解释率 \(f_\ell\) 表示 multilinguality，即语言之间共享方向的强弱；用 \(s_\ell=1-f_\ell\) 表示 separability，即语言仍然彼此区分的程度。作者选择 \(f_\ell\) 与 \(s_\ell\) 平衡的交叉区域作为候选干预层，再在机器翻译和 CrossSumm 上验证。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多语言文本样本（21 种语言）"] --> B["DiffMean 语言向量<br/>目标语言 SAE code 均值 − 其余语言均值"]
    B --> C["多语言 SAE 训练<br/>EN-SAE 对照 vs MULTI21-SAE"]
    C --> D["alignment-separability 交叉点选层<br/>逐层相关矩阵特征分解 → multilinguality 与 separability 交叉区"]
    D --> E["在交叉层施加 SAE steering<br/>沿语言向量正方向加回激活"]
    E --> F["机器翻译 / CrossSumm 验证"]

关键设计¶

1. DiffMean 语言向量：为每种目标语言造一个既能分析、又能干预的方向

要在表征空间里操控语言，先得有一个能代表"某语言"的向量。作者在每一层分别平均目标语言 token 的 SAE sparse code 和其余语言 token 的 sparse code，两者之差 \(w_{\mathrm{DiffMean}}(\ell)=\bar{z}_{\ell}^{+}-\bar{z}_{\ell}^{-}\) 就是该层的语言方向。这个向量身兼两职：分析时它是探测语言表征结构（如语言家族聚类）的探针，推理时把它沿正方向加回 SAE space 就成了 additive steering，把输出推向目标语言。之所以在 sparse code 而非 dense residual stream 上构造，是因为稀疏特征更可解释，加向量后能看清是哪些语言特异特征在起作用，而不是一团纠缠的稠密激活。

2. 多语言 SAE 训练：让稀疏特征空间同时保住共享结构和语言特异结构

English-only SAE 的问题在于训练分布几乎全是英语，它会把英语高频结构编码得很好，而低频或跨语言特征被系统性弱化——可语言 steering 恰恰要用到后者。作者因此训练 MULTI21-SAE：用 21 种 FLORES-200 语言的均衡 Wikipedia 语料（共 2.1B tokens），与 EN-SAE 在 token 总量、JumpReLU 架构、优化步数和全部训练设置上严格对齐，唯一的变量就是"训练语料的语言覆盖"。这样一来，下游 steering 表现的差异就能干净地归因到语料语言覆盖，而不是训练规模或架构差异。

3. alignment-separability 交叉点选层：不跑下游 sweep 就先验预测有效干预层

可靠的语言 steering 要同时满足两个互相拉扯的条件：层太早，模型只接触到共享的跨语言语义，语言切换不够具体；层太晚，语言身份是强了但生成质量和语义保持会塌。作者把"选哪一层"从经验调参变成一道表征统计题：对每层的语言向量两两 Pearson 相关矩阵做特征值分解，用第一主成分解释率 \(f_\ell\) 表示 multilinguality（语言间共享方向的强弱），用 \(s_\ell=1-f_\ell\) 表示 separability（语言仍彼此可分的程度），再挑两者平衡的交叉区域作为候选干预层——例如 Gemma-2-9B 的 L14 / L23、LLaMA-3.1-8B 的 L13–L15。这个 criterion 的价值在于它是可证伪的先验假设：不看任何下游生成指标就能预测有效层，再由机器翻译和 CrossSumm 结果回头验证它确实压中了。

损失函数 / 训练策略¶

SAE 训练使用 JumpReLU 架构并作用于 residual stream，hook site 为 blocks.{layer}.hook_resid_post。关键超参包括 expansion factor 8、\(L_1\) coefficient 5.0、JumpReLU bandwidth \(10^{-3}\)、训练 30,000 steps、batch size 4,096 tokens、context size 512、Adam 优化器、学习率 \(5 \times 10^{-5}\)、warmup 1,500 steps、decay 3,000 steps。每个 SAE 训练约 123M tokens，约 3 个 H100 GPU 小时。

下游生成评估采用贪心解码、temperature 0。机器翻译用 FLORES-200 dev 构造 steering vectors、devtest 评测；跨语言摘要用 CrossSumm 中与语言集合重合的 108 个英语文档-目标语言摘要对。

实验关键数据¶

主实验¶

模型 / 任务	层	SAE	LangID	质量指标	语义指标	说明
Gemma-2-9B / FLORES	L14	MULTI21-SAE	54.38	SpBLEU 24.80	COMET 73.55	比 Gemma-Scope 的 45.04 / 15.65 / 61.79 更均衡
Gemma-2-9B / FLORES	L14	EN-SAE	52.19	SpBLEU 24.90	COMET 73.17	与 MULTI21 接近，但 LangID / COMET 稍低
LLaMA-3.1-8B / FLORES	L15	MULTI21-SAE	56.97	SpBLEU 22.53	COMET 73.25	交叉层附近语义质量最高
LLaMA-3.1-8B / FLORES	L15	EN-SAE	60.92	SpBLEU 21.02	COMET 71.57	LangID 更高但语义指标较低
LLaMA-3.1-8B / FLORES	L15	LLaMA-Scope	0.10	SpBLEU 0.00	COMET 2.72	open-source SAE 几乎不支持该 steering

作者强调 no-steering prompt baseline 的分数按 prompt language 计算，而 steering 结果按 steering-vector language 计算，二者不应直接当作同一指标的公平比较。cache 中给出的 no-steering baseline 是：Gemma FLORES 75.51 / 31.31 / 85.12，LLaMA FLORES 91.06 / 31.22 / 83.58。

CrossSumm 分析表¶

模型 / 任务	层	SAE	LangID	ROUGE-L	LaSE	观察
Gemma-2-9B / CrossSumm	L14	MULTI21-SAE	48.33	4.17	16.55	相比 EN-SAE 在三项上均更高
Gemma-2-9B / CrossSumm	L14	EN-SAE	42.92	4.02	15.75	语言控制和语义保持略弱
Gemma-2-9B / CrossSumm	L23	MULTI21-SAE	11.81	1.25	12.38	晚层效果明显变差
LLaMA-3.1-8B / CrossSumm	L13	MULTI21-SAE	66.25	3.90	24.89	交叉区域内 LangID 较强
LLaMA-3.1-8B / CrossSumm	L15	MULTI21-SAE	30.46	2.12	30.47	LaSE 高但 LangID 下降，体现 trade-off
LLaMA-3.1-8B / CrossSumm	L13	LLaMA-Scope	0.00	0.29	0.00	sparse space 缺少有效语言可分性

关键发现¶

MULTI21-SAE 的价值不是单纯提高所有指标，而是让 LangID、SpBLEU/ROUGE-L、COMET/LaSE 的 trade-off 更稳定，尤其在 FLORES 上相对 open-source SAE 更明显。
交叉点层选择是可证伪的：Gemma-2-9B 预测 L14 / L23，LLaMA-3.1-8B 预测 L13-L15，下游表现确实集中在这些层附近。
LLaMA-Scope 的 separability 在各层都很弱，表格中也对应到几乎为零的 steering 效果，说明 SAE 训练语料和架构会直接影响多语言可控性。

亮点与洞察¶

论文最巧妙的地方是把“选哪一层 steering”从经验超参变成表征统计问题。即使这个 criterion 不是唯一最优，它也比盲目 layer sweep 更可解释。
多语言 SAE 的对照非常干净：MULTI21 和 EN 都是 2.1B tokens，训练配置相同，因此结论更能指向语料语言覆盖，而不是训练规模差异。
结果提醒我们，语言控制不是越强越好。过高 LangID 如果伴随 COMET / LaSE 下降，说明模型只是被推向目标语言表面，而没有保留原任务语义。
对多语言安全和对齐也有启发：如果目标行为在不同语言中需要共享语义和语言特异特征同时存在，那么 intervention 层也应寻找这种平衡，而不是默认最后层。

局限与展望¶

模型范围有限：实验只覆盖 LLaMA-3.1-8B 和 Gemma-2-9B，尚不清楚更大模型、encoder-decoder 模型或强 instruction-tuned 模型是否有相同交叉层规律。
自动指标不足：LangID、SpBLEU、COMET、ROUGE-L、LaSE 无法完全刻画风格保真、code-switching、文化语境和歧义 prompt 下的鲁棒性。
SAE 类型和干预位置单一：本文主要分析 residual stream 上的 JumpReLU SAE。attention activation、MLP activation、其他稀疏架构或更复杂 steering 构造仍是开放问题。
阈值是操作性定义：0.5 intersection 代表 multilingual alignment 与 separability 相等，但作者也承认这不是唯一最优 cutoff，未来需要自适应或模型特定阈值。
与强多语言系统的差距仍需厘清：论文更关注机制解释和 SAE steering，而不是直接替代机器翻译或摘要系统；后续需要人工错误分析和更强 baselines。

评分¶

新颖性: ⭐⭐⭐⭐☆ 交叉点层选择把多语言 steering 从经验调参推进到机制预测，想法清晰但仍基于 SAE steering 既有框架。
实验充分度: ⭐⭐⭐⭐☆ 覆盖两种模型、两种任务、English-only / multilingual / open-source SAE 对照；缺少人工评估和更多模型族。
写作质量: ⭐⭐⭐⭐☆ 机制叙事连贯，附录给出 raw numbers；主文中部分图表缺少直接数字，读者需要翻附录。
价值: ⭐⭐⭐⭐☆ 对可解释 steering 和多语言控制很有参考价值，尤其适合指导后续 SAE 训练数据设计。