NADIR: Differential Attention Flow for Non-Autoregressive Transliteration in Indic Languages¶

会议: AAAI 2026
arXiv: 2601.12389
代码: 无
领域: 自然语言处理 / 多语言音译
关键词: 非自回归模型, 差分注意力机制, 混合专家, 音译, 印度语言

一句话总结¶

提出 NADIR，一种结合差分 Transformer 和混合专家（MoE）的非自回归（NAR）多语言音译架构，在印度语言音译任务上实现了 13× 以上的推理加速，同时将 NAR 模型的幻觉错误（重复、替换、遗漏、插入）大幅降低，缩小了与自回归模型之间的精度差距。

研究背景与动机¶

音译（Transliteration）是将一种文字系统的文本转换为另一种文字系统、同时保留发音的任务，与翻译不同，它映射的是语音而非语义。印度语系涵盖了 Devanagari（印地语、马拉地语）、Bengali、Punjabi 等多种书写系统，使用人口超过 16 亿。音译任务面临三重挑战：(a) 字符映射的多对一、一对多和多对多歧义性，(b) 语音变异——不同词可能音译为相同的罗马字母词，(c) 同音字和音位限制——相似的发音在不同上下文中对应不同字符。

当前 SOTA 方法（如 IndicXLIT）使用自回归（AR）模型进行音译，虽然精度较高，但推理速度极慢（约 77 words/sec），难以满足大规模实时部署需求。非自回归（NAR）模型可以并行生成所有输出 token，但在音译任务中面临严重的"幻觉"问题——包括 token 重复、替换、遗漏和插入。已有的缓解 NAR 质量下降的方法（知识蒸馏、迭代精化、CTC Loss）均未被应用于音译任务。

作者的核心研究问题是：减少注意力噪声并引入 MoE 是否能帮助 NAR 模型在没有自回归的情况下有效捕获上下文？ 答案是肯定的。

方法详解¶

整体框架¶

NADIR（Non-Autoregressive Differential Intelligent Router）的流程为：

预处理阶段：使用 tokenizer 对输入序列进行分词，加上可学习的 token embedding 和 RoPE（旋转位置编码）
堆叠编码器：多层编码器块，每层由差分 Transformer 层和 MoE 路由组成
轻量级 NAR 解码器：基于 MLP 的非自回归解码器，利用编码器的精炼表示并行生成目标脚本字符

关键设计¶

多头差分注意力（Multi-head Differential Attention）：在 NAR 设置中，由于缺乏顺序归纳偏置，标准注意力机制难以聚焦于最相关的输入 token，导致噪声注意力图。差分注意力通过计算两组归一化 softmax 注意力分数的差值来消除噪声：

\[\text{DiffAttn}(X) = \left( \text{S}\left(\frac{Q_1 K_1^\top}{\sqrt{d}}\right) - \lambda \text{S}\left(\frac{Q_2 K_2^\top}{\sqrt{d}}\right) \right) V\]

其中 \(Q_1, Q_2\) 和 \(K_1, K_2\) 分别是 query/key 投影的两个分区，\(\lambda\) 是可学习调制参数，由 \(\lambda = \exp(\boldsymbol{\lambda}_{q_1} \cdot \boldsymbol{\lambda}_{k_1}) - \exp(\boldsymbol{\lambda}_{q_2} \cdot \boldsymbol{\lambda}_{k_2}) + \lambda_{\text{init}}\) 参数化。减法操作可以有效抑制注意力噪声，让模型更精准地聚焦于相关的局部上下文。实验中发现 RMSNorm 比 GroupNorm 在差分注意力块中效果更好。

混合专家模块（Mixture-of-Experts）：对差分 Transformer 的初步分析发现，训练数据较多的语言表现更好，这意味着单一共享 FFN 难以有效捕获所有语言/脚本的多样性。作者最终采用可学习路由的 MoE 框架，每层包含 \(M\) 个专家 FFN，通过 Top-2 路由选择两个最高门控分数的专家：

\[\text{MoE}(x) = p_i \cdot E_i(x) + p_j \cdot E_j(x)\]

路由概率 \(p_i\) 由可训练的门控网络 \(G(x)\) 通过 softmax 计算得到。这种设计允许 token 级别的动态计算，在多语言设置中展现出更好的鲁棒性。

隐式序列终止：NAR 模型无法像 AR 模型那样自然预测 EOS token。NADIR 在训练时对每个目标序列附加 EOS token，损失仅在第一个预测的 EOS 之前计算，从而让模型隐式学习序列边界，无需额外的长度预测网络。

损失函数 / 训练策略¶

总训练目标是两项加权和：

\[\mathcal{L}_{\text{total}} = \alpha \mathcal{L}_{\text{token}} + \beta \mathcal{L}_{\text{load}}\]

Token 级交叉熵损失 \(\mathcal{L}_{\text{token}}\)：保证局部预测准确性
负载均衡损失 \(\mathcal{L}_{\text{load}}\)：确保 MoE 中各专家的均匀利用率，防止路由坍塌

最佳超参数设置为 \(\alpha=0.8, \beta=0.2\)。模型使用 AdamW 优化器，学习率 \(1 \times 10^{-3}\)，权重衰减 \(1 \times 10^{-3}\)，线性学习率调度器（warmup 占 15%），Dropout 0.1，Capacity Factor 1.25，训练 100 epochs。

实验关键数据¶

主实验¶

在 Aksharantar 数据集上评估，该数据集包含 21 种印度语言的 2480 万训练样本、12.96 万验证和 18.01 万测试样本。

方向	指标	NADIR	IndicXLIT (SOTA)	差异
Roman→Indic	mean CER ↓	15.78%	14.44%	+1.34%
Roman→Indic	mean WAcc ↑	50.13%	51.23%	-1.10%
Roman→Indic	mean InfT ↓	8.95s	116.48s	13×加速
Indic→Roman	mean CER ↓	17.56%	16.59%	+0.97%
Indic→Roman	mean WAcc ↑	34.50%	36.29%	-1.79%
Indic→Roman	mean InfT ↓	9.07s	124.18s	13.7×加速

NADIR 在 Telugu、Malayalam、Tamil、Kannada、Sanskrit 等 5 种语言上的 CER 和 WAcc 同时优于 IndicXLIT。

消融实验¶

模型变体	mean CER ↓	mean WAcc ↑	说明
Standard NAR	21.88	38.98	基准 NAR 模型
Diff NAR	16.12	46.89	加入差分注意力
Diff MoE NAR (NADIR)	15.78	50.13	加入差分注意力 + MoE

幻觉错误分解（Roman→Indic 方向）：

错误类型	Standard NAR	NADIR	降低幅度
Insertion	28,454	23,654	16.87%
Substitution	72,127	54,494	24.45%
Omission	37,769	25,334	32.92%
Repetition	6,313	3,186	49.53%

关键发现¶

差分注意力是性能提升的主要贡献者，将 CER 从 21.88 降至 16.12，大幅减少替换、遗漏和重复错误
MoE 模块进一步解决了差分注意力未能覆盖的边缘情况，特别是插入错误（降低 14.55%）和重复错误（再降 22.78%），但引入了约 8% 的遗漏错误增长
NADIR 在各种 batch size 下都保持低延迟，而 IndicXLIT 只在狭窄的 batch size 窗口中表现最优

亮点与洞察¶

问题定义精准：作者明确提出"NAR 幻觉"概念并将其分为四类（插入、替换、遗漏、重复），为系统性解决 NAR 质量问题提供了清晰框架
差分注意力在 NAR 中的首次应用：原本用于提升 AR Transformer 效率的差分注意力机制，被巧妙地用于解决 NAR 模型的注意力噪声问题。通过减法操作"雕刻"掉歧义特征，保留尖锐精确的表示
MoE 的语言学动机：从"不同语言需要不同处理"的语言学观察出发，先尝试硬编码路由，再自然过渡到可学习路由的 MoE，整个设计思路具有说服力
隐式长度预测：通过 EOS token 和截断损失优雅地避免了显式长度预测网络，减少了一个主要的不稳定源
实用价值突出：13× 的推理加速使得大规模多语言音译部署成为可能（约 1005 words/sec vs. 77 words/sec）

局限与展望¶

精度仍有差距：NADIR 的 CER 比 IndicXLIT 高约 1-1.3 个百分点，在对精度要求极高的场景仍需改进
低资源语言表现较差：Kashmiri（训练数据仅 46k）的 CER 高达 34.32%，远高于均值，MoE 的动态路由尚未完全解决数据不均衡问题
MoE 引入遗漏错误：MoE 模块虽降低了插入和重复错误，但增加了约 8% 的遗漏错误，可能需要更细粒度的专家设计
仅验证了音译任务：虽然作者声称 NADIR 适用于代码重构、语法纠错等任务，但未提供其他任务的实验验证
缺乏与其他 NAR 改进方法的对比：如 Mask-Predict、Levenshtein Transformer 等迭代精化方法

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将差分注意力和 MoE 结合用于 NAR 音译，问题定义和解决方案都很清晰
技术深度: ⭐⭐⭐⭐ — 从语言学观察驱动架构设计，消融分析充分
实验充分性: ⭐⭐⭐⭐ — 20 种语言的全面评估，多维度的错误分析
实用价值: ⭐⭐⭐⭐⭐ — 13× 加速对实际部署意义重大
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机充分，但部分叙述略冗长