跳转至

NADIR: Differential Attention Flow for Non-Autoregressive Transliteration in Indic Languages

会议: AAAI 2026
arXiv: 2601.12389
代码: 无
领域: 自然语言处理 / 多语言音译
关键词: 非自回归模型, 差分注意力机制, 混合专家, 音译, 印度语言

一句话总结

提出 NADIR,一种结合差分 Transformer 和混合专家(MoE)的非自回归(NAR)多语言音译架构,在印度语言音译任务上实现了 13× 以上的推理加速,同时将 NAR 模型的幻觉错误(重复、替换、遗漏、插入)大幅降低,缩小了与自回归模型之间的精度差距。

研究背景与动机

音译(Transliteration)是将一种文字系统的文本转换为另一种文字系统、同时保留发音的任务,与翻译不同,它映射的是语音而非语义。印度语系涵盖了 Devanagari(印地语、马拉地语)、Bengali、Punjabi 等多种书写系统,使用人口超过 16 亿。音译任务面临三重挑战:(a) 字符映射的多对一、一对多和多对多歧义性,(b) 语音变异——不同词可能音译为相同的罗马字母词,(c) 同音字和音位限制——相似的发音在不同上下文中对应不同字符。

当前 SOTA 方法(如 IndicXLIT)使用自回归(AR)模型进行音译,虽然精度较高,但推理速度极慢(约 77 words/sec),难以满足大规模实时部署需求。非自回归(NAR)模型可以并行生成所有输出 token,但在音译任务中面临严重的"幻觉"问题——包括 token 重复、替换、遗漏和插入。已有的缓解 NAR 质量下降的方法(知识蒸馏、迭代精化、CTC Loss)均未被应用于音译任务。

作者的核心研究问题是:减少注意力噪声并引入 MoE 是否能帮助 NAR 模型在没有自回归的情况下有效捕获上下文? 答案是肯定的。

方法详解

整体框架

NADIR(Non-Autoregressive Differential Intelligent Router)的流程为:

  1. 预处理阶段:使用 tokenizer 对输入序列进行分词,加上可学习的 token embedding 和 RoPE(旋转位置编码)
  2. 堆叠编码器:多层编码器块,每层由差分 Transformer 层和 MoE 路由组成
  3. 轻量级 NAR 解码器:基于 MLP 的非自回归解码器,利用编码器的精炼表示并行生成目标脚本字符

关键设计

  1. 多头差分注意力(Multi-head Differential Attention):在 NAR 设置中,由于缺乏顺序归纳偏置,标准注意力机制难以聚焦于最相关的输入 token,导致噪声注意力图。差分注意力通过计算两组归一化 softmax 注意力分数的差值来消除噪声:
\[\text{DiffAttn}(X) = \left( \text{S}\left(\frac{Q_1 K_1^\top}{\sqrt{d}}\right) - \lambda \text{S}\left(\frac{Q_2 K_2^\top}{\sqrt{d}}\right) \right) V\]

其中 \(Q_1, Q_2\)\(K_1, K_2\) 分别是 query/key 投影的两个分区,\(\lambda\) 是可学习调制参数,由 \(\lambda = \exp(\boldsymbol{\lambda}_{q_1} \cdot \boldsymbol{\lambda}_{k_1}) - \exp(\boldsymbol{\lambda}_{q_2} \cdot \boldsymbol{\lambda}_{k_2}) + \lambda_{\text{init}}\) 参数化。减法操作可以有效抑制注意力噪声,让模型更精准地聚焦于相关的局部上下文。实验中发现 RMSNorm 比 GroupNorm 在差分注意力块中效果更好。

  1. 混合专家模块(Mixture-of-Experts):对差分 Transformer 的初步分析发现,训练数据较多的语言表现更好,这意味着单一共享 FFN 难以有效捕获所有语言/脚本的多样性。作者最终采用可学习路由的 MoE 框架,每层包含 \(M\) 个专家 FFN,通过 Top-2 路由选择两个最高门控分数的专家:
\[\text{MoE}(x) = p_i \cdot E_i(x) + p_j \cdot E_j(x)\]

路由概率 \(p_i\) 由可训练的门控网络 \(G(x)\) 通过 softmax 计算得到。这种设计允许 token 级别的动态计算,在多语言设置中展现出更好的鲁棒性。

  1. 隐式序列终止:NAR 模型无法像 AR 模型那样自然预测 EOS token。NADIR 在训练时对每个目标序列附加 EOS token,损失仅在第一个预测的 EOS 之前计算,从而让模型隐式学习序列边界,无需额外的长度预测网络。

损失函数 / 训练策略

总训练目标是两项加权和:

\[\mathcal{L}_{\text{total}} = \alpha \mathcal{L}_{\text{token}} + \beta \mathcal{L}_{\text{load}}\]
  • Token 级交叉熵损失 \(\mathcal{L}_{\text{token}}\):保证局部预测准确性
  • 负载均衡损失 \(\mathcal{L}_{\text{load}}\):确保 MoE 中各专家的均匀利用率,防止路由坍塌

最佳超参数设置为 \(\alpha=0.8, \beta=0.2\)。模型使用 AdamW 优化器,学习率 \(1 \times 10^{-3}\),权重衰减 \(1 \times 10^{-3}\),线性学习率调度器(warmup 占 15%),Dropout 0.1,Capacity Factor 1.25,训练 100 epochs。

实验关键数据

主实验

在 Aksharantar 数据集上评估,该数据集包含 21 种印度语言的 2480 万训练样本、12.96 万验证和 18.01 万测试样本。

方向 指标 NADIR IndicXLIT (SOTA) 差异
Roman→Indic mean CER ↓ 15.78% 14.44% +1.34%
Roman→Indic mean WAcc ↑ 50.13% 51.23% -1.10%
Roman→Indic mean InfT ↓ 8.95s 116.48s 13×加速
Indic→Roman mean CER ↓ 17.56% 16.59% +0.97%
Indic→Roman mean WAcc ↑ 34.50% 36.29% -1.79%
Indic→Roman mean InfT ↓ 9.07s 124.18s 13.7×加速

NADIR 在 Telugu、Malayalam、Tamil、Kannada、Sanskrit 等 5 种语言上的 CER 和 WAcc 同时优于 IndicXLIT。

消融实验

模型变体 mean CER ↓ mean WAcc ↑ 说明
Standard NAR 21.88 38.98 基准 NAR 模型
Diff NAR 16.12 46.89 加入差分注意力
Diff MoE NAR (NADIR) 15.78 50.13 加入差分注意力 + MoE

幻觉错误分解(Roman→Indic 方向):

错误类型 Standard NAR NADIR 降低幅度
Insertion 28,454 23,654 16.87%
Substitution 72,127 54,494 24.45%
Omission 37,769 25,334 32.92%
Repetition 6,313 3,186 49.53%

关键发现

  • 差分注意力是性能提升的主要贡献者,将 CER 从 21.88 降至 16.12,大幅减少替换、遗漏和重复错误
  • MoE 模块进一步解决了差分注意力未能覆盖的边缘情况,特别是插入错误(降低 14.55%)和重复错误(再降 22.78%),但引入了约 8% 的遗漏错误增长
  • NADIR 在各种 batch size 下都保持低延迟,而 IndicXLIT 只在狭窄的 batch size 窗口中表现最优

亮点与洞察

  1. 问题定义精准:作者明确提出"NAR 幻觉"概念并将其分为四类(插入、替换、遗漏、重复),为系统性解决 NAR 质量问题提供了清晰框架
  2. 差分注意力在 NAR 中的首次应用:原本用于提升 AR Transformer 效率的差分注意力机制,被巧妙地用于解决 NAR 模型的注意力噪声问题。通过减法操作"雕刻"掉歧义特征,保留尖锐精确的表示
  3. MoE 的语言学动机:从"不同语言需要不同处理"的语言学观察出发,先尝试硬编码路由,再自然过渡到可学习路由的 MoE,整个设计思路具有说服力
  4. 隐式长度预测:通过 EOS token 和截断损失优雅地避免了显式长度预测网络,减少了一个主要的不稳定源
  5. 实用价值突出:13× 的推理加速使得大规模多语言音译部署成为可能(约 1005 words/sec vs. 77 words/sec)

局限与展望

  1. 精度仍有差距:NADIR 的 CER 比 IndicXLIT 高约 1-1.3 个百分点,在对精度要求极高的场景仍需改进
  2. 低资源语言表现较差:Kashmiri(训练数据仅 46k)的 CER 高达 34.32%,远高于均值,MoE 的动态路由尚未完全解决数据不均衡问题
  3. MoE 引入遗漏错误:MoE 模块虽降低了插入和重复错误,但增加了约 8% 的遗漏错误,可能需要更细粒度的专家设计
  4. 仅验证了音译任务:虽然作者声称 NADIR 适用于代码重构、语法纠错等任务,但未提供其他任务的实验验证
  5. 缺乏与其他 NAR 改进方法的对比:如 Mask-Predict、Levenshtein Transformer 等迭代精化方法

相关工作与启发

  • 差分 Transformer (Ye et al. 2025):NADIR 的灵感来源,通过双路注意力差分减少噪声
  • MoE (Shazeer et al. 2017; Fedus et al. 2022):Switch Transformer 的 Top-2 路由策略被本文采用
  • IndicXLIT (Madhani et al. 2023):当前 SOTA 的自回归印度语音译模型,作为主要对比基线
  • 启发:差分注意力 + MoE 的组合思路可以推广到其他需要高吞吐量的局部依赖序列任务

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将差分注意力和 MoE 结合用于 NAR 音译,问题定义和解决方案都很清晰
  • 技术深度: ⭐⭐⭐⭐ — 从语言学观察驱动架构设计,消融分析充分
  • 实验充分性: ⭐⭐⭐⭐ — 20 种语言的全面评估,多维度的错误分析
  • 实用价值: ⭐⭐⭐⭐⭐ — 13× 加速对实际部署意义重大
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机充分,但部分叙述略冗长