跳转至

REINA: Regularized Entropy Information-Based Loss for Efficient Simultaneous Speech Translation

会议: AAAI 2026
arXiv: 2508.04946
代码: 无
领域: 音频语音
关键词: 同声传译, 流式翻译, 信息论, 自适应策略, 语音翻译

一句话总结

提出 REINA(Regularized Entropy INformation Adaptation)损失函数,基于互信息理论高效地将非流式语音翻译模型转换为流式同声传译模型,在多语言方向上达到 SOTA 流式翻译性能,并提出新的流式效率评估指标 NoSE。

研究背景与动机

同声传译的核心挑战

同声传译(SimulST)需要在接收语音流的同时输出翻译文本,核心挑战在于翻译质量与延迟的权衡。系统需要一个 READ/WRITE 策略来决定何时等待更多输入、何时生成输出。

现有方法的不足

固定策略(如 wait-k):简单但次优,因为音频帧采样率与输出词频率不匹配,且不同语言有不同的词序差异。

单调注意力方法(如 EMMA/MMA):将策略嵌入模型架构,表达能力强但训练极其昂贵和不稳定。EMMA 需要在每个交叉注意力层计算 \([\text{batch} \times \text{heads} \times \text{tokens} \times \text{audio\_len} \times \text{audio\_len}]\) 大小的矩阵,在 A100-80G 上 batch size 仅能设为 1,且累积乘积运算数值不稳定。

强化学习方法:直接优化质量-延迟权衡,但训练不稳定,无法保证收敛。

DiG-SST(最相关工作):用非流式模型的输出分布散度指导策略训练,高效但未利用真实标签信息来计算散度分数。

核心洞察

只有在等待能带来信息增益时才应该等待(READ)。这一简单直觉可以用互信息理论严格形式化:等待完整音频相比部分音频,对下一个翻译 token 提供的额外信息量决定了是否继续等待。

方法详解

整体框架

REINAStream 分三阶段训练: 1. 非流式 S2TT 模型训练(多任务学习:ASR + NMT + S2TT) 2. 截断音频适应训练 3. REINA 策略网络训练

关键设计

1. REINA 策略损失:信息增益的形式化

核心公式推导

定义等待剩余音频对下一个 token \(s_{n+1}\) 的信息增益:

\[\mathcal{F}(a, S, n, t) := I(s_{n+1}; a_T, S_n) - I(s_{n+1}; a_t, S_n)\]

利用互信息展开,得到条件熵之差:

\[\mathcal{F} = H(s_{n+1}|a_t, S_n) - H(s_{n+1}|a_T, S_n) = \mathbb{E}[\log p(s_{n+1}|a_T, S_n) - \log p(s_{n+1}|a_t, S_n)]\]

关键近似:用非流式 S2TT 模型的 log-probabilities 来估计真实条件概率——完整音频的交叉熵损失 vs 部分音频的交叉熵损失之差。

策略网络训练:由于推理时无法获得完整目标文本,训练一个小型策略网络 \(q_\theta\) 来估计信息增益。通过最大化 \(q_\theta\)\(\hat{\mathcal{F}}\) 之间的协方差来训练:

\[\mathcal{L}_p = \frac{1}{N} \sum_{n=0}^{N-1} q_\theta^n \cdot \text{BN}[\log \hat{p_t}^{s_{n+1}} - \log \hat{p_T}^{s_{n+1}}]\]

其中 BN 表示批归一化(使信息增益估计零均值),消除协方差公式中的常数项。

设计动机:与 DiG-SST 的关键区别是 REINA 利用了真实标签 \(s_{n+1}\) 来计算信息增益(通过模型的 log-probability 对真实 token 的评估),而 DiG-SST 仅比较分布散度,忽略了哪些 token 实际上是正确的。

2. 正则化项

单调性约束:推理时一旦决定 READ 就不再生成更多 token,因此训练时要求 \(q_\theta\) 值沿 token 序列近似非递减:

\[\mathcal{L}_m = \frac{1}{N} \sum_{n=1}^{N} \max(\max_{m<n}\{q_\theta^m\} - q_\theta^n - \epsilon, 0)\]

这鼓励策略"承诺"行为——一旦信息增益超过阈值就坚持停止生成。

L2 正则化\(\mathcal{L}_r = \frac{1}{N}\sum (q_\theta^n)^2\) 防止 \(q_\theta\) 值爆炸。

完整 REINA 损失\(\mathcal{L}_{\text{REINA}} = \mathcal{L}_p + \mathcal{L}_m + \lambda \mathcal{L}_r\)\(\lambda = 0.05\)

3. 模型架构与训练

非流式模型(408M 参数推理时):Whisper Medium 编码器(307M)+ 16 层 Transformer 解码器(101M)+ 可训练 T5 文本编码器(38M,仅训练时用于 NMT 任务)。

策略网络(6M 参数):2 层 Transformer 编码器,应用于解码器最后层隐状态,加线性层+sigmoid 做二元 READ/WRITE 决策。

三阶段训练: - Stage 1:非流式 S2TT,多任务(ASR+NMT+S2TT),24×A100 训练 5 天,130k 小时数据 - Stage 2:截断音频适应,80% 随机截断 + 20% 完整音频,2 天 - Stage 3:REINA 策略训练,冻结其余参数,仅训练 6M 策略网络,<12 小时完成 20 epochs

4. NoSE 评估指标

动机:现有 AL vs BLEU 曲线比较不公平——一个模型可能仅因非流式 BLEU 更高而被认为流式性能更好。

定义:NoSE = AL/BLEU 曲线下面积 / 非流式 BLEU 线下面积(在 \([x, y]\) 边界内)。归一化后可以公平比较不同非流式性能的模型的流式转换效率。

损失函数 / 训练策略

  • Stage 1-2:\(\mathcal{L} = \mathcal{L}_{\text{asr}} + \mathcal{L}_{\text{nmt}} + \mathcal{L}_{\text{s2tt}}\)
  • Stage 3:\(\mathcal{L}_{\text{REINA}} = \mathcal{L}_p + \mathcal{L}_m + 0.05 \cdot \mathcal{L}_r\),仅训练策略网络
  • 数据:MLS(多语言 LibriSpeech)、MUST-C、CVSS-C、MOSEL + CCMatrix 文本对

实验关键数据

主实验

NoSE 分数(↑ 越高越好)—— MUST-C 数据集:

模型 en→de en→fr en→es
DiG-SST (Original) 0.888 0.903 0.879
DiSeg 0.838 - 0.774
EDAtt 0.704 - 0.740
DiG-SST (作者复现) 0.665 0.774 0.607
REINA (MUST-C only) 0.940 0.953 0.960
REINA (全数据) 0.925 0.944 0.952

NoSE 分数 —— CVSS-C 数据集:

模型 de→en fr→en es→en
StreamSpeech* 0.842 0.886 0.837
REINA 0.974 0.983 0.981

选定工作点比较(MUST-C,低延迟):

模型 en→de AL↓ BLEU↑ en→es AL↓ BLEU↑ en→fr AL↓ BLEU↑
REINA 1.01 21.44 0.86 26.92 0.77 33.13
DiG-SST 1.08 21.13 0.90 23.92 1.11 30.51

消融实验

配置 en→de NoSE en→fr NoSE en→es NoSE
REINA (完整) 0.925 0.944 0.952
REINA w/o 单调性 0.899 0.920 0.909
REINA (MUST-C only) 0.940 0.953 0.960
REINA w/o 截断训练 0.840 0.839 0.895
DiG-SST (作者复现) 0.665 0.774 0.607

关键发现

  1. REINA 显著优于 DiG-SST:MUST-C only 版本 NoSE 提升 3.0%(vs 原始 DiG-SST)和 8.9%(vs DiSeg),性能提升不仅来自更多数据
  2. 低延迟优势明显:在 ~35 BLEU 点,单调性约束将 AL 从 1.95 降到 1.57(降低 19%)
  3. 截断训练至关重要:跳过 Stage 2 导致 NoSE 大幅下降(如 en→de 从 0.932 降到 0.840),说明 REINA 需要对部分音频 log-probability 的良好估计
  4. 单调性在低延迟场景最有效:帮助策略在信息增益波动时做出明确的 READ/WRITE 边界决策
  5. 仅用开源数据即可达 SOTA:130k 小时开源+合成数据,规模远小于 Seamless 的 600k 小时

亮点与洞察

  1. 信息论根基扎实:将直觉("等待有信息才等")严格推导为互信息差,再近似为可计算的损失函数,推导链条清晰
  2. 训练极其高效:策略网络仅 6M 参数,<12 小时训练完成,对比 EMMA 的天文计算量是质的飞跃
  3. NoSE 指标的提出:解决了领域内长期存在的评估公平性问题,使得不同规模模型之间的流式能力可以公平比较
  4. EMMA 的深入分析(附录):作者详细记录了复现 EMMA 的失败经历(内存爆炸、数值不稳定、层/头选择不明),为社区提供了宝贵经验
  5. 开源优先的研究理念:强调全部使用开源数据训练,旨在弥合工业界大数据和学术界小规模之间的差距

局限与展望

  1. 策略阈值 \(\alpha\) 需要通过试错法确定,缺乏自动选择机制
  2. 仅覆盖 en↔{de, fr, es} 语言对,低资源语言未测试
  3. 模型规模(408M)介于小型和工业级之间,可能在超大规模模型上表现不同
  4. NoSE 指标严重依赖边界 \([x, y]\) 的选择
  5. 未扩展到语音到语音翻译(SimulS2ST),作者提到这是未来工作
  6. 虽分类为"人体理解",实际属于 NLP/语音领域

相关工作与启发

  • DiG-SST:最直接的比较对象,REINA 在其基础上引入了真实标签信息,本质区别在于用互信息而非 KL 散度
  • SeamlessM4T/EMMA:工业级系统,展示了单调注意力方法的能力上限但也暴露了训练困难
  • Transducer 架构:天然支持流式,但同样面临训练收敛困难
  • wait-k 策略:作为最简单基线,在 SimulS2S-LLM 等工作中仍有一定竞争力

评分

  • 新颖性: ⭐⭐⭐⭐(互信息视角优雅,但与 DiG-SST 的差异较为增量)
  • 实验充分度: ⭐⭐⭐⭐⭐(多语言、多数据集、完整消融、公平对比、详细附录)
  • 写作质量: ⭐⭐⭐⭐⭐(推导清晰,附录信息量极大)
  • 价值: ⭐⭐⭐⭐(高效流式转换方案,NoSE 指标具有推广价值)