InfiniSST: Simultaneous Translation of Unbounded Speech with Large Language Model¶

会议: ACL 2025
作者: Siqi Ouyang, Xi Xu, Lei Li (CMU)
arXiv: 2503.02969
代码: GitHub
领域: LLM/NLP, 语音翻译
关键词: simultaneous translation, streaming speech, KV cache, multi-turn dialogue, unbounded input

一句话总结¶

提出 InfiniSST，将无界流式语音同声传译建模为 LLM 多轮对话任务，结合鲁棒片段训练数据构造、多延迟增强策略和 Λ-shaped KV cache 管理，在 MuST-C En-Es/De/Zh 三个方向上将计算感知延迟降低 0.5-1 秒而不损失翻译质量。

研究背景与动机¶

核心问题: 同声传译（SST）需要在翻译质量和延迟之间取得平衡，但现有方法大多假设语音已预分割（SST-S），无法处理真实场景中连续无界的流式语音输入（SST-U）。
现有不足: 传统 LLM-based SST-S 方法每当新语音块到达时需重新计算历史语音和已生成翻译的特征，计算开销巨大。虽有工作将 SST 建模为多轮对话以利用 KV 缓存（如 Yu et al., 2025; Wang et al., 2024），但这些方法仅针对已分段语音，无法无缝扩展到无界输入。
研究动机: LLM 具备强大的长上下文建模能力（RoPE 位置编码 + 注意力窗口），是处理 SST-U 的理想基础。关键挑战在于：(1) 如何构造适合无界语音的训练数据；(2) 如何在推理时管理 KV cache 使内存使用恒定。

方法详解¶

整体框架¶

InfiniSST 由三个核心组件构成： 1. 流式语音编码器（改造的 wav2vec2）：增量计算语音表示，避免重复计算 2. 语音-token 嵌入适配器：两层 1-D 卷积（kernel=2, stride=2）+ 线性投影，将 48 帧压缩为 12 个 LLM 嵌入向量 3. 多轮 LLM 解码器（Llama-3.1-8B-Instruct）：交替读取语音输入和生成翻译，通过 EOT token 控制读写切换

推理流程：系统指令 → 循环{USER token + 12 个语音嵌入 + EOT → ASSISTANT 生成翻译 → 遇到 EOT 切回读取}。

关键设计¶

流式语音编码器改造：将 wav2vec2 的双向注意力替换为 chunk-wise 因果注意力（块内双向、块间因果），卷积位置编码替换为 RoPE，加入滑动窗口 \(w^s=10\) 个 chunk（约 9.6 秒上下文）。每个 chunk 48 帧、时长 960ms。
训练数据构造：(a) 用 MFA 强制对齐 + SimAlign 建立语音→转录→翻译的单调映射；(b) 将演讲切分为 30 chunk 的"鲁棒片段"以包含非语言声音增强鲁棒性；(c) 多延迟增强——随机选取延迟乘数 \(m \in [1, M]\) 合并连续 chunk 及其翻译，\(M=12\)。
KV Cache 管理策略：推理时 LLM 保持系统指令的 KV cache + 最近 \(w^t=1000\) 个 token 的 KV cache，所有 KV 值不嵌入位置信息（存储前移除 RoPE），拼接后重新应用 RoPE。实现了 Λ-shaped 注意力窗口的无限长度外推。

损失函数¶

标准交叉熵损失（仅作用于翻译 token 和 EOT）。两阶段训练：(1) 冻结 LLM，训练编码器+适配器 6 epoch（lr=2e-4）；(2) 冻结编码器+适配器，训练 LLM 1 epoch（lr=7e-6）。8×L40S GPU 单节点训练。

实验¶

主实验——MuST-C 完整 TED 演讲（27 场，3-23 分钟）¶

对比	计算感知延迟 (StreamLAAL_CA)	非计算感知延迟 (StreamLAAL)	翻译质量
InfiniSST vs StreamAtt+	降低 0.5-1 秒	相当或略优	BLEU 持平或高 0.5-1.0
InfiniSST RTF vs StreamAtt+ RTF	不到一半	—	—

在 StreamLAAL≤1.5s 时 InfiniSST 在所有三个语言方向上 BLEU 略高（0.5-1.0），COMET 相当。

消融实验¶

消融组件	结果
鲁棒片段 vs 原始分段	无鲁棒片段时模型遇到笑声等非语言声音陷入重复或停止翻译，COMET 从 69.2 退化到 50.5
多延迟增强 M=1 vs 12	M 越大质量-延迟权衡越优，但推理 m 不应超过 M
语音窗口 \(w^s\)=5/10/20/40	推理窗口与训练不匹配时质量下降（66.1 vs 69.2），建议用最大可允许窗口
LLM 窗口 \(w^t\)=500→4000	COMET 仅从 69.0 升至 69.4，LLM 对窗口大小鲁棒
移除指令 KV cache	LLM 在窗口滑动后停止翻译——指令缓存不可或缺
Llama-3 (8K ctx) vs Llama-3.1 (128K)	8K 模型仍可泛化到 >10min 演讲（COMET 67.1 vs 68.0）

关键发现¶

鲁棒片段训练是使模型适应无界语音的关键——没有它模型完全无法处理非语言声音
KV cache 管理使 RTF 降至 StreamAtt+ 的不到一半，是计算效率提升的核心
即使基础 LLM 上下文仅 8K，通过 KV cache 管理仍可处理远超 8K token 的无界语音

亮点¶

将无界流式 SST 建模为多轮对话是一个优雅的抽象，完美利用 LLM 的 KV cache 机制
Λ-shaped 注意力窗口在语音翻译中的首次成功应用
训练数据构造（鲁棒片段 + 多延迟增强）设计精巧，对模型泛化至关重要

局限性¶

高理论延迟水平下仍落后于 AlignAtt 和 StreamAtt（chunk-wise 因果注意力限制了双向信息）
仅评估 En-X 方向，未测试 X-En 和 X-X
受计算预算限制未探索其他语音编码器和非 Llama LLM
StreamLAAL 指标因 mWERSegmenter 对齐误差不完全可靠
未进行人工翻译质量评估

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验完整度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐⭐