跳转至

An Exploration of Mamba for Speech Self-Supervised Models

会议: ACL 2026
arXiv: 2506.12606
代码: GitHub
领域: Speech / Self-Supervised Learning
关键词: Mamba, 语音自监督学习, HuBERT, 状态空间模型, 流式ASR

一句话总结

首次全面探索Mamba架构作为语音自监督学习(SSL)基础模型的潜力,发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer,同时保持线性时间复杂度。

研究背景与动机

领域现状:Transformer-based语音SSL模型(如HuBERT, wav2vec 2.0)取得了巨大成功,但其二次方复杂度在长序列处理时造成高计算成本和内存瓶颈。

现有痛点:(1) Mamba在语言建模中已展现出超越Transformer的能力,但在语音领域的应用仅限于单一任务的孤立研究;(2) 现有语音Mamba工作通常报告与Transformer相当甚至略差的性能,且常需要混合设计;(3) 缺乏统一的跨任务评估。

核心矛盾:Mamba的线性时间复杂度理论上非常适合语音的长序列特性,但其在语音SSL中的综合表现尚不明确。

本文目标:系统训练和评估Mamba-based HuBERT模型,全面探索其作为语音基础模型和特征提取器的潜力。

切入角度:用Mamba block替换HuBERT中的Transformer block,保持相同的训练流程(两轮迭代k-means伪标签训练),在ASR、SUPERB等多任务上评估。

核心 idea:Mamba天然的因果架构使其特别适合构建因果语音SSL模型,在流式ASR和长上下文场景中展现独特优势。

方法详解

整体框架

本文不发明新架构,而是做一项受控替换实验:把 HuBERT 中的 Transformer block 原样换成 Mamba block,CNN 特征编码器与位置编码器保持不变,训练流程也完全沿用 HuBERT 的两轮迭代(第一轮以 MFCC 为目标训练 250k 步,第二轮以第一轮第 6 层输出为伪标签训练 400k 步),在 LibriSpeech 960h 上预训练。这样唯一变量就是 backbone,输入语音 → Mamba 编码 → SSL 表示 → 下游 ASR/SUPERB 探针的全链路里,任何性能差异都可干净地归因到 Mamba 与 Transformer 的本质区别上。

关键设计

1. 多种 Mamba 变体的系统对比:厘清因果性到底是 Mamba 的优势还是包袱

Mamba 天生因果,这一性质在不同任务里方向相反——流式 ASR 只能看过去信息,因果是优势;而需要全局上下文的任务里,单向又可能是劣势。为把这条边界测清楚,本文同时评估因果设置(Mamba、Mamba+MLP)和双向设置(ExtBiMamba、InnBiMamba),并逐一与参数量相当的 Transformer 变体公平对照。这种成对设计让"因果 vs 双向"和"Mamba vs Transformer"两个维度可以解耦分析,而不是只给一个笼统的好坏结论。

2. 长上下文和流式 ASR 评估:把 Mamba 线性复杂度的理论优势落到可测场景

Mamba 相对 Transformer 最大的卖点是 \(O(n)\) 而非 \(O(n^2)\),但这个优势只有在长序列下才显形。为此设计两个针对性场景:长上下文 ASR 直接处理整段未切分语音,流式 ASR 则约束模型只能用过去信息逐帧解码;同时量化 MACs/秒与 RTF 随序列长度的变化曲线。结果正是在这里拉开差距——Transformer 在 80 秒以上即 OOM 无法运行,而 Mamba 计算量近乎恒定,可处理 5 分钟以上的语音。

3. 表示质量分析:不止问"好不好",还要拆开看"好在哪、为什么好"

仅靠下游 WER 无法解释 Mamba 表示的内在特性,本文进一步做表示层面的剖析:用 phone purity 量化表示的语音学纯度,用 CCA(典型相关分析)刻画音素与说话人特征各自被编码的方式。借此发现 Mamba 的量化表示 phone purity 更高、对说话人信息编码更清晰,这对以 SSL units 为输入的 spoken language models 有直接价值,把单纯的性能数字升级成了可解释的表示学特性。

损失函数 / 训练策略

遵循 HuBERT 标准训练目标:masked prediction loss。使用 Adam 优化器,学习率先线性 warm-up(前 8%)再线性 decay。受计算资源限制,仅在单块 V100 上训练,batch size 取原始配置的 1/4。

实验关键数据

主实验

设置 模型 参数量 WER 关键发现
流式ASR Mamba HuBERT 78M 15.77% 优于94M因果Transformer(16.66%)
长上下文ASR ExtBiMamba - 11.08% Transformer因OOM无法运行
标准ASR ExtBiMamba(Small) - 接近Transformer 小规模有效

消融实验

配置 关键指标 说明
因果SUPERB Mamba > Causal Transformer 在音素和说话人任务上更优
Phone Purity Mamba更高 量化表示的语音质量更好
CCA分析 说话人特征更distinct Mamba对说话人信息编码更清晰
ExtBiMamba Base 低于Transformer 大规模双向Mamba仍需改进

关键发现

  • Mamba的因果性质是流式语音场景的天然优势——78M参数优于94M的因果Transformer
  • 计算成本随序列长度几乎恒定,而Transformer在80秒以上OOM
  • Mamba产生的量化表示phone purity更高,有利于以SSL units为输入的spoken language models
  • 大规模双向Mamba(Base)仍全面低于Transformer,暗示可扩展性仍需改进

亮点与洞察

  • 首次系统性地将Mamba作为语音基础模型进行全面评估,而非仅在单一任务上测试
  • "因果性质是优势而非限制"的发现改变了对Mamba在语音中应用的认知
  • 量化表示质量的发现对spoken language model领域有直接启示

局限与展望

  • 双向Mamba的大规模训练效果不佳,可扩展性是关键挑战
  • 仅在LibriSpeech上预训练和评估,多语言和噪声场景未测试
  • 受限于单块V100,训练规模远小于原始HuBERT
  • 未来可探索Mamba2等改进架构和更大规模的训练

相关工作与启发

  • vs 混合Mamba-Transformer: 本文纯Mamba架构,更清晰地揭示Mamba的优劣势
  • vs SSAM: SSAM关注通用音频而非语音,本文专注于语音SSL
  • vs Mamba流式ASR: 之前的工作需要额外机制(lookahead等),本文展示纯Mamba即有优势

评分

  • 新颖性: ⭐⭐⭐⭐ 首次全面探索Mamba作为语音SSL基础模型
  • 实验充分度: ⭐⭐⭐⭐⭐ ASR、SUPERB、表示分析、长上下文、流式等多维评估
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验细致
  • 价值: ⭐⭐⭐⭐ 为语音领域的高效架构选择提供重要实证