An Exploration of Mamba for Speech Self-Supervised Models¶

会议: ACL 2026
arXiv: 2506.12606
代码: GitHub
领域: Speech / Self-Supervised Learning
关键词: Mamba, 语音自监督学习, HuBERT, 状态空间模型, 流式ASR

一句话总结¶

首次全面探索Mamba架构作为语音自监督学习（SSL）基础模型的潜力，发现Mamba-based HuBERT在长上下文ASR、流式ASR和因果设置的probing任务中优于Transformer，同时保持线性时间复杂度。

研究背景与动机¶

领域现状：Transformer-based语音SSL模型（如HuBERT, wav2vec 2.0）取得了巨大成功，但其二次方复杂度在长序列处理时造成高计算成本和内存瓶颈。

现有痛点：(1) Mamba在语言建模中已展现出超越Transformer的能力，但在语音领域的应用仅限于单一任务的孤立研究；(2) 现有语音Mamba工作通常报告与Transformer相当甚至略差的性能，且常需要混合设计；(3) 缺乏统一的跨任务评估。

核心矛盾：Mamba的线性时间复杂度理论上非常适合语音的长序列特性，但其在语音SSL中的综合表现尚不明确。

本文目标：系统训练和评估Mamba-based HuBERT模型，全面探索其作为语音基础模型和特征提取器的潜力。

切入角度：用Mamba block替换HuBERT中的Transformer block，保持相同的训练流程（两轮迭代k-means伪标签训练），在ASR、SUPERB等多任务上评估。

核心 idea：Mamba天然的因果架构使其特别适合构建因果语音SSL模型，在流式ASR和长上下文场景中展现独特优势。

方法详解¶

整体框架¶

本文不发明新架构，而是做一项受控替换实验：把 HuBERT 中的 Transformer block 原样换成 Mamba block，CNN 特征编码器与位置编码器保持不变，训练流程也完全沿用 HuBERT 的两轮迭代（第一轮以 MFCC 为目标训练 250k 步，第二轮以第一轮第 6 层输出为伪标签训练 400k 步），在 LibriSpeech 960h 上预训练。这样唯一变量就是 backbone，输入语音 → Mamba 编码 → SSL 表示 → 下游 ASR/SUPERB 探针的全链路里，任何性能差异都可干净地归因到 Mamba 与 Transformer 的本质区别上。

关键设计¶

1. 多种 Mamba 变体的系统对比：厘清因果性到底是 Mamba 的优势还是包袱

Mamba 天生因果，这一性质在不同任务里方向相反——流式 ASR 只能看过去信息，因果是优势；而需要全局上下文的任务里，单向又可能是劣势。为把这条边界测清楚，本文同时评估因果设置（Mamba、Mamba+MLP）和双向设置（ExtBiMamba、InnBiMamba），并逐一与参数量相当的 Transformer 变体公平对照。这种成对设计让"因果 vs 双向"和"Mamba vs Transformer"两个维度可以解耦分析，而不是只给一个笼统的好坏结论。

2. 长上下文和流式 ASR 评估：把 Mamba 线性复杂度的理论优势落到可测场景

Mamba 相对 Transformer 最大的卖点是 \(O(n)\) 而非 \(O(n^2)\)，但这个优势只有在长序列下才显形。为此设计两个针对性场景：长上下文 ASR 直接处理整段未切分语音，流式 ASR 则约束模型只能用过去信息逐帧解码；同时量化 MACs/秒与 RTF 随序列长度的变化曲线。结果正是在这里拉开差距——Transformer 在 80 秒以上即 OOM 无法运行，而 Mamba 计算量近乎恒定，可处理 5 分钟以上的语音。

3. 表示质量分析：不止问"好不好"，还要拆开看"好在哪、为什么好"

仅靠下游 WER 无法解释 Mamba 表示的内在特性，本文进一步做表示层面的剖析：用 phone purity 量化表示的语音学纯度，用 CCA（典型相关分析）刻画音素与说话人特征各自被编码的方式。借此发现 Mamba 的量化表示 phone purity 更高、对说话人信息编码更清晰，这对以 SSL units 为输入的 spoken language models 有直接价值，把单纯的性能数字升级成了可解释的表示学特性。

损失函数 / 训练策略¶

遵循 HuBERT 标准训练目标：masked prediction loss。使用 Adam 优化器，学习率先线性 warm-up（前 8%）再线性 decay。受计算资源限制，仅在单块 V100 上训练，batch size 取原始配置的 1/4。

实验关键数据¶

主实验¶

设置	模型	参数量	WER	关键发现
流式ASR	Mamba HuBERT	78M	15.77%	优于94M因果Transformer(16.66%)
长上下文ASR	ExtBiMamba	-	11.08%	Transformer因OOM无法运行
标准ASR	ExtBiMamba(Small)	-	接近Transformer	小规模有效

消融实验¶

配置	关键指标	说明
因果SUPERB	Mamba > Causal Transformer	在音素和说话人任务上更优
Phone Purity	Mamba更高	量化表示的语音质量更好
CCA分析	说话人特征更distinct	Mamba对说话人信息编码更清晰
ExtBiMamba Base	低于Transformer	大规模双向Mamba仍需改进

关键发现¶

Mamba的因果性质是流式语音场景的天然优势——78M参数优于94M的因果Transformer
计算成本随序列长度几乎恒定，而Transformer在80秒以上OOM
Mamba产生的量化表示phone purity更高，有利于以SSL units为输入的spoken language models
大规模双向Mamba（Base）仍全面低于Transformer，暗示可扩展性仍需改进

亮点与洞察¶

首次系统性地将Mamba作为语音基础模型进行全面评估，而非仅在单一任务上测试
"因果性质是优势而非限制"的发现改变了对Mamba在语音中应用的认知
量化表示质量的发现对spoken language model领域有直接启示

局限与展望¶

双向Mamba的大规模训练效果不佳，可扩展性是关键挑战
仅在LibriSpeech上预训练和评估，多语言和噪声场景未测试
受限于单块V100，训练规模远小于原始HuBERT
未来可探索Mamba2等改进架构和更大规模的训练

评分¶

新颖性: ⭐⭐⭐⭐ 首次全面探索Mamba作为语音SSL基础模型
实验充分度: ⭐⭐⭐⭐⭐ ASR、SUPERB、表示分析、长上下文、流式等多维评估
写作质量: ⭐⭐⭐⭐ 结构清晰，实验细致
价值: ⭐⭐⭐⭐ 为语音领域的高效架构选择提供重要实证