Data-Centric Lessons To Improve Speech-Language Pretraining¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=4amNkYCDqX
代码: 无
领域: 语音语言模型 / 多模态预训练
关键词: 语音问答, 数据工程, 语音-文本交错, 合成数据, 模态对齐

一句话总结¶

这篇论文把语言/视觉领域成熟的「数据为中心」方法论系统地搬到语音-语言预训练上，通过受控消融回答「怎么切原始音频、怎么造合成数据、怎么交错采样」三个问题，并把这些结论蒸馏进一个 3.8B 的 SpeechLM（SpeLangy），用更小的体量在口语问答（SQA）上反超 3 倍大的模型 10.2%。

研究背景与动机¶

领域现状：口语问答（Spoken Question-Answering, SQA）是语音助手的核心能力，主流做法是「语音编码器 + 连接器 + LLM」，再用语音-文本交错预训练（在交替出现的语音 token 和文本 token 序列上做 next-token prediction）来提升 SQA。近期 Kimi-Audio、GLM-4-Voice、MiMo-Audio 等模型都走这条路。

现有痛点：这些工作把建模选择（架构、tokenizer）讲得很清楚，但数据管线几乎都没有在受控条件下评估过——原始音频该切成多长的块？能不能用纯文本语料反向合成语音数据？模态 token 该怎么交错？这些问题在语音领域基本是空白。

核心矛盾：在语言（FineWeb、DCLM）和视觉（DINOv2/v3）领域，数据治理早已被证明是性能提升的首要驱动力，但语音-语言领域缺乏同等严谨的数据消融，导致大家说不清「性能到底从哪来」。同时，真实场景里小模型在语音和文本 token 上同时算 loss 还会出现模态冲突。

本文目标：在一个去掉混杂因素（任务干扰、次优数据配比）的干净实验台上，逐一回答三个数据问题：(1) 如何把原始网络音频处理成可训练的交错数据；(2) 如何构造合成数据补充网络爬取数据；(3) 训练时如何在语音和文本模态间交错采样。

切入角度：作者刻意把预训练任务只保留语音-文本交错这一项，剔除其他 pipeline 常见的任务干扰和数据混合混杂，从而让每个数据变量的因果效应可被单独度量——这是借鉴 DCLM、DataComp 等「单模态干净实验台」的思路。

核心 idea：不动模型架构，只动数据——用细粒度交错、合成数据增强、确定性模态采样这三个纯数据层面的干预，系统性地拉高 SQA 性能。

方法详解¶

整体框架¶

整篇工作是一个「受控数据消融 → 蒸馏成最终模型」的两段式研究。固定一个 ~3.8B 的 SpeechLM（1B conformer 语音编码器 + 有限标量量化器输出 12.5Hz 离散语音 token，初始化自一个 2.8B 的纯文本基座 LM，扩词表加入语音 token），只用语音-文本交错任务做预训练，数据混合固定为 60% 纯文本 + 40% 语音-文本。在这个固定台子上，作者沿数据生命周期的三个环节各做一组 A/B 消融：怎么把原始音频切成交错块（粗 vs 细）、怎么用纯文本语料合成语音数据（Krist / Quest）、训练时怎么采样模态（确定性 vs 随机）。每一组都用同一套 SQA 基准（SWQ / STQ / SLQ）和 12 个文本基准评测，确保文本能力不退化。最后把三组消融的获胜配置全部叠加，在 1.67T token 上训练出 SpeLangy。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始网络音频<br/>>10M 小时"] --> B["处理管线<br/>说话人分离→语种过滤<br/>→配对转写→交错切块"]
    B -->|"按句边界细切"| C["细粒度交错<br/>(A1,T1)(A2,T2)…"]
    D["优质 HTML 文档"] --> E["合成数据<br/>Krist：LLM 抽取改写+TTS<br/>Quest：抽问题+CoT答案+TTS"]
    C --> F["确定性模态采样<br/>逐块交替 A/T"]
    E --> F
    F --> G["语音-文本交错预训练<br/>next-token prediction"]
    G --> H["SpeLangy 3.8B"]

关键设计¶

1. 细粒度交错：按句边界切块而非按说话人合并

原始音频经说话人分离后会得到一段段带转写的片段。先前工作（Kimi-Audio、Baichuan-Audio）的默认做法是把同一说话人 ID 的连续片段合并成长块（粗交错，平均块长 19.2s），但没人量化过交错粒度本身的影响。本文反其道而行：不合并、保留分离后的原始短片段，必要时进一步按句子边界切（细交错，平均块长 5.2s）。每个训练样本因此形如 \(X_i=\{(A_1,T_1),(A_2,T_2),\dots,(A_n,T_n)\}\)，\(A\) 是语音块、\(T\) 是对应文本块。

之所以细切更好，是因为更短的块意味着语音和文本在序列里交替得更频繁，模型被迫在更细的粒度上对齐两个模态，而粗块会让一大段语音后才接文本，跨模态信号稀疏。实验上细交错把 SQA 平均提升 3.1%（37.6%→40.7%）且不损文本性能。这个结论直接推翻了「合并同说话人片段」这一行业默认做法。

2. 合成数据 Krist + Quest：用纯文本语料反向造干净语音数据

网络爬取音频虽量大（>10M 小时），但领域分布严重偏斜——大头是播客、访谈、脱口秀、独白，集中在娱乐、体育健身、宗教、社交生活，而科技、健康、教育、金融这些下游高优先级领域几乎没有；同时转写模型的幻觉、背景噪声、说话人重叠也带来脏标注。为此作者从优质纯文本语料反向合成两个数据集。Krist（Knowledge-Rich Interleaved Speech-Text）：从轻过滤的 WARC 文档出发，用 URL 过滤保留知识密集域，用 gpt-4o-mini 从 HTML 抽取并轻改写文本，按句切块，再用 melo-TTS 合成语音（随机采样 5 种口音提升说话人多样性），产出 ~4.6M 小时。Quest（Question-Answering Speech-Text）：因为 Krist 听起来不自然，Quest 显式组织成问答格式——从同一 HTML 池用正则挖问题、gpt-4o 过滤无效问题、gpt-4o 生成带思维链（CoT）的回答，同样切块 + TTS，产出 ~0.9M 小时。

为什么有效：合成数据精准补齐了网络数据欠采样的领域，缩小训练分布与下游评测分布的不匹配。实验上 Quest 把 MMLU 和 SQA 分别拉高 2.1% 和 7.2%（作者推测 QA 格式天然适配下游 SQA 任务），Krist 也带来 0.8% SQA 提升并小幅利好文本基准。

3. 确定性模态采样：训练时逐块强制交替模态以最大化切换次数

有了交错样本 \(X_i=\{(A_1,T_1),\dots,(A_n,T_n)\}\)，训练时还要决定每个块取语音还是文本。先前做法是随机采样：每块以 0.5 概率独立选模态（恒以 \(A_1\) 开头保证至少一个音频块）。本文提出确定性采样：严格交替成 \(\{A_1,T_2,A_3,\dots,A_{n-1},T_n\}\)，把模态切换次数拉满。两者的期望切换次数差异是关键——确定性为 \(n-1\)，随机仅为 \(\frac{n-1}{2}\)。

直觉是：模态切换越频繁，模型越被反复逼着做跨模态对齐，从而学到更强的语音↔文本映射；随机采样常常连续几块同模态，切换稀疏，跨模态学习信号被稀释。实验上确定性采样把 SQA 平均再提 1%（41.4%→42.4%），Fig.4 也证实其切换次数分布明显右移。

损失函数 / 训练策略¶

预训练用标准 next-token prediction，默认在语音和文本 token 上都算 loss（支持端到端 SpeechLM）。作者额外消融了「只对文本算 loss、屏蔽语音 token」的 understanding-only 设定（对应 Thinker-Talker 里的 Thinker）：发现三大数据干预在此设定下同样有效（SQA 平均 +9.3%），且加 loss-masking 后绝对性能更高（51.8% vs 42.4%），印证了小模型上语音与文本 token 之间存在模态冲突、同时算 loss 会拖累性能。优化上用 global batch 512、packed 序列长 16384、训练 200k 步、只调 LM 冻结语音 tokenizer。

实验关键数据¶

主实验¶

SpeLangy（3.8B）在三个 SQA 基准上反超更大的基座模型，并逼近经过指令微调的 post-trained 模型：

类型	模型	参数量	SWQ	STQ	SLQ	平均
Base	Kimi-Audio	10.5B	44.0	33.8	47.0	41.6
Base	Qwen-Audio	8.4B	45.7	30.3	46.0	40.7
Base	Qwen-2-Audio	8.4B	45.7	33.4	47.0	42.0
Base	SpeLangy	3.8B	45.7	44.6	65.0	51.8
SFT	Voxtral-mini	4.7B	41.6	46.6	65.3	51.2
SFT	GLM-4-Voice	9.9B	43.3	52.4	64.7	53.4

SpeLangy 比 Kimi-Audio / Qwen-Audio / Qwen-2-Audio 分别高 10.2% / 11.1% / 9.8%，而体量小 2.8× / 2.2× / 2.2×；在未做任何任务微调的情况下逼平强力 post-trained 的 Voxtral-mini、GLM-4-Voice。文本侧（Tab.7）SpeLangy MMLU 67.3、GSM8k 71.9，相比 2.8B 基座（MMLU 62.2、GSM8k 47.1）大幅正向迁移，且与 Gemma-3、Qwen-2.5 同级纯文本模型可比，说明语音训练没有牺牲文本能力。

消融实验¶

三组数据干预逐一验证（SQA 为三基准平均）：

干预环节	配置	SQA 平均	说明
交错粒度	Coarse	37.6	合并同说话人长块（旧默认）
交错粒度	Fine	40.7	句级短块，+3.1%
合成数据	Web-crawl 100%	40.7	仅网络数据
合成数据	+Krist	41.5	+0.8%
合成数据	+Quest	47.9	+7.2%，QA 格式适配下游
模态采样	Stochastic	41.4	每块 0.5 概率独立采样
模态采样	Deterministic	42.4	逐块交替，+1%

理解-only 设定（屏蔽语音 loss）下叠加全部干预，SQA 从 42.5% 升到 51.8%（+9.3%），证明结论可迁移；post-training（SFT）后 fine+syn 检查点在文本和音频质量上仍领先 coarse，说明 SQA 准确率可作为后训练质量的良好代理指标。

关键发现¶

Quest 贡献最大：QA 格式的合成数据单独就带来 +7.2% SQA，远超 Krist 的 +0.8%，因为它的「问题→CoT→答案」结构天然贴合下游 SQA 任务形态。
为什么有效有两条机制证据：(1) 模态对齐——细交错把语音条件与文本条件输出分布的 reverse-KLD 从 3.20 降到 2.21，再叠加合成数据降到 1.47；(2) 领域覆盖——网络音频严重偏向娱乐/体育/宗教，而 Krist/Quest 过采样科技、健康、教育、金融等欠采样域，补齐训练-评测分布鸿沟。
污染不是主因：用 6~13-gram 重叠做保守污染检测，SWQ/STQ/SLQ 污染率仅 0.4%/2.5%/7.7%，去污后做显著性检验（\(\alpha=0.01\)）未见统计显著影响，且合成数据带来的 SLQ 提升（3.7%~19%）远超去污前后差异（≤2%）。

亮点与洞察¶

把数据科学方法论严格移植到语音领域：最大价值不在某个单点技巧，而在第一次给语音-语言交错预训练搭了个干净实验台，逐变量量化数据干预的因果效应——这种「受控消融」范式可直接复用到任何新模态。
细交错推翻行业默认：「合并同说话人片段」被普遍当作理所当然，本文用数据证明反而该细切，这种「质疑默认做法 + 用消融背书」的思路很值得迁移。
用纯文本反向造语音数据补领域空洞：Krist/Quest 展示了一条绕过「某些领域音频根本爬不到」困境的路——从优质文本走 LLM 改写 + TTS，既补领域又去噪。
小模型靠数据反超大模型：3.8B 打过 10.5B，强化了「数据治理 > 单纯堆参数」的结论，对算力受限场景很有启发。

局限与展望¶

最优数据混合比例未解：作者明确承认 Krist/Quest 与网络数据的混合比例存在复杂交互（数据重复 vs 配比），没找到最优混合方案，留给未来工作。
合成数据依赖闭源 LLM + TTS：Krist/Quest 重度依赖 gpt-4o(-mini) 和 melo-TTS，合成质量与成本受这些组件制约，TTS 的口音/自然度也可能成为上限。
评测用 cloze-MCQ 而非开放生成：SQA 用 4 选 1 log-likelihood 评测（chance 25%），与真实开放式语音问答有差距，绝对数字的现实意义需谨慎解读。
结论规模依赖：模态冲突、loss-masking 收益等现象是在 ~3.8B 小模型上观察到的，是否在更大规模仍成立未验证。

评分¶

新颖性: ⭐⭐⭐⭐ 方法本身不新（细切/合成/采样都是已有手段），但首次在语音-语言领域做系统受控数据消融，方法论贡献扎实。
实验充分度: ⭐⭐⭐⭐⭐ 三组消融 + 两种设定迁移 + 后训练验证 + 模态对齐/领域覆盖/污染三重机制分析，非常完整。
写作质量: ⭐⭐⭐⭐⭐ 三问题主线清晰，每节带 takeaway，图表自洽。
价值: ⭐⭐⭐⭐⭐ 给语音 SpeechLM 社区提供了可复用的数据治理配方，3.8B 反超 3× 大模型很有说服力。