ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5¶

基本信息¶

会议: ACL2025
arXiv: 2409.18584
代码: https://github.com/flageval-baai/ChildMandarin
领域: Others (语音)
关键词: 儿童语音识别, 普通话语音数据集, 3-5岁儿童, ASR, 说话人验证

一句话总结¶

提出 ChildMandarin，一个面向 3-5 岁幼儿的普通话语音数据集，包含 397 名说话人、41.25 小时语音、覆盖中国 22 个省级行政区，并在 ASR 和说话人验证任务上提供了全面的基线评估。

研究背景与动机¶

问题定义¶

自动语音识别（ASR）系统主要基于成人语音训练，在儿童语音上表现严重退化。幼儿语音具有发音不稳定、语调偏高、语速变化大、口齿不清等特点，与成人语音存在显著差异。特别是 3-5 岁幼儿的语音数据极度稀缺。

现有不足¶

中文儿童语音数据集的现状：

数据集	年龄	说话人数	时长	可用性
Tong Corpus	1;7-3;4	1	22h	可用
CASS CHILD	1-4	23	631h	不可用
SLT-CSRC C1	7-11	927	28.6h	不可用
SLT-CSRC C2	4-11	54	29.5h	不可用
SingaKids	7-12	255	75h	可用

Tong Corpus：仅单一儿童纵向记录，无法提供 ASR 系统所需的说话人多样性

CASS CHILD：虽有 631 小时但仅 80 小时有转录且不公开

SLT-CSRC：仅在 SLT 2021 挑战赛期间开放

SingaKids：聚焦 7-12 岁，不覆盖幼儿年龄段

英语数据集丰富但其他语言稀缺：Providence、MyST、CSLU Kids 等英语资源较好，但非欧洲语言明显不足

动机¶

构建一个专门面向 3-5 岁幼儿的大规模、多说话人、地理分布广泛的普通话语音数据集，为该年龄段的 ASR 和说话人验证研究提供基础资源。

方法详解¶

整体框架¶

数据集构建 + ASR 基线评估 + 说话人验证基线评估

数据集构建¶

采集设置： - 对话式录音（非朗读式），鼓励自然交互 - 父母全程在场提供情感支持 - 录音内容不受限制，聚焦适龄日常交流 - 设备：智能手机（Android 216 台、iPhone 181 台） - 安静室内环境，容许少量背景噪声 - 格式：WAV PCM，16kHz 采样率，16-bit 精度

标注： - 字符级手工转录，由专业转录员完成 - 忠实记录结巴、不流利和发育性语音模式 - 忠实记录地域发音变化 - 数字按实际发音转录

数据规模：

子集	说话人	语段数	时长(hrs)	平均(s)
Train	317	32,658	33.35	3.68
Dev	39	4,057	3.78	3.35
Test	41	4,198	4.12	3.53
总计	397	40,913	41.25	3.52

人口统计： - 年龄分布：3/4/5 岁，各年龄性别均衡 - 地理分布：22 个省级行政区（山西 136 人最多，其次江苏 40、河南 39） - 口音分类：轻度（多数）、中度、重度（约 4%）

关键设计¶

说话人不重叠分割：train/dev/test 间无说话人重叠，确保评估泛化能力。

伦理保障： - 取得所有参与者父母/法定监护人的知情同意 - 每名儿童获得 150 元人民币公平补偿 - 数据匿名化，移除个人识别信息 - 仅限学术研究使用

实验¶

ASR 任务¶

从零训练模型¶

使用 Wenet 工具包训练，评估指标为 CER（%）：

模型	参数量	解码方式	CER(%)
Transformer (CTC-AED)	29M	Attention Rescoring	32.15
Conformer (CTC-AED)	31M	Attention Rescoring	27.38
Conformer (RNN-T AED)	45M	Attention	33.84
Paraformer	30M	Beam Search	28.94

Conformer + CTC-AED + Attention Rescoring 表现最佳。

自监督预训练模型微调¶

模型	CER(%)
Wav2vec 2.0 (Base)	20.29
Wav2vec 2.0 (Large)	21.12
HuBERT (Base)	18.74
HuBERT (Large)	14.97

HuBERT 一致优于 Wav2vec 2.0，与最新研究一致。

监督预训练模型微调¶

模型	参数量	Zero-shot	Fine-tuning
CW (Conformer-WenetSpeech)	122M	18.05	13.66
Whisper-tiny	39M	67.63	28.78
Whisper-base	74M	51.49	23.33
Whisper-small	244M	37.99	17.45
Whisper-medium	769M	28.55	18.97
Whisper-large-v2	1,550M	29.43	-

CW 在 zero-shot 和 fine-tuning 下均最优
Fine-tuning 大幅降低所有模型的 CER
Whisper-medium 微调后反而不如 Whisper-small（小数据集导致过拟合）

性能分析¶

年龄和性别影响： - CER 随年龄增长而降低：3 岁 > 4 岁 > 5 岁 - 同年龄段男孩 CER 一致高于女孩 - 3 岁男孩 CER 最高（zero-shot 34.78%，fine-tuning 26.80%）

错误类型分析（CW 模型）：

年龄_性别	替换(%)	删除(%)	插入(%)
3_F	9.03	2.04	0.69
3_M	26.80	4.35	2.11
4_F	3.94	0.53	0.15
5_M	14.32	3.04	1.23

替换错误占主导，其次是删除错误。

说话人验证任务¶

模型	参数量	嵌入维度	PLDA EER(%)	PLDA minDCF
x-vector	4.2M	512	8.91	0.7198
ResNet-TDNN	15.5M	256	9.57	0.6597
ECAPA-TDNN	20.8M	192	13.72	0.8697

数据集适合说话人验证任务
ECAPA-TDNN 因参数量大在小数据集上过拟合，表现不如 x-vector 和 ResNet-TDNN
幼儿声道发育不完全导致性别相关特征被掩盖，增加了验证难度

关键发现¶

Fine-tuning 预训练模型比从零训练显著降低 CER（最佳从 27.38% 降至 13.66%）
3 岁儿童语音是最大挑战，CER 可达同数据集 5 岁儿童的 2-3 倍
对于小数据集，过大的模型反而可能因过拟合导致性能下降
Conformer-WenetSpeech 在儿童语音上的迁移效果最好

亮点与洞察¶

填补关键年龄段空白：专注 3-5 岁幼儿，这是现有资源最匮乏的年龄段
高质量自然交互数据：对话式采集优于朗读式，更真实地反映幼儿语音特点
广泛地理覆盖：22 个省级行政区 397 名说话人，具有良好的方言多样性
双任务基线：同时提供 ASR 和说话人验证基线，展示数据集的多任务适用性
细粒度分析：按年龄、性别、错误类型等多维度分析 ASR 性能，为后续研究提供方向

局限性¶

数据量相对有限：41.25 小时对比成人语音数据集仍然较小
地理分布不均衡：山西贡献最多说话人（136），部分省份仅有少量参与者
大模型微调过拟合：数据量限制了使用大参数模型的效果
对话式录音的噪声控制：幼儿录音中不可避免存在背景噪声

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐ — 填补 3-5 岁中文幼儿语音数据集空白
实用性：⭐⭐⭐⭐⭐ — 对教育技术和儿童人机交互有直接应用价值
方法新颖度：⭐⭐⭐ — 数据集构建为主，基线评估采用标准方法
实验充分度：⭐⭐⭐⭐ — ASR + SV 双任务，从零训练 + 预训练微调全面覆盖，细粒度分析详实