FSboard: Over 3 Million Characters of ASL Fingerspelling Collected via Smartphones¶

会议: CVPR 2025
arXiv: 2407.15806
代码: 数据集公开发布（CC BY 4.0）
领域: 其他
关键词: 手语指拼, ASL识别, 大规模数据集, 移动端手势输入, 聋人社区

一句话总结¶

发布 FSboard——迄今最大的 ASL 指拼（fingerspelling）识别数据集（320万字符、266小时视频、147位聋人签名者用智能手机自拍录制），聚焦手机文字输入场景，基线模型用 MediaPipe + ByT5 达到 11.1% CER，为指拼作为手机输入方式提供了坚实的数据基础。

研究背景与动机¶

领域现状：手语翻译（尤其是 ASL 到英语）质量在稳步提升，但距实际可用仍有很大差距。参与式 ML 方法论建议将这一宏大目标分解为能立即为聋人/听障社区带来具体收益的中间里程碑。

现有痛点：现有指拼数据集规模太小——之前最大的 ChicagoFSWild+ 只有 30 万字符、14 小时视频，且是从网络爬取的低分辨率裁剪片段。数据不足严重制约了模型性能。此外，大量所谓"指拼识别"研究实际只是静态手形分类，忽略了实际高速指拼中的协同发音效应和词间空格问题。

核心矛盾：数据规模与收集成本之间的矛盾——高质量指拼数据需要招募聋人签名者、统一硬件和场景，成本高；但模型性能严重依赖于数据规模和多样性。

本文目标 (1) 构建一个规模比现有最大数据集大 10 倍以上的 ASL 指拼数据集；(2) 将数据集聚焦在手机文字输入这一实际应用场景上；(3) 提供高质量基线模型证明数据集的有效性。

切入角度：受 Hassan et al. 用户研究启发——聋人用指拼输入手机文本的速度（42.5 wpm）比触屏键盘（31.9 wpm）更快且错误更少。这说明指拼键盘有真实的应用价值，但需要大规模数据来训练可靠的识别模型。

核心 idea：通过招募 147 位聋人用 Pixel 4A 手机自拍录制指拼构建迄今最大 ASL 指拼数据集，覆盖 MacKenzie 短语、URL、地址、电话号码、姓名等手机文字输入场景。

方法详解¶

整体框架¶

FSboard 的核心贡献是数据集本身。工作流程为：(1) 设计面向手机文字输入场景的短语分布；(2) 通过 DPAN（Deaf Professional Arts Network）招募 147 位以 ASL 为主语言的聋人参与者；(3) 用 Pixel 4A 前置摄像头（1944×2592, 30fps）在多样环境下录制一只手的指拼视频；(4) 通过多轮自举（bootstrapping）方法清洗数据边界；(5) 划分为无重叠的训练/验证/测试集。基线模型采用 MediaPipe Holistic 提取 85 个 3D 手势关键点，线性投影后送入 ByT5-Small (300M) 字符级编码器-解码器模型进行序列到序列的指拼识别。

关键设计¶

多领域短语设计:
- 功能：构建贴近真实手机文字输入场景的短语分布
- 核心思路：包含五类短语——MacKenzie 经典文本输入评测短语（500 个，被多名签名者重复录制作为 sanity check）、随机生成的 URL（从网页爬虫提取真实 URL 部分后随机组合）、随机美国街道地址（基于 Census Bureau TIGER 数据）、随机人名（最常见 1000 名/姓组合）、随机电话号码（包含美国和国际格式）
- 设计动机：手机文字输入不仅仅是普通句子，地址、姓名、URL 等是聋人社区特别期待的应用场景（如在 Google Maps 中输入地址）。数字签名虽不完全等同指拼，但在实际场景中与指拼密切相关
自举数据清洗流程:
- 功能：修正由数据采集 App bug 导致的片段边界不准确问题
- 核心思路：先用 YouTube 手语视频预训练 ByT5，然后 5 折交叉验证方式对 FSboard 进行预测——模型预测与标注一致的片段标记为"干净"，不一致的标为"噪声"。重复此过程三次，每次只在"干净"数据上训练。之后再辅以手动编辑和参与者特定规则进一步清洗
- 设计动机：由于采集 App 的"错误"按钮bug，时间戳标注与实际指拼不匹配非常普遍，人工标注成本太高，自举方法利用模型自身能力逐步筛选干净数据
基线模型：MediaPipe + ByT5:
- 功能：提供指拼识别基线性能
- 核心思路：用 MediaPipe Holistic 在 30Hz 下提取 85 个 3D 关键点（手 + 姿态 + 面部），线性投影到 ByT5-Small 的编码器输入空间，每帧一个 soft token。最长 256 帧输入、256 字符输出，beam search (beam=5) 解码。在 32 TPUv3 上训练 200K 步
- 设计动机：关键点输入比直接处理视频轻量很多，适合未来在手机端部署。ByT5 字符级模型天然适合指拼（逐字母识别），预训练知识带来巨大提升

损失函数 / 训练策略¶

标准编码器-解码器序列到序列训练，使用 Adafactor 优化器，学习率 0.001，batch size 64。在验证集 CER 上选择最优 checkpoint。

实验关键数据¶

主实验¶

模型/配置	CER↓	Top-1 Accuracy↑
ByT5-Small + MediaPipe (30Hz)	11.1%	52.9%
Kaggle 竞赛最佳	16.4%	-
ChicagoFSWild+ 基线	37.7%	-
ChicagoFSWild+ 人类表现	13.9%	-

消融实验¶

配置	CER↓	Top-1 Accuracy↑	说明
ByT5 预训练 (300M)	11.1%	52.9%	完整基线
ByT5 从头训练	33.8%	17.9%	预训练知识贡献 22.7% CER
ByT5 Base (580M)	13.3%	49.1%	更大模型反而过拟合
30Hz → 15Hz	11.8%	51.8%	帧率减半 CER 仅涨 0.7%
30Hz → 5Hz	20.0%	33.4%	帧率太低急剧恶化
去掉 Face 关键点	12.0%	50.6%	面部唇读线索有小幅帮助
去掉 Face + Pose	12.5%	49.7%	仅用手部关键点仍表现良好

关键发现¶

预训练是最关键因素：ByT5 预训练 vs 从头训练的 CER 差距为 22.7%（11.1% vs 33.8%），且收敛速度快约 7×
帧率降低到 15Hz 几乎无损（11.1% → 11.8%），对设备端实时部署非常有利
面部/姿态关键点贡献较小（去掉后只涨 1.4% CER），说明指拼识别的核心信息确实在手部，面部可能只提供了辅助的唇读线索
基线已超越 ChicagoFSWild+ 的人类表现（11.1% < 13.9%），但这主要因为 FSboard 的任务设定是孤立指拼而非从连续签名中裁剪

亮点与洞察¶

社区驱动的数据集设计是本文最重要的理念：3 位作者是聋人社区成员，选题、试点测试和招募全程有社区参与，数据集聚焦于真实需求（手机文字输入）而非学术炫技。这种"先解决实际需求再推进更大目标"的增量式参与方法值得所有 HCI/AI 研究借鉴。
MacKenzie 短语的指拼速度远超手机打字（65 wpm vs 36 wpm），部分签名者超 100 wpm，这一数据强有力地支撑了指拼键盘的应用价值。
自举数据清洗流程巧妙地将模型自身当做标注工具，虽然不如人工标注精确但成本极低且可迭代改善，适用于所有远程众包数据收集场景。

局限与展望¶

数据集短语分布较窄——只覆盖工程地址、URL、姓名等几类，缺乏自由文本和日常对话内容
大写/标点处理不够明确——指拼中大小写在少数场景才有区分，但文字输入需要，需要更明确的采集协议
基于 MediaPipe 的关键点提取在遮挡和极端角度下可能不可靠，未来应探索直接视频建模
测试集仍是与训练集使用相同合成语法的短语，独立的真实查询测试集更能反映实际性能
签名者数量（147 人）远少于 ChicagoFSWild+（260 人），种族/性别多样性虽合理但仍有偏斜（男性表现不足）

评分¶

新颖性: ⭐⭐⭐ 核心贡献是数据集而非方法创新，但数据集的规模和设计理念本身就是重要贡献
实验充分度: ⭐⭐⭐⭐ 提供了全面的消融（帧率、关键点组件、模型大小、预训练），定性分析也充分
写作质量: ⭐⭐⭐⭐⭐ 论文对社区背景、伦理考量、数据集设计动机的阐述非常详尽和负责
价值: ⭐⭐⭐⭐ 为 ASL 指拼识别和辅助技术提供了宝贵资源，社区驱动的方法论有示范意义