BANZ-FS: BANZSL Fingerspelling Dataset¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=GMR9BUsPbq
代码/数据: BANZ-FS（CC BY-NC-SA 4.0）
领域: 手语理解 / 数据集与基准
关键词: 指拼识别, BANZSL, 双手指拼, 手语翻译, 时序检测

一句话总结¶

本文构建了首个面向 BANZSL（英国/澳大利亚/新西兰手语）双手指拼的大规模数据集 BANZ-FS，汇集新闻直播、实验室录制、网络 vlog 三类来源、35K+ 条多级对齐的指拼实例，并在检测、孤立识别、上下文识别三大任务上系统地 benchmark 了 SOTA 模型。

研究背景与动机¶

领域现状：指拼（fingerspelling）是手语中用手势逐字母拼写人名、地名、专业术语等"词典外"词汇的关键手段，对手语翻译（SLT）系统至关重要。但现有指拼数据集（ChicagoFSWild、FSBoard、Fleurs-ASL-FS 等）几乎全部聚焦于单手系统的美国手语（ASL）。

现有痛点：BANZSL 家族（BSL/Auslan/NZSL，共享同一套双手字母表）的双手指拼系统被严重忽视——已有的 Auslan-Daily、BOBSL-FS 指拼实例数量很少，且大多缺乏 segment 级时序标注，难以支撑检测任务；现有数据也很少捕捉真实场景中的拼写错误、缩写、首字母缩略、自我纠正等自然现象。

核心矛盾：双手指拼天然带来自遮挡、字母内高方差、字母间快速过渡等独特视觉挑战，但学界既没有规模够大、又贴近真实使用的 BANZSL 指拼基准来评测和推进相关模型。

本文目标：填补这一空白，建立一个覆盖受控与真实环境、带多级对齐标注、可同时支撑检测/识别/上下文识别的大规模 BANZSL 指拼数据集与配套基准。

核心 idea：[多源采集 + 多级对齐] 从新闻直播、实验室、网络视频三类异质来源采集，并对每条实例做 video↔字幕、video↔指拼字母、video↔目标词三级对齐，让同一份数据同时服务于检测、识别与上下文识别。

方法详解¶

整体框架¶

BANZ-FS 不是一个模型，而是"数据集 + 任务基准"两部分。数据侧用三类来源（ABC News with Auslan 新闻直播、Kinect/RealSense 多机位实验室录制、YouTube 上的 BSL/NZSL vlog）构成覆盖不同节奏与正式度的语料，再由 Auslan 专家做多级时序对齐标注；任务侧把指拼问题拆成四个递进任务，并各配评测指标。

flowchart LR
    A[ABC News 新闻直播<br/>Auslan] --> D[多级对齐标注<br/>video↔字幕↔字母↔词]
    B[实验室 RGB-D 录制<br/>多机位] --> D
    C[YouTube vlog<br/>BSL/NZSL] --> D
    D --> E[IFSR 孤立识别]
    D --> F[FSD 检测]
    F --> G[FSD-R 检测后识别]
    D --> H[FSR-Context 上下文识别]

关键设计¶

1. 三源异质语料：覆盖从正式播报到日常随性的全谱系。数据集刻意把三类来源拼在一起来制造真实多样性：新闻直播是专业译员的高正式度、live 同传，速度最快（平均 4.59 字符/秒）；实验室录制提供绿幕 + 三台 Kinect-V2 + 一台 RealSense 的干净受控参考，速度最慢（约 1.3 字符/秒），便于做跨机位鲁棒性研究；网络 vlog 则覆盖在野的随性签署风格与多变环境。三者合计 35,028 个视频片段、116 名签署者、超过 20 万个指拼字符，签署者横跨 Auslan 专家、聋人、手语学习者，从而捕捉不同节奏、流利度与语言能力。

2. 多级对齐标注协议 + 交叉复核。每条新闻视频先用 AlphaPose 跟踪场景中所有人，标注员按姿态轨迹的空间位置和连续签署动作选定签署者 ID，再依次完成"校正 video↔字幕对齐 → 标注指拼时序段 → 从字幕回填目标词"。最终每条实例带四类标注：手语片段时序边界、指拼时序边界、指拼词形、英文转写。质量上采用"基于识别的验证"协议——每位标注员随机抽检另一人 5% 的片段，约 95% 批次首轮通过；若超过 10% 明显错误则整批打回、第三人重标。五位专家加五位标注员、约 500 工时完成全部标注。

3. 显式标注真实指拼语言现象。区别于以往只标"拼了什么字母"，BANZ-FS 显式分类并标注了自然发生的现象：精确匹配（24%）、词汇缩写（如 equipment→EQ，32%）、首字母缩略（GWS，18%）、拼写错误（Maguire→Maquire，15%）、自我纠正（miimiles→miles，5%）等。同时量化数据的开放集特性——报告了从不出现在训练集的 out-of-training 签署者（OOS）、out-of-training 指拼串（OOFS，813 条）以及只出现一次的 FS singletons，让基准能直接考察对未见用户/未见词的泛化。

4. 四级递进任务与配套指标。把指拼建模拆成四个任务：IFSR（孤立识别，给定切好的片段转写为字母序列，用基于编辑距离的 Letter Accuracy \(1-\frac{\text{EditDistance}(L^*,\hat{L})}{|L^*|}\)）；FSD（检测，在未裁剪视频中定位指拼时间段，用 AP@IoU\(_{0.5}\)）；FSD-R（检测后识别，预测段只有当下游识别字符准确率 >50% 才算 True Positive，用 AP@Acc\(_{0.5}\)）；FSR-Context（上下文识别，从 SLT 模型的预测译文中抽出指拼跨度并对齐评字符级 Letter Accuracy）。FSD-R 这一"检测必须可识别"的设计，把定位质量与可识别性绑在一起评测。

实验关键数据¶

主实验表格（IFSR，Letter Accuracy %，Full 列为合并训练）¶

Method	News	Lab	Web	Full
Iterative-Att	45.6	72.3	51.3	58.6
MiCT-RANet	56.4	81.8	60.1	68.6
TS-FS-Reg	57.2	82.9	62.4	69.7
FS-PoseNet	62.5	87.3	70.1	74.7
HandReader	64.4	86.7	71.8	75.4

检测与检测后识别（FSD / FSD-R，Full 训练）¶

Method	FSD AP@IoU\(_{0.5}\) (Full)	FSD-R AP@Acc\(_{0.5}\) (Full)	Web (FSD)
Bi-LSTM CTC	42.5	26.9	27.2
Modified R-C3D	48.8	30.5	32.2
TS-FS-Det	54.1	42.5	37.4
MT-FS-Det	62.7	45.9	41.6
SL-Seg	66.9	53.5	47.3

关键发现¶

跨域泛化是最大难点：几乎所有模型在自己的训练域（尤其受控的 Lab，最高 93.1%）表现好，但跨到 Web 在野数据急剧下滑；多模态（RGB+3D pose）的 HandReader 跨域最稳，Web 上 40.2% 大幅领先。
检测好 ≠ 识别对：FSD 与 FSD-R 之间存在明显落差，很多定位准确的段仍达不到 50% 识别阈值，提示需要"识别感知的检测"或联合优化。
上下文识别极难：gloss-free SLT 模型在 FSR-Context 上 Letter Accuracy 仅 16.4%；字符级 tokenization 的 ByT5 优于子词级 T5，说明指拼这种逐字母内容更吃字符级建模。
pose 线索利于检测鲁棒性：基于帧级 BIO 标注 + pose 的 SL-Seg 在 Web 域检测最强，优于 proposal/regression 类方法。

亮点与洞察¶

填补真正的空白：首个大规模、面向双手 BANZSL 系统的指拼数据集，把长期被 ASL 单手研究主导的领域补上了一块。
任务设计有"诚实度"：FSD-R 把"检测出来还得能被认对"显式纳入指标，比单纯报检测 AP 更贴近真实可用性。
真实现象被显式建模：缩写、缩略、拼错、自我纠正这些以往被当噪声丢掉的现象被分类标注，反而成了研究价值。
顺带扩了 Auslan News：标注过程中把 Auslan-Daily News 子集额外扩到约三倍规模、对齐 40 小时新闻，惠及上下文识别研究。

局限与展望¶

数据集论文而非新方法：本文不提出新模型，benchmark 用的都是已有 SOTA，双手指拼的针对性算法仍待后续工作。
跨域与上下文性能很低：Web 域识别、FSR-Context（16.4%）都还远未可用，说明数据集"难"，也意味着短期落地仍有距离。
长尾与开放集挑战：字符频率长尾、大量 OOFS/singleton，低资源与开放词表识别仍是未解难题。
来源不均衡：新闻（Auslan）样本远多于 BSL/NZSL 的网络数据，BANZSL 三种方言之间的覆盖并不均衡。

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模双手 BANZSL 指拼数据集，填补明确空白，多源 + 多级对齐 + 真实现象标注有独到价值。
实验充分度: ⭐⭐⭐⭐ 四任务 × 多 SOTA × 跨域（News/Lab/Web/Full）的矩阵式 benchmark 相当扎实，且做了开放集/泛化分析。
写作质量: ⭐⭐⭐⭐ 动机清晰、任务定义与指标交代完整、表格信息密度高，作为数据集论文可读性好。
价值: ⭐⭐⭐⭐ 为长期被忽视的双手手语社区提供基础设施，CC BY-NC-SA 公开，能持续驱动 BANZSL 手语技术研究。