跳转至

CNSL-bench: Benchmarking the Sign Language Understanding Capabilities of MLLMs on Chinese National Sign Language

会议: ACL 2026
arXiv: 2604.22367
代码: https://github.com/rzhao-zhsq/CNSL-bench
领域: 多模态 VLM / 手语理解
关键词: 中国国家手语, 手语基准, MLLM 评测, 模态失衡, manual articulation

一句话总结

CNSL-bench 是首个基于《国家通用手语词典》的权威中国手语 MLLM 评测基准,覆盖 6,707 个唯一手语词条 × 文本/图片/视频三模态 × 三种手部 articulation(空写/指拼/手指字母)共 20,121 道四选一题,在 21 个 SOTA MLLM 上揭示:GPT-5 文本 89.6%、图片 67.0%、视频 56.7%,相对人类 97% 仍有巨大 gap,且 CoT 推理对视频帮助微弱。

研究背景与动机

领域现状:LLM 推动手语研究从纯 SLR/SLT 流水线进入 LLM-as-decoder 阶段(Sign2GPT、SignLLM 等),近期 MLLM 又把视觉/视频理解能力推得很强,但几乎所有工作都是把 LLM 嵌进特定下游任务(手语翻译、识别),把它当成 semantic enhancement 模块。

现有痛点MLLM 本身的 intrinsic 手语理解能力从未被系统评测过。现有手语数据集(WLASL、PHOENIX、CSL-Daily、How2Sign 等)都是给训练特定任务用的,没有跨模态对齐的 lexical 级评测;而通用 MLLM 基准(MME、MMMU、Video-MME 等)压根不含手语。结果是:我们不知道 MLLM 在手语上"到底强在哪、弱在哪、modality gap 多大"。

核心矛盾:手语本质是多模态语言(视觉空间 + 时间动力学 + 语言学结构),既需要 VLM 的视觉感知又需要 LLM 的语义理解;但既有评测要么只测视觉(不带语义 grounding),要么只测语言(不带视觉),无法回答"MLLM 是真的理解手语 linguistic structure,还是只在做表面视觉相关"。

本文目标:构建首个 (1) 权威 lexical grounding、(2) 多模态对齐(text/image/video)、(3) articulation 多样性(air-writing/finger-spelling/manual-alphabet) 的手语 MLLM 评测基准,并系统评测 21 个 SOTA MLLM。

切入角度:从国家级标准词典出发——《国家通用手语词典》(教育部 + 国家语委 + 中国残联联合发布)是中国唯一的官方手语标准,由它锚定可以消除方言/非规范变体歧义,得到可控、一致、可复现的语义参考;再把每个词条与 CNSL-DP(厦大 2025 双视角手语视频数据集)的视频对齐,得到文本/图片/视频三模态完全对齐的 lexical-level 基准。

核心 idea:用"权威词典 lexical grounding + 多模态对齐 + manual articulation 细分"三原则构造 4-选-1 选择题基准,把开放式手语理解(当前 MLLM 完全做不了)转化为 closed-form 可控评测,并用 21 个 MLLM × 3 模态 × 3 articulation × 2 视频帧率的密集网格揭示 MLLM 在 sign language understanding 上的系统性失败模式。

方法详解

整体框架

CNSL-bench 构建分两条主线:

  • Lexical grounding:从《国家通用手语词典》8,214 条 gloss 出发,经过 sign-level 预处理(合并相同手部动作的不同 gloss、拆分同 gloss 不同含义/动作的多义条目、保留同义不同动作的多变体),得到 6,707 unique sign entries。
  • 多模态对齐:每个 sign entry 三模态对齐——(1) 词典原始的文字描述;(2) 词典插图;(3) 从 CNSL-DP(Jin et al. 2025)选一段代表性视频(24 fps、512×512 中心裁剪、签字者居中)。
  • Articulation 子集:人工标注 407 条 air-writing、77 条 finger-spelling、592 条 manual-alphabet(基于《中国手指字母方案》),作为 dedicated subset 做细粒度分析。
  • 任务形式:4-way multiple-choice,每题给定一个模态输入 + 一个正确答案 + 3 个随机干扰项(论文也对比了 semantic distractor,结论一致但 random 更易复现)。
  • 规模:6,707 entries × 3 模态 = 20,121 题。
  • 评测:对 21 个 MLLM(含开源 LLaVA-NeXT/Qwen-VL/InternVL-3.5/GLM-4.1V 和闭源 Qwen-Plus/Max、Gemini-2.5、GPT-4o/5)在文本/图片/视频 (2 fps & 10 fps) × AW/FS/MA/All 上跑 zero-shot,并对支持推理的模型测试 fast/slow thinking。

关键设计

  1. 权威词典 lexical grounding + sign-level 去重对齐:

    • 功能:消除方言、地方变体、教学示例引入的歧义,让每道题都有唯一标准答案,是基准 reproducibility 的基础。
    • 核心思路:以教育部 2018《国家通用手语常用词表》+ 中国残联 2019《国家通用手语词典》为 lexical 真相源(这是中国唯一国家级手语标准)。预处理处理三种 redundancy:(i) 不同 gloss 共享相同手势——合并为一条;(ii) 同一 gloss 对应多义(如"安全带"对汽车 vs 飞机不同)——拆为多条;(iii) 同一含义有多个不同手势变体——全部保留。最终 8,214 → 6,707 unique entries。视频侧:CNSL-DP 数据集为每个 sign 提供多 signer 录像,本文选一个 representative;并补回 CNSL-DP 因合并同义词遗漏的同义变体,确保 video 与词典一一对应。
    • 设计动机:手语评测的最大噪声来源是"同一含义有多个 region/dialect 写法",导致 model 答对反被判错或反之。词典 grounding + 三模态严格对齐让基准摆脱了这种 lexical ambiguity,是 CNSL-bench 区别于 WLASL、How2Sign 等无标准化基准的关键。
  2. Manual articulation 三分类细粒度分析(AW / FS / MA):

    • 功能:把手语 articulation 拆成三种 linguistically 不同的子类,让基准能定位"MLLM 强在哪种动作、弱在哪种",而不是只给单一 overall accuracy。
    • 核心思路:基于手语语言学定义三类——(a) Air-writing (AW):空中绘制图形/字符笔画(如"避雷针"在空中画ϟ),需要 spatial trajectory tracking;(b) Finger-spelling (FS):用一只或双手 depict 汉字字形结构(如双手交叉做"北"字状),强调 graphic cue 而非 letter-by-letter spelling;(c) Manual-alphabet (MA):按《中国手指字母方案》映射手势到拼音字母(如"二氧化碳"用 C+O+2 的字母手势组合),需要符号识别 + 组合理解。人工标注 6,707 entries 中 407 AW / 77 FS / 592 MA,作为独立 subset 评测。每个 articulation 在 text/image/video 三模态下都报告独立准确率。
    • 设计动机:实验发现这三类难度差异巨大——所有模型都在 FS 上表现最好(如 GPT-5 FS 文本 97.4%、视频 53.3%),AW 和 MA 显著差。原因:FS 更"离散、字符化",更接近 MLLM 已熟悉的 OCR 任务;AW 是连续 spatial trajectory,MA 是符号 + 组合,都需要 MLLM 不具备的 sign-specific reasoning。这种细分诊断比单一 accuracy 更能指明改进方向。
  3. 三模态对齐评测 + 文本/图片/视频 modality gap 量化:

    • 功能:通过让同一个 sign entry 在三个模态下都被测试,量化 MLLM 的"模态依赖偏倚"——即同一个语义内容在不同模态下模型表现差多少。
    • 核心思路:评测协议规定每道题只用一种模态作为输入(4-way MCQ),其他模态的对齐用于排除"模型靠跨模态偷懒"。视频额外测两种帧率(2 fps 与 10 fps)研究 temporal density 影响。再加 human baseline——邀请 1 位手语语言学教授 + 3 名手语专业学生(含 1 名 Deaf)做人工评测,每人答完一份给 $30 / 2 小时报酬。具体三模态评测发现 modality gap:GPT-5 text 89.6% → image 67.0% → video 56.7%(drop ~33 个百分点),人类 text 96.9% → image 97.4% → video 97.4%(几乎无 drop),说明 modality gap 是 MLLM 独有问题。
    • 设计动机:这是诊断 MLLM 是否真正实现"multimodal alignment"的关键探针。如果 MLLM 在 text 上 89%、video 上 56%,意味着模型主要靠语言先验答题,视觉/时序理解远未达标——这一发现对 MLLM 训练(需要更多手语-视频对齐数据)和评测设计(必须含视频)都有直接指导意义。

损失函数 / 训练策略

本文是评测基准,无训练。评测端固定 temperature=0、max_tokens=2048;reasoning 模型额外测 low/medium/high reasoning effort 三档。人类 baseline 通过专家团队完成。

实验关键数据

主实验(21 MLLM × 文本/图片/视频 × AW/FS/MA/All,accuracy %)

Model Text-All Image-All Video 2fps-All Video 10fps-All FS-Text FS-Video10
GPT-5 (M, slow) 89.64 66.96 53.42 56.72 97.40 53.25
Gemini-2.5-Pro (M, slow) 84.79 61.13 48.32 48.35 94.81 35.06
Gemini-2.5-Flash (slow) 79.95 51.62 42.28 42.63 93.51 32.47
Qwen3-VL-Plus (slow) 76.22 42.41 35.34 36.92 89.61 18.18
GPT-4o 69.03 39.07 31.26 28.43 88.31 23.38
InternVL-3.5-8B 67.53 38.36 32.26 33.59 83.12 36.36
Qwen3-VL-8B-Instruct 67.06 38.39 30.94 33.89 79.22 24.68
GLM-4.1V-9B (slow) 68.24 39.62 28.03 29.75 84.42 24.68
Qwen2.5-VL-3B 60.07 34.26 28.36 30.34 72.73 28.57
Qwen2-VL-2B 43.36 30.62 27.23 27.58 51.95 18.18
LLaVA-NeXT-Video-7B 1.34 12.94 15.43 15.91 2.60 14.29
Random 25.23 24.73 25.03 25.04 27.27 24.67
Human 96.93 97.39 97.39 97.39 97.40 98.70

推理消融(test-time scaling,Reasoning effort L/M/H)

Model Text-All Image-All Video-All 说明
GPT-5 (L) 88.94 66.77 51.89 低推理
GPT-5 (M) 89.64 66.96 53.42 中推理(最强)
GPT-5 (H) 89.95 68.34 53.09 高推理 (text 略升、video 略降)
Gemini-2.5-Pro (L) 81.32 58.09 48.83
Gemini-2.5-Pro (M) 84.79 61.13 48.32
Gemini-2.5-Pro (H) 84.84 61.92 48.17 视频上 high 反而降
Gemini-2.5-Flash fast 73.04 43.57 36.62
Gemini-2.5-Flash slow 79.95 51.62 42.28 平均增益最大 +6.45%
Qwen3-VL-Plus fast 76.68 43.69 33.74
Qwen3-VL-Plus slow 76.22 42.41 35.34 slow thinking 反而掉点

关键发现

  • MLLM 显著落后人类:最强 GPT-5 在 video 模态只有 56.7%,人类 97.4%,gap ~41 个百分点。即便文本模态 GPT-5 也只 89.6% vs 人类 96.9%。
  • 强 modality 失衡:所有模型一致呈现 text >> image > video 的 drop。GPT-5 从文本 89.6% 到视频 56.7% 掉了 33 点,开源模型掉幅更大。说明 MLLM 的 "multimodal alignment" 远未完成,主要靠语言先验。
  • Articulation 不均衡:FS(finger-spelling)一致最容易(GPT-5 FS-text 97.4%),AW 和 MA 显著难。提示 MLLM 对 "离散、字符化" 手势相对擅长,对连续 spatial trajectory + 符号组合无能。
  • CoT 几乎对 video 无效,对 top-tier 模型有 boundary effect:Gemini-2.5-Pro 与 GPT-5 从 low → high reasoning,视频 accuracy 几乎不变甚至下降;Qwen3-VL-Plus slow thinking 反而比 fast 掉点。表明手语视频理解的瓶颈在视觉感知层而非推理层。
  • 推理 token 严重 modality-biased:模型在文本上消耗推理 token 远多于图片/视频,反映出 MLLM "习惯用文本思考",对视觉模态没有充分的内化推理流程。
  • 错误答案的推理链更长:GPT-5-M 在文本上 incorrect/correct 推理长度比 2.89,与人类"难题想得久"行为一致——但这种"想得久"对 video 不带来 accuracy 提升,进一步证实是感知瓶颈。
  • 开源 vs 闭源 gap 在缩小:GLM-4.1V-9B、InternVL-3.5-8B、Qwen3-VL-8B 在多个 subset 上接近甚至超过 GPT-4o-mini / Gemini-2.5-Flash。

亮点与洞察

  • 首次把 MLLM 的"sign language understanding"形式化为可控的 lexical-level MCQ 评测:避开了开放式手语生成(当前 MLLM 几乎完全失败,论文 Figure 9 案例显示连 "今天天气不冷不热" 这种简单句子 Gemini-3-Pro / GPT-5.1 都答不对),用 closed-form 让评测变得 reproducible,是手语 MLLM 评测的范式起点。
  • 三原则 + 三模态 + 三 articulation 的多维设计:让基准不仅给 overall accuracy,还能拆出 "modality gap"、"articulation gap"、"reasoning effect",对 MLLM 改进方向有明确指引——下一步要解决的是 visual perception 不是 reasoning。
  • 国家级标准词典作为 lexical truth:这种"用国家/官方词典做 lexical grounding"的范式对其他低资源语言、专业领域(法律、医学)的 MLLM 评测都有借鉴价值——核心是"用权威 source 消除标准歧义"。
  • CoT 失效 + boundary effect 揭示新方向:test-time scaling 在 video 输入上几乎无效,说明当前 MLLM 的"多模态推理"主要还是 text reasoning + visual perception 串联——视觉感知的瓶颈无法靠 thinking-time 解决,必须从 vision encoder/training data 层面改进。
  • Modality token consumption 视角:第一次量化"模型用多少 token 在不同模态上推理",发现强烈 text bias,给"多模态推理对齐"训练目标提供新维度。

局限与展望

  • 作者承认:(1) 只测 lexical-level(单个手语词),不测开放式句子级 SLT(因为 MLLM 此层面尚未可靠);(2) 只覆盖中国国家手语,未涉及 ASL/PSE/方言变体;(3) MCQ 形式不能完全 capture 开放式理解能力。
  • 额外局限:(1) Random distractor 让题目偏简单,可能高估模型——论文也承认 semantic distractor 更难但结论一致;(2) 视频只测 2 fps 和 10 fps 两档,未系统研究 frame rate × accuracy 曲线;(3) 没测 long video / continuous signing(连续手语序列),现实场景仍未覆盖;(4) 人类 baseline 只 4 人,规模偏小。
  • 改进思路:(1) 拓展到 sentence-level open-ended SLT 评测(待 MLLM 能力提升后);(2) 加入跨语言对比(ASL、BSL、JSL);(3) 用 CNSL-bench 数据做 sign-language-specific instruction tuning 验证是否能缩小 modality gap;(4) 研究 vision encoder 端的改进(如 hand-region 注意力、temporal motion encoder)。

相关工作与启发

  • vs WLASL / MS-ASL / PHOENIX / How2Sign / CSL-Daily:它们是手语识别/翻译的训练数据,没有 MLLM-friendly 的多模态对齐评测协议;CNSL-bench 是首个 dedicated MLLM 评测基准。
  • vs MME / MMMU / Video-MME / SEED-Bench:通用 MLLM 基准侧重 everyday objects/scenes/events,几乎不含手语;CNSL-bench 填补了 sign language 这一专业 modality 的 MLLM 评测空白。
  • vs Sign2GPT / SignLLM / FLa-LLM:它们把 LLM 作为 SLT pipeline 的 decoder/enhancer,本文则评测 MLLM 的 intrinsic 手语理解,是上游的 capability assessment。
  • vs PRACTIQ / BIRD-INTERACT 等专业基准范式:与本笔记同 batch 的 CLARITY 一样,CNSL-bench 也走 "权威 source + 自动构造 + 多维细粒度评测 + 人类基线" 路线,是当代专业基准设计的代表性范例。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个中国国家手语 MLLM 评测基准,权威词典 + 多模态对齐 + articulation 细分三原则原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 21 个 MLLM × 3 模态 × 3 articulation × 2 帧率 + reasoning 消融 + 人类基线 + case study + prompt token / instruction-following 多维诊断
  • 写作质量: ⭐⭐⭐⭐ pipeline 清晰、findings 条理化、case study 直观;可视化(雷达图、KDE)有效
  • 价值: ⭐⭐⭐⭐⭐ 对 MLLM 训练、手语 AI for Deaf community、低资源语言专业评测都有直接推动价值