Target-Side Paraphrase Augmentation for Sign Language Translation with Large Language Models¶

会议: CVPR 2026
arXiv: 2605.31393
代码: 无（论文称代码与数据集匿名公开，待 review 后释出）
领域: 手语翻译 / 数据增强 / LLM
关键词: 手语翻译, 目标端释义增强, GPT-4o, 两阶段训练, LLM-as-a-Judge

一句话总结¶

针对手语翻译数据稀缺的问题，本文不增强手语视频侧，而是用 GPT-4o 把每条参考译文改写成多条语义保真的释义、构成"目标端增强"语料，配合"先在增强语料预训练、再回到原始参考微调"的两阶段训练，让 PHOENIX14T 的 BLEU-4 从 9.56 提到 10.33，并用 LLM-as-a-Judge 揭示出 BLEU 低估了语义保真度上 +45% 的真实提升。

研究背景与动机¶

领域现状：手语翻译（Sign Language Translation, SLT）把手语视频映射成口语文本，横跨 CV 与 NLP。主流做法从早期"视频→gloss→文本"的两阶段管线，转向"视频直接→文本"的 gloss-free 路线，普遍基于 Transformer 编码器-解码器，并出现了 Sign2GPT、Signformer 等轻量高效架构。

现有痛点：SLT 的根本瓶颈是配对语料极度稀缺——成对的"手语视频/译文"很难大规模采集；同时目标词表呈重尾分布，大量词只出现寥寥几次（如本文 LSA-T 数据集 50% 是只出现一次的单例词）。数据少 + 长尾，解码器很容易记住训练集里那一种固定表述，泛化不出来。

核心矛盾：低资源机器翻译里数据增强是标配，但在 SLT 里增强几乎都做在手语侧（用手语生成模型、姿态扰动造更多视频）。手语侧增强工程代价大、且生成质量难保证；而真正廉价、却一直被忽视的是文本侧——同一段手语内容，口语本来就有多种合法的表述方式，但每条样本只给了解码器一个参考答案。

本文目标：在不动手语输入的前提下，给解码器多暴露几种"同义不同表面形式"的目标文本，从而缓解过拟合单一表述；并搞清楚这种增强在什么样的语料上有效、什么样的语料上无效。

切入角度：既然 LLM（GPT-4o）已经很会做语义保真的释义改写，那就让它为每条参考译文批量生成可控释义，把"一对一"的监督变成"一对多"，相当于免费给解码器灌入了多种合法的口语实现方式。

核心 idea：用 LLM 做目标端释义增强（手语固定、改写译文）+ 两阶段训练（先在释义扩增语料上预训练、再在原始参考上微调收敛回参考风格），并首次把 LLM-as-a-Judge 引入 SLT 评测，揭示词面重叠指标（BLEU）系统性低估了语义层面的真实增益。

方法详解¶

整体框架¶

方法本身不碰手语识别模型，骨架沿用 Signformer 风格的姿态版编码器-解码器 Transformer：MediaPipe Holistic 从每帧抽出 33 个身体关键点、左右各 21 个手部关键点和一部分面部关键点，拼成每帧特征向量，经线性投影喂进编码器（替代原版 CNN 帧 token），解码器自回归生成目标语言文本。这套姿态表征强调发音性的运动、压掉背景与光照变化，换来轻量可控的实验平台——本文要研究的不是"识别更准"，而是"在同一骨架下，加不加增强差多少"。

真正的贡献链是三步：① 离线用 GPT-4o 给每条参考译文 \(T\) 生成 3 条释义 \(T_1', T_2', T_3'\)，并用表面相似度过滤掉跑题或近乎复制的变体；② 训练阶段一在"原句 + 保留下来的释义"扩增语料上预训练，把解码器的输出分布撑宽；③ 训练阶段二只在原始参考上微调，把分布重新收敛回参考的措辞风格，但保留阶段一获得的更广词汇暴露。推理时模型照常从手语姿态直接翻译成文本。最后用 GPT-5.2 当裁判，对译文打语义保真分，补上 BLEU 看不到的那部分增益。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频-译文对 (V, T)"] --> B["目标端 LLM 释义增强<br/>GPT-4o 生成 T1' T2' T3'"]
    B --> C["表面相似度过滤<br/>0.3 ≤ s̄ ≤ 0.95"]
    C --> D["阶段一：在增强语料上预训练<br/>原句 + 释义，撑宽解码分布"]
    D --> E["阶段二：仅在原始参考上微调<br/>收敛回参考措辞风格"]
    E --> F["推理：手语姿态 → 文本"]
    F --> G["LLM-as-a-Judge 语义评测<br/>GPT-5.2 打保真分"]

关键设计¶

1. 目标端 LLM 释义增强：固定手语、只改译文，把一对一监督变成一对多

针对"每条样本只给解码器一种参考表述、容易记死模板"的痛点。对每个视频-句子对 \((V, T)\)，用 GPT-4o 生成 \(N=3\) 条释义 \(T_1', T_2', T_3'\)，要求保持原意的同时允许受控的词汇与句法变化；prompt 强制输出结构化 JSON，并显式要求保留时态、语域和命题内容（不能把"天气由低压区决定"改写成意思偏移的句子）。训练时每条样本被物化成 4 个实例：\((V,T)\)、\((V,T_1')\)、\((V,T_2')\)、\((V,T_3')\)——手语输入完全不变，变的只是它对应的合法口语表述。这样解码器看到的是"同一段手语 → 多种可接受的表面实现"，被迫学习语义而非死记某一句模板。这与以往 SLT 增强都做在手语侧形成对照：文本侧改写几乎零额外采集成本，且 LLM 的释义质量远高于早期基于启发式规则的 gloss-to-text 改写。

2. 表面相似度过滤：用上下界卡住"既不跑题、也不照抄"的释义

LLM 释义有两种失败模式——改得太狠导致语义漂移，或改得太轻几乎是原句复制。本文用四种表面相似度度量的均值来过滤：字符级 Jaccard、词级 Jaccard、归一化 Levenshtein、trigram 重叠，记为 \(\bar{s}(T, T_i')\)。只保留落在区间内的变体：

\[0.3 \le \bar{s}(T, T_i') \le 0.95\]

且无条件丢弃完全重复的句子。下界 \(0.3\) 把和原句相似度过低（很可能意思已经变了）的变体拒掉；上界 \(0.95\) 把几乎是原句复制、增强不出新信息的近似副本去掉。注意这是个纯表面形式的过滤器，便宜、可解释，目的是控制释义的"改写幅度"落在有用区间，而不是去判断语义是否正确（语义正确性交给 prompt 约束和后面的 LLM 裁判）。

3. 两阶段训练：先用增强语料撑宽分布，再用原始参考收敛回风格

如果直接把释义混进训练集一锅炖，解码器的输出分布会被释义的多样措辞带偏，推理时反而生成出和参考风格不一致的句子（在单参考 BLEU 下要吃亏）。本文把训练拆成两段：阶段一在增强语料（原句 + 每条 3 个释义）上预训练，让解码器接触到更宽的词汇与句式分布；阶段二只在原始参考上微调，把分布重新对齐到参考的措辞风格，同时不丢掉阶段一获得的更广词汇暴露。作者强调这个两阶段调度是方法的核心——预训练负责"撑宽"，微调负责"回中"，两者缺一则要么风格跑偏、要么没吃到增强红利。两个条件（baseline 与 +Augmentation）共用完全相同的超参、teacher forcing + 交叉熵、warm-up-and-decay 学习率、label smoothing 与按验证损失早停，保证对比公平。

4. LLM-as-a-Judge 语义评测：补上 BLEU 看不见的语义增益

增强鼓励模型接受"多种合法实现"，但 BLEU 只奖励与单一参考的词面重叠——一个语义正确但用词不同的译文会被 BLEU 惩罚，造成"BLEU 涨得少 ≠ 实际没进步"的方法学错配。为此本文首次在 SLT 上引入 LLM-as-a-Judge：用 GPT-5.2 给译文的语义保真度与语言质量打分。这条评测之所以成立，是因为既有工作表明 LLM 裁判与人类偏好高度一致、LLM 翻译评测器与人工判断有竞争力的相关性。作者也诚实地标注了局限：裁判（GPT-5.2）与增强生成器（GPT-4o）虽架构不同，但可能共享训练血统、引入潜在对齐偏置，故语义打分应作为补充证据、理想情况下还需人工验证。

损失函数 / 训练策略¶

两个条件都用标准的 teacher forcing + token 级交叉熵；学习率采用 warm-up 后衰减；加 label smoothing；按验证损失早停。+Augmentation 条件的唯一区别是前面多一段在增强语料上的预训练（阶段一），随后在原始参考上微调（阶段二），且阶段一/二与 baseline 共用同一套超参与早停设置。

实验关键数据¶

主实验¶

在三个互补难度的数据集上测 case-insensitive BLEU-4：

数据集（手语→目标语言）	Baseline BLEU-4	+Augmentation	变化
PHOENIX14T（DGS→德语）	9.56	10.33	+0.77
GSL（希腊手语→希腊语）	94.38	92.22	−2.16
LSA-T（阿根廷手语→西班牙语）	1.18	1.19	+0.01

三个数据集的语料特性差异是理解结果的关键：

统计量	PHOENIX14T	GSL	LSA-T
真实场景拍摄	是	否	是
唯一句子占比	79.93%	3.21%	95.79%
词表规模	2,887	N/A	14,239
单例词占比	37.3%	0%	50.21%

PHOENIX14T 处于"中等词汇多样性"的甜区，释义暴露让解码器跳出记住的模板、泛化更好，BLEU +0.77；GSL 是高度受控、句子高度重复的录制（仅 3.21% 唯一句子、BLEU 基线已近饱和 94.38），增强只会让模型生成"语义正确但用词不同"的句子，被单参考 BLEU 惩罚而略掉到 92.22；LSA-T 长尾极端稀疏（50% 单例词、基线仅 ~1.2 BLEU），瓶颈在手语侧数据稀缺，目标端改写无能为力，两条件几乎不变。

语义评测（LLM-as-a-Judge, GPT-5.2）¶

数据集	Baseline	Augmented	变化
PHOENIX14T	2.51	3.65	+45.0%
GSL	7.72	8.77	+13.6%

在 PHOENIX14T 上，语义保真度从 2.51 升到 3.65（+45%），"流畅但错误"的译文占比从 54.8% 降到 35.5%，成对偏好以 52.9% vs 13.1% 压倒性偏向增强版；GSL 即便词面指标近饱和，语义分仍从 7.72 升到 8.77（+13.6%）。这印证了核心论点：BLEU 的小幅变化严重低估了语义层面的真实提升。

关键发现¶

增强不是普惠的：效果强烈取决于语料在"程式化 ↔ 长尾稀疏"光谱上的位置——中等多样性（PHOENIX14T）受益最大，近饱和（GSL）和极端稀疏（LSA-T）都几乎或反而吃亏。
BLEU 与语义评测背离：GSL 上 BLEU 掉 2.16，但语义分反升 13.6%，直接暴露了单参考词面指标在"接受多种合法表述"场景下的失效。
目标端增强治不了手语侧稀疏：LSA-T 的瓶颈是手语视频数据本身太少且长尾，改写译文这一侧动作完全帮不上忙。

亮点与洞察¶

换个方向做增强：SLT 增强长期默认做在难、贵的手语视频侧；本文指出文本侧才是近乎零成本的入口——手语固定、只改译文，把一对一监督变一对多，这个视角切换本身就很巧。
两阶段调度是点睛：用"预训练撑宽 + 微调回中"解决了"释义多样性会把解码器风格带偏"的隐患，让增强的红利落袋而不损害参考风格对齐，是可迁移到任何低资源 MT 的训练 trick。
诚实地用评测拆穿指标：作者没有粉饰 GSL 上 BLEU 下降，而是顺势引入 LLM-as-a-Judge 证明那是"BLEU 的错、不是模型的错"，并主动承认裁判与生成器同源可能带来偏置——这种把负结果转成洞察的写法值得学。
可迁移性：表面相似度上下界过滤释义（卡住"既不跑题也不照抄"）是个通用、便宜、可解释的数据清洗器，任何 LLM 造数据的低资源任务都能直接复用。

局限与展望¶

作者承认的局限：增强对长尾稀疏（LSA-T）和近饱和（GSL）语料无效甚至有害，只在中等多样性语料上有正收益；姿态版骨架本身可能弱于图像版模型，绝对 BLEU 偏低。
评测可信度存疑：裁判 GPT-5.2 与增强生成器 GPT-4o 可能共享训练血统，语义打分只能作为补充证据，理想情况下需人工验证。
自己发现的局限：PHOENIX14T 的绝对增益其实很小（BLEU 9.56→10.33），且只在一个"甜区"数据集上成立，结论的普适性有限；单参考 BLEU 的天然缺陷意味着该方法在标准 benchmark 上很难"看起来很强"。
改进思路：作者建议把目标端文本增强与手语侧增强结合、改用多参考评测、并用开源 LLM 替换 GPT-4o，以判清增益究竟来自"增强原理本身"还是"特定生成器的能力"。

评分¶

新颖性: ⭐⭐⭐⭐ 首次把 LLM 目标端释义增强 + LLM-as-a-Judge 引入 SLT，方向切换巧但单项技术较朴素
实验充分度: ⭐⭐⭐⭐ 三个互补难度数据集 + 语义评测交叉验证，结论分层清晰；但绝对增益小、缺多参考与人工评测
写作质量: ⭐⭐⭐⭐⭐ 论点诚实、负结果转洞察、语料特性与结果对应讲得很透
价值: ⭐⭐⭐⭐ 提供了低成本、可迁移的目标端增强配方与"BLEU 低估语义"的有力证据，对低资源 SLT/MT 实用