Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation¶

会议: ACL 2025
arXiv: 2502.19941
代码: https://github.com/NJUNLP/njuqe
领域: 多语言翻译
关键词: Quality Estimation, 分布偏移, 合成数据, MQM标注, 翻译质量评估

一句话总结¶

提出 DCSQE 框架，通过约束波束搜索生成更真实的合成翻译、利用独立的标注模型纠正标签偏差、以及 SPCE 算法将 token 级标签聚合为短语级标签，有效缓解合成 QE 数据的分布偏移问题，在有监督和无监督设置下均超越 CometKiwi 等 SOTA 基线。

研究背景与动机¶

翻译质量评估（QE）旨在不依赖参考译文的情况下评估机器翻译质量，可被视为翻译任务的奖励模型。MQM（多维质量度量）标注是当前 QE 的主流标准，能提供细粒度的错误跨度和严重程度信息，但人工标注成本极高，数据集规模小且语种覆盖有限。

为解决数据稀缺问题，已有工作尝试从平行语料生成合成 MQM 数据。然而，现有方法面临严重的分布偏移问题：

MQMQE 方法：通过随机遮蔽参考译文中的片段并用翻译模型负采样替换，生成的合成翻译流畅度差；且使用同一翻译模型标注自身输出时存在过度自信问题，标签与人类偏好不对齐。

InstructScore 方法：利用 GPT-4 提示生成错误，虽然翻译流畅但生成的错误不自然，且使用闭源 LLM 成本高昂。

这些问题不仅降低 QE 性能，还影响下游的人类偏好优化效果。

方法详解¶

整体框架¶

DCSQE（Distribution-Controlled Data Synthesis for QE）框架包含两个核心环节：生成更真实的合成翻译和标注更准确的合成标签。

首先训练两个独立的翻译模型：Generator（生成器）和 Annotator（标注器）。Generator 用约束波束搜索生成合成翻译；Annotator 用生成概率对标签进行细粒度修正。

关键设计¶

1. 约束波束搜索（CBS）生成合成翻译

与标准波束搜索不同，CBS 在生成时保留参考译文中生成概率超过阈值的 token，避免生成同义替换，使错误更自然。CBS 保留了参考译文的主体结构，产生的翻译错误更接近真实翻译模型产生的错误。

2. 模型多样性增强

为提高合成翻译多样性，作者在不同的平行语料子集上训练多个 Generator（如 L 和 L'），使其产生风格不同但性能相近的翻译输出。实验中两个生成器在 Flores-200 上的 BLEU 仅为 80.06，说明存在明显多样性。

3. 粗粒度标签：TER 对齐

使用 TER 工具将合成翻译与参考译文进行词级对齐，匹配部分标记为"OK"，不匹配部分标记为"BAD"。

4. 细粒度标签：Annotator 修正

对 TER 标记为"BAD"的 token，使用独立的 Annotator 模型的生成概率进行重新判定。通过设定三个有序阈值（tMINOR, tMAJOR, tCRITICAL），将生成概率映射为 MINOR/MAJOR/CRITICAL/OK 四个严重级别。

关键洞察：同一模型不能准确标注自身输出。翻译模型对自己的输出过度自信，导致错误标签比例极低（仅 0.11%-1.60%）。因此必须使用独立的 Annotator。

5. 利用监督信号增强 Annotator

确保 Annotator 在用于合成数据生成的平行语料上训练过，使其对这些数据具有专业级标注能力。

6. SPCE 算法（最短短语覆盖错误）

人类标注者倾向于标注完整短语而非零散 token。SPCE 算法通过依存句法树实现 token 级到短语级的聚合： - 对连续 BAD token 构建候选集 - 在依存树上找最低公共祖先（LCA） - 补全路径上的 token 和中间 token - 迭代直到候选集稳定 - 短语的严重程度取候选 token 中最严重的级别

损失函数 / 训练策略¶

QE 模型基于 XLM-R-Large 骨干网络，训练目标结合句子级 MSE 回归损失和词级交叉熵分类损失。有监督设置下先在合成数据上预训练再在真实数据上微调；无监督设置仅使用合成数据训练。

推理时通过比较"OK"概率与不同阈值来确定错误严重程度，连续"BAD" token 组成跨度，严重程度取跨度内最严重等级。

实验关键数据¶

主实验¶

在 WMT QE Shared Task 数据集上评估，涵盖 EN-DE、ZH-EN、HE-EN 三个语言方向：

有监督设置： - DCSQE 在 WMT23 EN-DE 上达到 Spearman 43.17（CometKiwi 40.47），MCC 27.11 vs 21.50 - ZH-EN 上 Spearman 46.41 vs CometKiwi 40.35 - 平均比 CometKiwi 高 4.38（Spearman）、3.41（MCC），尽管参数量更少 - 显著超越基于 GPT-4 的 GEMBA-MQM

无监督设置： - MQMQE 和 InstructScore 性能平均下降 15.74 和 7.64 - DCSQE 仅下降 6.64，鲁棒性最佳 - HE-EN 上无监督 DCSQE（56.46 Spearman）超越有监督 CometKiwi（55.00）

消融实验¶

在 WMT23 EN-DE 无监督设置下： - 完整 DCSQE：Spearman 35.78, MCC 18.00 - 移除 SPCE：Spearman 30.99, MCC 15.70（下降明显） - 同时移除 SPCE 和 Annotator：Spearman 进一步下降

模型自标注 vs 独立标注实验： - M 标注 M（自标注）：错误率仅 1.60%，Spearman 25.91 - M 生成 + L 标注（独立标注）：错误率 19.23%，Spearman 35.78

关键发现¶

分布偏移是合成 QE 数据的核心问题：DCSQE 从翻译和标签两方面缓解分布偏移
模型不能公正标注自身输出：自标注导致过度自信和大量假阴性
Generator 多样性有益：L+L' 双生成器比单 L 提升约 1 Spearman
Generator 能力需要平衡：太强（错误少）或太弱（错误不真实）都不好，中等能力 M 最优
Annotator 能力越强越好：利用监督信号和扩大训练语料均有效
生成效率远超 InstructScore：DCSQE 速度是 InstructScore 的 14.29 倍

亮点与洞察¶

将 QE 模型定位为翻译任务的奖励模型，对分布偏移问题的分析视角独到
Generator 和 Annotator 分离的设计思路可推广到其他合成数据场景
SPCE 算法巧妙利用依存句法实现 token→phrase 聚合，符合人类标注习惯
系统的控制变量实验（固定 Similarity 变 Error Rate / 固定 Error Rate 变 Similarity）提供了清晰的因果分析

局限与展望¶

未探索使用 LLM（如 GPT-4）作为 Annotator 的效果（受算力限制）
在极端数据稀缺场景（无平行语料）下的鲁棒性需验证
合成 QE 数据的洞察对通用奖励模型的迁移价值有待进一步探索
Generator 能力平衡的最优点需要针对具体语言对调优

评分¶

新颖性: 7/10 — 将分布偏移问题系统化分解为翻译分布和标签分布两个维度
技术深度: 8/10 — 实验设计精细，控制变量分析充分
实用性: 8/10 — 方法实用且效率高，已开源
写作质量: 8/10 — 逻辑清晰，分析全面