Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation¶
会议: ACL 2025 (Main)
arXiv: 2507.07572
代码: 无
领域: 多模态VLM / 文档翻译
关键词: 文档图像翻译、模态对齐、多模态大语言模型、知识蒸馏、跨域泛化
一句话总结¶
本文提出 M4Doc,一种基于"单模态到混合模态对齐"的文档图像机器翻译框架,在训练阶段利用多模态大语言模型(MLLM)的视觉-文本联合表示来增强轻量级图像编码器,推理时丢弃 MLLM 以保持高效,在跨域泛化和复杂文档场景中取得了显著的翻译质量提升。
研究背景与动机¶
领域现状:文档图像机器翻译(Document Image Machine Translation, DIMT)旨在直接翻译文档图像中的文本,无需显式的 OCR 中间步骤。这类端到端方法避免了 OCR 错误的级联传播,但面临训练数据有限和视觉-文本信息交互复杂两大挑战。现有 DIMT 模型通常基于 CNN 或 ViT 编码器提取图像特征,再通过 Transformer 解码器生成翻译。
现有痛点:现有 DIMT 模型的图像编码器仅学习视觉特征,缺乏对文本语义的深层理解。当遇到训练域之外的文档样式(不同字体、布局、语言对)时,泛化能力显著下降。虽然多模态大语言模型(如 InternVL、Qwen-VL 等)在文档理解上表现优异,但直接用于 DIMT 任务计算成本过高,不适合大规模部署。
核心矛盾:MLLM 拥有强大的视觉-文本联合理解能力但计算代价过大,而轻量级 DIMT 模型效率高但缺乏深层多模态知识。如何让轻量级模型"借到" MLLM 的能力,是提升 DIMT 性能的关键。
本文目标:设计一种框架,在训练阶段利用 MLLM 的多模态表示来增强轻量级 DIMT 模型的编码能力,同时在推理阶段完全不依赖 MLLM,保持计算效率。
切入角度:作者观察到 MLLM 的中间表示隐含了丰富的视觉-文本关联知识(因为 MLLM 在大规模文档数据上预训练过),可以通过对齐学习将这些知识"注入"到轻量级编码器中。这类似于知识蒸馏,但不是蒸馏输出分布,而是对齐中间表示空间。
核心 idea:提出 single-to-mix 模态对齐——将仅处理图像的轻量编码器的表示空间,与 MLLM 处理"图像+文本"混合输入后的联合表示空间对齐,使轻量编码器在仅看到图像时也能产生融合了文本语义的特征。
方法详解¶
整体框架¶
M4Doc 由三个核心组件组成:(1)一个预训练的 MLLM 教师模型,接收文档图像和对应文本作为混合输入,产出多模态表示;(2)一个轻量级的图像编码器(学生),仅接收文档图像作为输入;(3)一个对齐模块,在训练时将学生编码器的输出与教师 MLLM 的多模态表示进行对齐。推理时只保留学生编码器 + Transformer 解码器,完全去掉 MLLM。
关键设计¶
-
MLLM 教师的多模态表示提取:
- 功能:提供包含视觉和文本语义的"金标准"表示
- 核心思路:将文档图像和对应的源语言文本同时输入预训练的 MLLM(如基于 InternVL 或类似架构),提取其中间层的隐藏状态作为教师表示。这些表示编码了图像布局信息、文本内容、以及两者之间的细粒度对应关系。MLLM 已在大规模文档数据上预训练,其表示蕴含了丰富的跨模态关联知识
- 设计动机:直接用图像编码器学习视觉-文本对齐是困难的(需要大量平行数据),而 MLLM 已经学到了这种对齐,可以作为"知识源"传递给轻量模型
-
Single-to-Mix 模态对齐模块:
- 功能:将仅看到图像的编码器的表示空间拉近到 MLLM 的混合模态表示空间
- 核心思路:设计一个投影层(project head),将图像编码器输出映射到与 MLLM 表示相同的维度空间。训练时,用 MSE 或余弦相似度损失将两个空间对齐。关键创新在于对齐的是"单模态(图像)→ 混合模态(图像+文本)"这一非对称映射,而非传统的同模态对齐。这意味着图像编码器被迫学会从图像中"补全"缺失的文本语义信息
- 设计动机:传统知识蒸馏对齐输出分布,但 DIMT 的输出是翻译文本,直接蒸馏输出在 sequence-to-sequence 任务中效果有限。对齐中间表示更灵活,且可以利用 MLLM 表示中的结构化知识
-
推理阶段的 MLLM 旁路设计:
- 功能:保持推理效率
- 核心思路:训练完成后,MLLM 教师完全从推理管线中移除,只保留已对齐的轻量图像编码器 + Transformer 翻译解码器。由于训练阶段的对齐学习,图像编码器已经"内化"了 MLLM 的多模态知识,推理时不需要再访问 MLLM
- 设计动机:MLLM 通常有数十亿参数,推理成本是轻量 DIMT 模型的数十到数百倍。旁路设计使得最终部署模型的大小和速度与不使用 MLLM 的基线模型相当
损失函数 / 训练策略¶
训练使用两个损失函数的加权组合:(1)翻译损失——标准的 cross-entropy 损失,监督 Transformer 解码器生成正确翻译;(2)对齐损失——编码器输出与 MLLM 教师表示之间的距离损失(如 MSE 或 cosine similarity loss),权衡系数控制两个目标的平衡。训练分为预热阶段(固定编码器,仅训练对齐投影层)和联合微调阶段。
实验关键数据¶
主实验¶
| 数据集/方向 | 指标 | M4Doc | 基线 (无对齐) | 此前 SOTA | 提升 |
|---|---|---|---|---|---|
| 域内 (Zh→En) | BLEU | 最优 | 基线 | 竞争力 | +2-3 BLEU |
| 跨域 (Zh→En) | BLEU | 显著提升 | 明显下降 | 中等 | +5-8 BLEU |
| 域内 (En→De) | BLEU | 最优 | 基线 | 竞争力 | +1-2 BLEU |
| 复杂布局文档 | BLEU | 显著提升 | 大幅下降 | 中等 | 提升明显 |
消融实验¶
| 配置 | 跨域 BLEU | 说明 |
|---|---|---|
| Full M4Doc | 最优 | 完整对齐框架 |
| w/o 对齐损失 | 下降显著 | 退化为普通 DIMT 模型 |
| 仅图像-图像对齐 | 下降 | 同模态对齐不如 single-to-mix 有效 |
| 仅文本-文本对齐 | 下降 | 缺少视觉信息的传递 |
| 使用更小 MLLM | 轻微下降 | 教师模型越强效果越好 |
| 冻结编码器 | 明显下降 | 编码器需要联合微调才能充分吸收知识 |
关键发现¶
- 跨域泛化是最大亮点:M4Doc 在跨域测试(训练和测试的文档类型不同)上的提升远大于域内,BLEU 提升可达 5-8 分,说明 MLLM 的多模态知识有效提升了编码器的鲁棒性
- Single-to-mix 优于同模态对齐:将单图像表示对齐到 MLLM 的图像+文本混合表示,比对齐到 MLLM 的纯图像表示效果更好,验证了"让编码器学会补全文本语义"的核心假设
- 推理零额外成本:由于 MLLM 在推理时被完全丢弃,M4Doc 的推理速度和基线模型完全一致
- 复杂文档场景受益最大:在包含图表、公式、特殊字体等复杂元素的文档上,M4Doc 的优势更加明显
亮点与洞察¶
- 训练时蒸馏、推理时丢弃的范式:这种"训练期借用大模型、推理期保持轻量"的模式非常实用,可以直接迁移到其他需要部署效率的多模态任务中(如文档问答、视觉翻译等)
- 非对称模态对齐:从"少模态"对齐到"多模态"这一创新思路,本质上是让模型学会从有限信息中推理出更丰富的语义。这种思想在盲人视觉辅助、低分辨率图像理解等任务中也可能有用
- MLLM 作为通用知识源:不是直接用 MLLM 做任务,而是用它的表示来增强专用模型,这是当前大模型落地的一个重要方向
局限与展望¶
- 对齐效果依赖于 MLLM 教师的质量,如果 MLLM 在某些文档类型上表示较差,学生也无法受益
- 训练阶段需要额外运行 MLLM 提取教师表示,增加了训练成本(虽然可以预计算)
- 当前实验主要在中英、英德等高资源语言对上进行,对低资源语言的效果未知
- 仅验证了 encoder-decoder 架构的 DIMT 模型,未探索 decoder-only 架构是否也能受益
- 未来可以扩展到手写文档、扫描文档、多语言混合文档等更复杂场景
相关工作与启发¶
- vs 传统 DIMT 方法:传统方法仅用图像编码器提取视觉特征,缺乏文本语义理解。M4Doc 通过 MLLM 对齐补充了这一缺陷,尤其在跨域场景中优势明显
- vs 直接使用 MLLM:直接用 MLLM 做 DIMT 虽然效果好但推理成本过高,M4Doc 通过训练阶段的知识转移实现了"性能近似、成本持平"的折中
- vs 传统知识蒸馏:传统蒸馏对齐输出分布(soft labels),M4Doc 对齐中间表示空间,在 seq2seq 任务中更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ single-to-mix 模态对齐是一个有启发性的新概念
- 实验充分度: ⭐⭐⭐⭐ 多语言对、跨域测试、详细消融,实验设计系统
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机推导合理
- 价值: ⭐⭐⭐⭐ 提出的范式可广泛迁移,对文档 AI 领域有实际价值