Single-to-mix Modality Alignment with Multimodal Large Language Model for Document Image Machine Translation¶

会议: ACL 2025 (Main)
arXiv: 2507.07572
代码: 无
领域: 多模态VLM / 文档翻译
关键词: 文档图像翻译、模态对齐、多模态大语言模型、知识蒸馏、跨域泛化

一句话总结¶

本文提出 M4Doc，一种基于"单模态到混合模态对齐"的文档图像机器翻译框架，在训练阶段利用多模态大语言模型（MLLM）的视觉-文本联合表示来增强轻量级图像编码器，推理时丢弃 MLLM 以保持高效，在跨域泛化和复杂文档场景中取得了显著的翻译质量提升。

研究背景与动机¶

领域现状：文档图像机器翻译（Document Image Machine Translation, DIMT）旨在直接翻译文档图像中的文本，无需显式的 OCR 中间步骤。这类端到端方法避免了 OCR 错误的级联传播，但面临训练数据有限和视觉-文本信息交互复杂两大挑战。现有 DIMT 模型通常基于 CNN 或 ViT 编码器提取图像特征，再通过 Transformer 解码器生成翻译。

现有痛点：现有 DIMT 模型的图像编码器仅学习视觉特征，缺乏对文本语义的深层理解。当遇到训练域之外的文档样式（不同字体、布局、语言对）时，泛化能力显著下降。虽然多模态大语言模型（如 InternVL、Qwen-VL 等）在文档理解上表现优异，但直接用于 DIMT 任务计算成本过高，不适合大规模部署。

核心矛盾：MLLM 拥有强大的视觉-文本联合理解能力但计算代价过大，而轻量级 DIMT 模型效率高但缺乏深层多模态知识。如何让轻量级模型"借到" MLLM 的能力，是提升 DIMT 性能的关键。

本文目标：设计一种框架，在训练阶段利用 MLLM 的多模态表示来增强轻量级 DIMT 模型的编码能力，同时在推理阶段完全不依赖 MLLM，保持计算效率。

切入角度：作者观察到 MLLM 的中间表示隐含了丰富的视觉-文本关联知识（因为 MLLM 在大规模文档数据上预训练过），可以通过对齐学习将这些知识"注入"到轻量级编码器中。这类似于知识蒸馏，但不是蒸馏输出分布，而是对齐中间表示空间。

核心 idea：提出 single-to-mix 模态对齐——将仅处理图像的轻量编码器的表示空间，与 MLLM 处理"图像+文本"混合输入后的联合表示空间对齐，使轻量编码器在仅看到图像时也能产生融合了文本语义的特征。

方法详解¶

整体框架¶

M4Doc 由三个核心组件组成：（1）一个预训练的 MLLM 教师模型，接收文档图像和对应文本作为混合输入，产出多模态表示；（2）一个轻量级的图像编码器（学生），仅接收文档图像作为输入；（3）一个对齐模块，在训练时将学生编码器的输出与教师 MLLM 的多模态表示进行对齐。推理时只保留学生编码器 + Transformer 解码器，完全去掉 MLLM。

关键设计¶

MLLM 教师的多模态表示提取:
- 功能：提供包含视觉和文本语义的"金标准"表示
- 核心思路：将文档图像和对应的源语言文本同时输入预训练的 MLLM（如基于 InternVL 或类似架构），提取其中间层的隐藏状态作为教师表示。这些表示编码了图像布局信息、文本内容、以及两者之间的细粒度对应关系。MLLM 已在大规模文档数据上预训练，其表示蕴含了丰富的跨模态关联知识
- 设计动机：直接用图像编码器学习视觉-文本对齐是困难的（需要大量平行数据），而 MLLM 已经学到了这种对齐，可以作为"知识源"传递给轻量模型
Single-to-Mix 模态对齐模块:
- 功能：将仅看到图像的编码器的表示空间拉近到 MLLM 的混合模态表示空间
- 核心思路：设计一个投影层（project head），将图像编码器输出映射到与 MLLM 表示相同的维度空间。训练时，用 MSE 或余弦相似度损失将两个空间对齐。关键创新在于对齐的是"单模态（图像）→ 混合模态（图像+文本）"这一非对称映射，而非传统的同模态对齐。这意味着图像编码器被迫学会从图像中"补全"缺失的文本语义信息
- 设计动机：传统知识蒸馏对齐输出分布，但 DIMT 的输出是翻译文本，直接蒸馏输出在 sequence-to-sequence 任务中效果有限。对齐中间表示更灵活，且可以利用 MLLM 表示中的结构化知识
推理阶段的 MLLM 旁路设计:
- 功能：保持推理效率
- 核心思路：训练完成后，MLLM 教师完全从推理管线中移除，只保留已对齐的轻量图像编码器 + Transformer 翻译解码器。由于训练阶段的对齐学习，图像编码器已经"内化"了 MLLM 的多模态知识，推理时不需要再访问 MLLM
- 设计动机：MLLM 通常有数十亿参数，推理成本是轻量 DIMT 模型的数十到数百倍。旁路设计使得最终部署模型的大小和速度与不使用 MLLM 的基线模型相当

损失函数 / 训练策略¶

训练使用两个损失函数的加权组合：（1）翻译损失——标准的 cross-entropy 损失，监督 Transformer 解码器生成正确翻译；（2）对齐损失——编码器输出与 MLLM 教师表示之间的距离损失（如 MSE 或 cosine similarity loss），权衡系数控制两个目标的平衡。训练分为预热阶段（固定编码器，仅训练对齐投影层）和联合微调阶段。

实验关键数据¶

主实验¶

数据集/方向	指标	M4Doc	基线 (无对齐)	此前 SOTA	提升
域内 (Zh→En)	BLEU	最优	基线	竞争力	+2-3 BLEU
跨域 (Zh→En)	BLEU	显著提升	明显下降	中等	+5-8 BLEU
域内 (En→De)	BLEU	最优	基线	竞争力	+1-2 BLEU
复杂布局文档	BLEU	显著提升	大幅下降	中等	提升明显

消融实验¶

配置	跨域 BLEU	说明
Full M4Doc	最优	完整对齐框架
w/o 对齐损失	下降显著	退化为普通 DIMT 模型
仅图像-图像对齐	下降	同模态对齐不如 single-to-mix 有效
仅文本-文本对齐	下降	缺少视觉信息的传递
使用更小 MLLM	轻微下降	教师模型越强效果越好
冻结编码器	明显下降	编码器需要联合微调才能充分吸收知识

关键发现¶

跨域泛化是最大亮点：M4Doc 在跨域测试（训练和测试的文档类型不同）上的提升远大于域内，BLEU 提升可达 5-8 分，说明 MLLM 的多模态知识有效提升了编码器的鲁棒性
Single-to-mix 优于同模态对齐：将单图像表示对齐到 MLLM 的图像+文本混合表示，比对齐到 MLLM 的纯图像表示效果更好，验证了"让编码器学会补全文本语义"的核心假设
推理零额外成本：由于 MLLM 在推理时被完全丢弃，M4Doc 的推理速度和基线模型完全一致
复杂文档场景受益最大：在包含图表、公式、特殊字体等复杂元素的文档上，M4Doc 的优势更加明显

亮点与洞察¶

训练时蒸馏、推理时丢弃的范式：这种"训练期借用大模型、推理期保持轻量"的模式非常实用，可以直接迁移到其他需要部署效率的多模态任务中（如文档问答、视觉翻译等）
非对称模态对齐：从"少模态"对齐到"多模态"这一创新思路，本质上是让模型学会从有限信息中推理出更丰富的语义。这种思想在盲人视觉辅助、低分辨率图像理解等任务中也可能有用
MLLM 作为通用知识源：不是直接用 MLLM 做任务，而是用它的表示来增强专用模型，这是当前大模型落地的一个重要方向

局限与展望¶

对齐效果依赖于 MLLM 教师的质量，如果 MLLM 在某些文档类型上表示较差，学生也无法受益
训练阶段需要额外运行 MLLM 提取教师表示，增加了训练成本（虽然可以预计算）
当前实验主要在中英、英德等高资源语言对上进行，对低资源语言的效果未知
仅验证了 encoder-decoder 架构的 DIMT 模型，未探索 decoder-only 架构是否也能受益
未来可以扩展到手写文档、扫描文档、多语言混合文档等更复杂场景

评分¶

新颖性: ⭐⭐⭐⭐ single-to-mix 模态对齐是一个有启发性的新概念
实验充分度: ⭐⭐⭐⭐ 多语言对、跨域测试、详细消融，实验设计系统
写作质量: ⭐⭐⭐⭐ 框架描述清晰，动机推导合理
价值: ⭐⭐⭐⭐ 提出的范式可广泛迁移，对文档 AI 领域有实际价值