Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model¶

会议: ACL 2025
arXiv: 2501.05122
代码: gregor-ge.github.io/Centurio
领域: 多模态VLM
关键词: multilingual LVLM, vision-language, training data distribution, OCR, language fidelity

一句话总结¶

系统研究多语言LVLM训练策略中训练语言数量、语言数据分布和多语言OCR三个维度，发现可同时训练100种语言且仅需25-50%非英语数据，据此训练出覆盖100语言的Centurio模型达到SOTA。

研究背景与动机¶

问题定义： 当前大多数LVLM主要使用英语数据训练，导致模型难以理解非英语输入、生成错误语言的输出、无法识别图像中非英语文字。如何在有限训练预算下，设计最优的多语言训练数据配比？

现有方法局限： 已有多语言LVLM工作（如Geigle et al., 2023; Sun et al., 2024; Maaz et al., 2024）在增加多语言数据时采用临时性（ad-hoc）策略，缺乏关于不同训练配比如何影响不同语言组表现的系统性洞察。

核心动机： 训练数据量总是受时间、计算资源和成本限制。在固定训练预算下，需要回答四个核心问题：(RQ1) 可以包含多少种训练语言而不降低英语性能？(RQ2-3) 预训练和指令微调中最优的语言分布是什么？(RQ4) 如何提升多语言图像文字理解能力？

方法详解¶

整体框架¶

采用LLaVA架构，以SigLIP SO400/384为图像编码器、Phi 3.5 (3.8B) 为LLM骨干，通过两层MLP对齐视觉和文本空间。训练分两阶段： 1. 预训练： 在图像描述数据（ShareGPT4v，1.3M样本）上训练 2. 指令微调： 在多样化视觉语言任务数据（LLaVA-Next改编，0.77M样本）上训练

使用NLLB开源机器翻译模型将英语数据翻译为其他语言，评估涵盖13个下游任务和43种语言。

关键设计¶

渐进式语言扩展实验（RQ1）： 从高资源语言组（T5: 6种）逐步扩展到T5-T4（24种）→ T5-T3（52种）→ T5-T2（69种）→ L100（99种），保持总数据量不变，观察性能变化
语言分布搜索（RQ2-3）： 固定语言数为100种，调整英语占比E从1%到90%，寻找最优平衡点。预训练和指令微调分别独立搜索
多语言OCR增强（RQ4）： 引入SMPQA（Synthetic Multilingual Plot QA）基准，覆盖11种语言和7种文字系统，使用Synthdog生成合成OCR训练数据

损失函数¶

标准的自回归语言建模损失（next-token prediction）。各阶段冻结图像编码器，仅更新MLP和LLM参数（LoRA）。OCR训练阶段额外解冻图像编码器。

实验¶

RQ1: 训练语言数量（指令微调阶段，50%英语）¶

训练语言组	T1 (最低资源)	T2	T3	T4	T5	en
English only	14.4	30.4	24.4	23.6	28.5	53.6
T5 (6种)	16.5	31.0	26.3	26.7	34.0	53.7
T5-T4 (24种)	17.4	30.6	27.9	29.6	33.5	51.5
L100 (99种)	19.3	32.6	30.7	28.9	34.4	52.6

RQ2: 指令微调中英语数据占比¶

英语占比	T1	T2	T5	en
1%	19.1	30.3	31.7	48.9
25%	19.7	35.5	33.0	50.3
50%	19.3	32.6	34.4	52.6
90%	15.9	31.2	34.1	54.8

关键发现¶

无"多语言诅咒"： 从7种扩展到100种训练语言，已包含语言的性能几乎不受影响，新增语言获得显著提升，语言保真度（language fidelity）从<1%提升至>95%
少量多语言数据即可生效： 25-50%的非英语数据即可大幅提升多语言能力，更多非英语数据有时反而降低性能
预训练中多语言数据更重要： 多语言预训练对低资源语言（T1/T2）提升尤为显著，英语数据比例从100%降至1%不会显著损害英语性能
OCR数据对非拉丁文字帮助有限： 合成OCR数据对拉丁字母语言效果显著，但对非拉丁文字（阿拉伯语、中文等）仍存在大量性能缺口，可能需要数量级更多的训练数据

亮点¶

迄今最系统的多语言LVLM训练策略研究，覆盖4个研究问题和100种语言
发现"语言暴露比数据量更重要"——少量多语言数据即可激活底层LLM的多语言能力
引入SMPQA基准填补多语言OCR评估空白
最终模型Centurio在14个任务和56种语言上达到SOTA，特别是在低资源语言上显著超越Qwen2-VL和InternVL 2.5
使用Llama 3作为额外骨干验证关键结论的泛化性

局限性¶

多语言训练数据通过机器翻译获得，中低资源语言翻译质量有限，实际效果可能被低估
图像编码器SigLIP对非拉丁文字的视觉表征能力有限，OCR增强效果受制于编码器
计算预算限制使得无法穷举所有组合（如预训练×指令微调的语言分布联合搜索）
仅在LLaVA架构上实验，结论对其他架构的泛化性未验证

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
总体推荐	⭐⭐⭐⭐