Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models¶
会议: NeurIPS 2025
arXiv: 2506.20168
代码: https://huggingface.co/datasets/bytedance-research/KIE-HVQA (数据集公开)
领域: 多模态VLM
关键词: OCR幻觉, 文档理解, 强化学习, GRPO, 视觉退化
一句话总结¶
针对多模态大模型在退化文档场景下的OCR幻觉问题,提出首个退化文档幻觉评测基准KIE-HVQA,并设计基于GRPO的多目标奖励强化学习框架,在7B参数模型上实现比GPT-4o高约28%的幻觉抑制准确率提升。
研究背景与动机¶
多模态大语言模型(MLLM)在文档理解领域取得了显著进展,能够处理身份证、发票、合同等各类文档。然而,现有模型在真实场景中存在一个根本性的范式缺陷:当面对视觉退化情况(如模糊、遮挡、低对比度)时,模型无法严格遵循视觉信号,容易过度依赖语言先验或产生跨模态的幻觉内容。
这一问题的根源在于三个层面的挑战:(1) 预训练阶段缺少退化场景的关键信息提取(KIE)数据和清晰标注;(2) 指令微调阶段普遍忽视退化视觉场景的处理范式,研究者默认OCR输入是无退化的;(3) 评估阶段缺少专门量化文档理解OCR幻觉的基准。这导致模型在面对反光遮挡的身份证或低对比度报告时,会默认使用语言先验而非依靠可观察的视觉证据。
本文的切入角度是:将OCR幻觉问题建模为具有精确奖励的基本问题,利用KIE任务答案可量化的特性,通过强化学习让模型学会视觉忠实推理。
方法详解¶
整体框架¶
整个框架分为三个阶段:数据收集与构建、冷启动监督微调(SFT)、基于规则的强化学习(GRPO)。首先收集包含视觉图像描述的跨模态推理数据,然后通过SFT初始化模型的推理能力,最后通过GRPO配合精心设计的退化OCR奖励函数增强模型的泛化能力。
关键设计¶
-
KIE-HVQA基准: 首个专门评估退化文档OCR幻觉的基准数据集。包含2000个训练样本和400个测试实例,涵盖身份证、收据、发票三类文档。数据来源包括OCRBench(100个查询)、WildReceipt(实体答案重构)和GPT-4o生成的合成模板(200个隐私合规的虚拟证件)。每个样本模拟运动模糊、低对比度等真实退化场景,并提供像素级标注和OCR可靠性评分。评估指标包括清晰字符准确率、退化字符准确率和全局OCR性能。
-
冷启动初始化(Cold-start Initialization): 解决纯语言推理模型无法直接处理多模态数据的问题。方法是先用GPT-4o将图像-问题-答案三元组转换为纯文本的伪CoT(包含图像描述和推理过程),再将这些信息与MLLM生成的详细图像描述合并,输入DeepSeek-R1生成高质量CoT数据。最终将文本CoT与对应图像配对,构建多模态CoT数据集用于冷启动。这种方法确保推理过程贴近人类认知行为。
-
退化OCR多目标奖励函数: 这是论文最核心的设计。根据字符退化程度将其分为三类:(a) 完全清晰字符——必须准确识别并保留;(b) 部分遮挡但人类可识别字符——标记为"异常"但仍需包含在输出中;(c) 完全不可识别字符——不应出现在OCR输出中,用空格替代以防止幻觉。例如"Beautiful"中,"B,a,u,f,u,l"清晰、"e"部分遮挡、"t,i"完全遮挡。奖励函数综合考虑清晰字符距离、不清晰字符距离和最终答案距离三个维度,使用编辑距离(Levenshtein distance)作为基础度量。
损失函数 / 训练策略¶
训练采用两阶段策略:
- SFT阶段: 使用Qwen-2.5-VL-7B-Instruct作为基座,在冷启动数据上微调5个epoch,学习率1e-6,批大小512,使用LLaMA-Factory框架,耗时约4小时。
- GRPO阶段: 在SFT模型基础上,混合TextOCR、WildReceipt和其他OCR数据集进行强化学习。GRPO对每个输入生成G个候选响应,通过组内归一化计算优势值,优化策略模型使其生成更高奖励的输出,同时通过KL散度约束防止偏离参考模型太远。使用Easy-R1框架实现。
实验关键数据¶
主实验¶
| 模型 | 清晰字符(Clr) | 不清晰字符(Nc) | 最终OCR(Final) | 平均(Avg) |
|---|---|---|---|---|
| GPT-4o | 22.78 | 36.13 | 31.74 | 30.21 |
| Claude3.7-Sonnet | 19.77 | 33.73 | 26.17 | 26.56 |
| Gemini2.5-pro | 36.94 | 34.64 | 33.53 | 35.03 |
| Qwen2.5-VL-72B | 20.02 | 24.19 | 20.37 | 21.53 |
| InternVL3-78B | 6.09 | 8.59 | 6.43 | 7.04 |
| 本文(SFT+RL) | 55.45 | 61.34 | 57.35 | 58.05 |
消融实验¶
| 配置 | 清晰字符(Clr) | 不清晰字符(Nc) | 最终OCR(Final) | 说明 |
|---|---|---|---|---|
| 仅清晰奖励 | 50.64 | 44.15 | 53.34 | 不清晰字符性能显著下降 |
| 仅最终奖励 | 51.06 | 54.06 | 54.24 | 不如组合奖励 |
| 全部奖励 | 55.45 | 61.34 | 57.35 | 各维度均最优 |
| 仅SFT | 49.65 | 57.25 | 49.72 | 基础能力已较强 |
| SFT+RL | 55.45 | 61.34 | 57.35 | RL带来额外提升 |
关键发现¶
- 7B参数的模型在退化文档幻觉抑制上比GPT-4o绝对提升约28%(58.05 vs 30.21)。
- 在不清晰字符识别上,本文模型(61.34%)远超GPT-4o(36.13%),证明不确定性感知机制的有效性。
- 通用OCR能力未受影响:在OCRbench的Scene(180)、Doc(179)、Info(183)三个子集上表现与GPT-4o(180/167/163)和原始Qwen2.5-VL-7B(181/181/182)相当。
- 多目标奖励组合对处理真实文档退化模式至关重要,单一奖励变体在各维度上均明显不足。
亮点与洞察¶
- 率先将KIE任务的答案可量化特性与强化学习结合,将OCR幻觉转化为精确可优化的问题。
- 三级字符退化分类(清晰/部分遮挡/完全遮挡)设计巧妙,使奖励函数能够精确引导模型行为。
- 通过拒绝回答机制增加任务难度,教会模型在无法确定时主动拒绝,而不是编造答案。
- 冷启动阶段利用GPT-4o+DeepSeek-R1的协同方案解决多模态CoT数据生成难题。
局限与展望¶
- 基准数据集规模相对有限(2000训练+400测试),退化类型和文档类型可进一步丰富。
- 目前仅在Qwen2.5-VL-7B上验证,更大规模模型的效果有待探索。
- 评估指标基于编辑距离,可能不完全反映语义层面的理解质量。
- 退化模拟主要依赖合成方式,与真实退化分布可能存在差异。
相关工作与启发¶
- DeepSeek-R1的GRPO算法为本文的强化学习框架提供了基础,但本文针对OCR任务设计了专门的多目标奖励机制。
- 现有OCR基准(OCRBench、DocLocal4K)主要关注行级别识别和文档理解,忽略了退化条件下的幻觉问题。
- 推理增强类工作(VisRL、Visual-RFT)开始将强化学习应用于MLLM视觉推理,但尚无针对OCR幻觉的专门研究。
- 启发:在需要精确答案的任务中,利用答案的量化特性构建细粒度奖励函数是一条有效路径。
评分¶
- 新颖性: ⭐⭐⭐⭐ (问题定义新颖,首个退化文档幻觉基准;但GRPO框架本身非原创)
- 实验充分度: ⭐⭐⭐⭐ (对比充分,消融完整;但数据集规模偏小)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,动机阐述充分)
- 价值: ⭐⭐⭐⭐ (为文档理解可靠性提供了重要方向)