Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models¶

会议: NeurIPS 2025
arXiv: 2506.20168
代码: https://huggingface.co/datasets/bytedance-research/KIE-HVQA (数据集公开)
领域: 多模态VLM
关键词: OCR幻觉, 文档理解, 强化学习, GRPO, 视觉退化

一句话总结¶

针对多模态大模型在退化文档场景下的OCR幻觉问题，提出首个退化文档幻觉评测基准KIE-HVQA，并设计基于GRPO的多目标奖励强化学习框架，在7B参数模型上实现比GPT-4o高约28%的幻觉抑制准确率提升。

研究背景与动机¶

多模态大语言模型（MLLM）在文档理解领域取得了显著进展，能够处理身份证、发票、合同等各类文档。然而，现有模型在真实场景中存在一个根本性的范式缺陷：当面对视觉退化情况（如模糊、遮挡、低对比度）时，模型无法严格遵循视觉信号，容易过度依赖语言先验或产生跨模态的幻觉内容。

这一问题的根源在于三个层面的挑战：(1) 预训练阶段缺少退化场景的关键信息提取（KIE）数据和清晰标注；(2) 指令微调阶段普遍忽视退化视觉场景的处理范式，研究者默认OCR输入是无退化的；(3) 评估阶段缺少专门量化文档理解OCR幻觉的基准。这导致模型在面对反光遮挡的身份证或低对比度报告时，会默认使用语言先验而非依靠可观察的视觉证据。

本文的切入角度是：将OCR幻觉问题建模为具有精确奖励的基本问题，利用KIE任务答案可量化的特性，通过强化学习让模型学会视觉忠实推理。

方法详解¶

整体框架¶

整个框架分为三个阶段：数据收集与构建、冷启动监督微调（SFT）、基于规则的强化学习（GRPO）。首先收集包含视觉图像描述的跨模态推理数据，然后通过SFT初始化模型的推理能力，最后通过GRPO配合精心设计的退化OCR奖励函数增强模型的泛化能力。

关键设计¶

KIE-HVQA基准: 首个专门评估退化文档OCR幻觉的基准数据集。包含2000个训练样本和400个测试实例，涵盖身份证、收据、发票三类文档。数据来源包括OCRBench（100个查询）、WildReceipt（实体答案重构）和GPT-4o生成的合成模板（200个隐私合规的虚拟证件）。每个样本模拟运动模糊、低对比度等真实退化场景，并提供像素级标注和OCR可靠性评分。评估指标包括清晰字符准确率、退化字符准确率和全局OCR性能。
冷启动初始化（Cold-start Initialization）: 解决纯语言推理模型无法直接处理多模态数据的问题。方法是先用GPT-4o将图像-问题-答案三元组转换为纯文本的伪CoT（包含图像描述和推理过程），再将这些信息与MLLM生成的详细图像描述合并，输入DeepSeek-R1生成高质量CoT数据。最终将文本CoT与对应图像配对，构建多模态CoT数据集用于冷启动。这种方法确保推理过程贴近人类认知行为。
退化OCR多目标奖励函数: 这是论文最核心的设计。根据字符退化程度将其分为三类：(a) 完全清晰字符——必须准确识别并保留；(b) 部分遮挡但人类可识别字符——标记为"异常"但仍需包含在输出中；(c) 完全不可识别字符——不应出现在OCR输出中，用空格替代以防止幻觉。例如"Beautiful"中，"B,a,u,f,u,l"清晰、"e"部分遮挡、"t,i"完全遮挡。奖励函数综合考虑清晰字符距离、不清晰字符距离和最终答案距离三个维度，使用编辑距离（Levenshtein distance）作为基础度量。

损失函数 / 训练策略¶

训练采用两阶段策略：

SFT阶段: 使用Qwen-2.5-VL-7B-Instruct作为基座，在冷启动数据上微调5个epoch，学习率1e-6，批大小512，使用LLaMA-Factory框架，耗时约4小时。
GRPO阶段: 在SFT模型基础上，混合TextOCR、WildReceipt和其他OCR数据集进行强化学习。GRPO对每个输入生成G个候选响应，通过组内归一化计算优势值，优化策略模型使其生成更高奖励的输出，同时通过KL散度约束防止偏离参考模型太远。使用Easy-R1框架实现。

实验关键数据¶

主实验¶

模型	清晰字符(Clr)	不清晰字符(Nc)	最终OCR(Final)	平均(Avg)
GPT-4o	22.78	36.13	31.74	30.21
Claude3.7-Sonnet	19.77	33.73	26.17	26.56
Gemini2.5-pro	36.94	34.64	33.53	35.03
Qwen2.5-VL-72B	20.02	24.19	20.37	21.53
InternVL3-78B	6.09	8.59	6.43	7.04
本文(SFT+RL)	55.45	61.34	57.35	58.05

消融实验¶

配置	清晰字符(Clr)	不清晰字符(Nc)	最终OCR(Final)	说明
仅清晰奖励	50.64	44.15	53.34	不清晰字符性能显著下降
仅最终奖励	51.06	54.06	54.24	不如组合奖励
全部奖励	55.45	61.34	57.35	各维度均最优
仅SFT	49.65	57.25	49.72	基础能力已较强
SFT+RL	55.45	61.34	57.35	RL带来额外提升

关键发现¶

7B参数的模型在退化文档幻觉抑制上比GPT-4o绝对提升约28%（58.05 vs 30.21）。
在不清晰字符识别上，本文模型（61.34%）远超GPT-4o（36.13%），证明不确定性感知机制的有效性。
通用OCR能力未受影响：在OCRbench的Scene（180）、Doc（179）、Info（183）三个子集上表现与GPT-4o（180/167/163）和原始Qwen2.5-VL-7B（181/181/182）相当。
多目标奖励组合对处理真实文档退化模式至关重要，单一奖励变体在各维度上均明显不足。

亮点与洞察¶

率先将KIE任务的答案可量化特性与强化学习结合，将OCR幻觉转化为精确可优化的问题。
三级字符退化分类（清晰/部分遮挡/完全遮挡）设计巧妙，使奖励函数能够精确引导模型行为。
通过拒绝回答机制增加任务难度，教会模型在无法确定时主动拒绝，而不是编造答案。
冷启动阶段利用GPT-4o+DeepSeek-R1的协同方案解决多模态CoT数据生成难题。

局限与展望¶

基准数据集规模相对有限（2000训练+400测试），退化类型和文档类型可进一步丰富。
目前仅在Qwen2.5-VL-7B上验证，更大规模模型的效果有待探索。
评估指标基于编辑距离，可能不完全反映语义层面的理解质量。
退化模拟主要依赖合成方式，与真实退化分布可能存在差异。

评分¶

新颖性: ⭐⭐⭐⭐ （问题定义新颖，首个退化文档幻觉基准；但GRPO框架本身非原创）
实验充分度: ⭐⭐⭐⭐ （对比充分，消融完整；但数据集规模偏小）
写作质量: ⭐⭐⭐⭐ （结构清晰，动机阐述充分）
价值: ⭐⭐⭐⭐ （为文档理解可靠性提供了重要方向）