Seeing Justice Clearly: Handwritten Legal Document Translation with OCR and Vision-Language Models¶
会议: AAAI 2026
arXiv: 2512.18004
代码: github
领域: 多模态VLM
关键词: 手写文档识别, OCR, 视觉语言模型, 法律文档翻译, 低资源语言
一句话总结¶
本文系统性对比了传统 OCR+机器翻译(OCR-MT)流水线与视觉大语言模型(vLLM)在手写马拉地语法律文档翻译为英语任务上的表现,发现两类方法均未达到法律级部署要求,OCR-MT 受级联错误影响严重,vLLM 存在严重的幻觉问题,但 vLLM 展现出统一端到端处理的发展潜力。
研究背景与动机¶
领域现状¶
印度司法系统是全球最复杂的法律体系之一,基层法院和警察局仍大量依赖手写文档记录,包括首次信息报告(FIR)、案件日记、证人陈述和法庭诉讼记录等。这些文档对刑事和民事诉讼至关重要,但其手写、非结构化的特性使得归档、检索和分析极为困难。
现有痛点¶
手写文本识别困难:手写风格差异大,书写质量参差不齐,传统 OCR 系统(如 Tesseract、EasyOCR、PaddleOCR)在手写法律文档上表现不佳
低资源语言挑战:马拉地语等印度语言缺少大规模数字化语料库,OCR 和翻译模型均面临数据稀缺问题
级联错误传播:OCR-MT 流水线中,OCR 阶段的识别错误会直接影响下游翻译质量,导致法律语义丢失
法律术语的特殊性:法律文档包含专业术语、官方印章、签名和结构化表格,增加了识别和翻译的难度
核心矛盾¶
法律文档的数字化迫切需要准确、可扩展的翻译系统,但现有技术路线(无论是模块化的 OCR-MT 还是端到端的 vLLM)在处理手写低资源语言法律文档时都存在根本性的局限。
本文切入角度¶
构建一个统一的评测框架,系统对比两种范式(OCR-MT vs. vLLM)在真实法律文档场景中的表现,为后续研究提供可行的基线和方向性指导。
方法详解¶
整体框架¶
本文并非提出全新方法,而是构建了一个系统性对比实验框架,评测两大类方法在手写马拉地语法律文档翻译任务上的表现。
关键设计¶
-
OCR-MT 流水线(6种组合):
- OCR 工具: Tesseract、EasyOCR、PaddleOCR 三种 OCR 引擎
- 翻译模型: IndicTrans2(支持22种印度语言的 Transformer 编码器-解码器模型)和 Sarvam-1(针对10种印度语言优化的2B参数模型)
- 工作流程: 扫描文档图像 → OCR 文本提取 → 机器翻译 → 英语输出
- 设计动机: 模块化架构便于定位性能瓶颈——是 OCR 阶段还是翻译阶段导致的质量下降
-
vLLM 端到端翻译(3个模型):
- 模型选择: Chitrarth(印度语言视觉-语言桥接模型)、Maya-8B(多语言指令微调模型)、Ovis2(34B int4量化版和16B版)
- 核心思路: 直接将手写文档图像输入 vLLM,通过零样本提示要求模型输出英语翻译
- 设计动机: 绕过 OCR 中间步骤,避免级联错误,利用 vLLM 的多模态推理能力
-
评测协议设计:
- OCR 评测: 使用字符错误率(CER)和词错误率(WER)衡量马拉地语文本提取保真度
- 翻译评测: 采用人工评估,从流畅性(语法正确性)、充分性(原意保留度)、正确性(与金标准对齐度)三个维度打分
- 数据集: 约60份真实法律来源的扫描PDF马拉地语文档,由母语者翻译、法律语言专家审校
实验关键数据¶
主实验¶
| 方法 | 代表模型 | 手写文本表现 | 翻译质量 | 主要问题 |
|---|---|---|---|---|
| OCR-MT | EasyOCR + IndicTrans2 | 印刷体尚可,手写体差 | 受OCR错误影响严重 | 级联错误传播,法律语义丢失 |
| OCR-MT | PaddleOCR + Sarvam-1 | 最差 | 混合语言输出 | 手写支持最弱 |
| OCR-MT | Tesseract + IndicTrans2 | 中等 | 不完整翻译 | 缺少手写适配 |
| vLLM | Chitrarth | 无法识别 | 完全幻觉 | 生成虚构会议内容 |
| vLLM | Maya-8B | 部分识别 | 不相关输出 | 将法律文档误判为学习指南 |
| vLLM | Ovis2-34B (int4) | 部分识别 | 部分正确但编造内容 | 能识别结构但语义错误 |
| vLLM | Ovis2-16B | 相对最好 | 部分翻译 | 不完整且部分不连贯 |
消融实验(OCR 模型对比)¶
| OCR 模型 | 印刷体性能 | 手写体性能 | 综合评价 |
|---|---|---|---|
| EasyOCR | 较好 | 中等(仍有困难) | 三者中最优 |
| PaddleOCR | 中等 | 差 | 数字和日期识别有误 |
| Tesseract | 中等 | 较差 | 低资源语言支持有限 |
关键发现¶
- OCR 阶段是 OCR-MT 流水线的主要瓶颈: EasyOCR 在三种 OCR 工具中表现最好,但仍无法有效处理不一致的手写风格
- 错误传播严重: OCR 将"Gaav"(意为"村庄")音译为"Gaon"而非翻译为"Village",导致下游翻译完全失败
- vLLM 的幻觉问题: Chitrarth 生成了关于虚构会议的描述,包含不存在的人名、日期和地点;Maya-8B 将法律文档输出为学习指南
- vLLM 的结构识别优势: Ovis2 系列能部分识别文档结构(如账号、姓名、地点),但内容准确性不足
- 法律文档的高风险性: 在法律领域,vLLM 的幻觉问题构成严重风险——生成貌似合理但完全虚构的文本
亮点与洞察¶
- 问题定义清晰: 从印度司法系统的真实需求出发,选择了具有实际应用价值的任务场景
- 全面的对比框架: 覆盖了 OCR-MT 和 vLLM 两大范式共9种组合,评测维度丰富
- 揭示了 vLLM 在高风险领域的根本问题: 幻觉不仅是性能问题,更是安全性和可信性问题
- 数据集贡献: 构建了高质量的手写马拉地语法律文档数据集,经母语者翻译和法律专家审校
- 未来方向指引: 提出混合 OCR-vLLM 流水线、领域特定微调、提示工程等具体研究方向
局限与展望¶
- 数据集规模小: 仅约60份文档,不足以支撑大规模定量评估
- 缺乏自动评测指标: 翻译质量主要依赖人工评估,可重复性有限
- 未进行微调实验: 所有 vLLM 均在零样本设定下评测,未探索微调的潜力
- 单一语言对: 仅覆盖马拉地语→英语,未扩展到其他印度语言
- 未考虑混合方案: 文中虽提到可将 OCR 结构线索与 vLLM 语境翻译结合,但未实际实验
- 边缘部署分析缺失: 声称关注低资源环境部署,但未进行计算效率或模型压缩实验
相关工作与启发¶
- VISTA-OCR / olmOCR: 引入生成式、布局感知的 OCR 流水线,可能更适合法律文档的复杂排版
- Nirnayak: 印度法律领域 OCR 应用的先驱工作,但受限于 OCR 错误传播
- TransDocAnalyser: 专门针对 FIR 文档的框架,结合 FastRCNN+ViT 编码器和 BERT 解码器
- PLATTER: 支持10种印度语言的端到端手写 OCR 框架,可作为本文 OCR 模块的升级替代
- 启发: 混合 OCR+vLLM 方案(用 OCR 做结构检测,用 vLLM 做上下文翻译)可能是最有前景的方向
评分¶
- 新颖性: ⭐⭐⭐
- 实验充分度: ⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐