MeasHalu: Mitigation of Scientific Measurement Hallucinations for LLMs¶

会议: ACL 2026
arXiv: 2604.16929
代码: GitHub
领域: 幻觉检测
关键词: 科学测量幻觉, 信息抽取, 推理增强微调, GRPO强化学习, MeasEval

一句话总结¶

本文提出MeasHalu框架，通过细粒度测量幻觉分类法和两阶段优化（推理感知SFT+幻觉靶向GRPO奖励）缓解LLM在科学测量抽取中的幻觉，在MeasEval上显著超越基线。

研究背景与动机¶

领域现状：该领域已有一定积累但存在关键缺口。

现有痛点：现有方法未能充分解决核心问题，存在准确性、可扩展性或适用性方面的限制。

核心矛盾：问题的根本张力在于现有范式的隐含假设与实际需求之间的不匹配。

本文目标：提出新的框架/方法/基准来系统性地解决上述问题。

切入角度：从独特的观察或理论出发，找到解决问题的新途径。

核心 idea：用创新的技术手段解决核心矛盾。

方法详解¶

整体框架¶

MeasHalu 针对 LLM 在科学测量信息抽取（从论文里抽数值、单位、修饰词，以及它们与被测实体/属性的关系）时爱"编数据"的幻觉问题。作者的核心判断是：这类幻觉来自两种不同的失效模式——一是不可靠的数量推理（把数值、单位本身抽错或凭空编造），二是脆弱的关系定位（数值抽对了，却把它和错误的实体/属性绑在一起）。据此 MeasHalu 先建一套细粒度的测量幻觉分类法把错误归类，再按这两种失效模式拆成两条分支分别治理：数量分支与关系分支，每条分支都用"渐进式推理感知 SFT 打底 + 幻觉靶向 GRPO 强化"的两阶段套路，把模型往"少编、忠实于原文"的方向拧。输入是一段含测量描述的科学文本，输出是结构化的测量信息。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["科学文本（含测量描述）"] --> TAX["细粒度测量幻觉分类法<br/>数值/单位/修饰/关系四类错误"]
    TAX --> QB
    TAX --> RB
    subgraph QB["数量分支：治数值/单位幻觉"]
        direction TB
        Q1["渐进式推理感知 SFT<br/>D_aug 打底 → D_trace 对齐 MeasEval"] --> Q2["幻觉靶向 GRPO<br/>格式 + 越界 + 编造 + 误分类 四项奖励"]
    end
    subgraph RB["关系分支：治跨句关系幻觉"]
        direction TB
        R1["句子锚定抽取 SFT<br/>先定位数量所在句再局部推理"] --> R2["幻觉靶向 GRPO<br/>关系完整性奖励"]
    end
    QB --> OUT["结构化测量信息<br/>数值 + 单位 + 修饰 + 被测实体关系"]
    RB --> OUT

关键设计¶

1. 细粒度测量幻觉分类法：把"测量幻觉"按数值/单位/修饰/关系拆细，并定位两个失效根源

笼统说"模型有幻觉"没法指导优化——不知道它具体错在数值、单位、修饰词还是关系上，奖励就无从设计。MeasHalu 先建一套面向科学测量的细粒度幻觉分类法，把抽取错误归并为数值、单位、修饰词、关系四类，并进一步归因到两个根源：数量推理不可靠、关系定位脆弱。这套分类既是诊断模型错在哪的依据，也直接决定了后面两条分支的分工以及各自靶向奖励的设计对象。

2. 数量分支：渐进式推理感知 SFT + 幻觉靶向 GRPO，专治数值/单位幻觉

针对"数量推理不可靠"，这条分支先用渐进式 SFT 教模型带着推理去抽数值，分两步打底：先在自建增广数据 \(\mathcal{D}_{aug}\) 上学（取 arXiv 摘要，用 Quantulum3 抽出候选数量当锚点，再让模型验证锚点真伪、补出推理轨迹），再在 \(\mathcal{D}_{trace}\) 上对齐（拿 MeasEval 金标答案反向重建出通向正确结论的推理链，并校验结论一致才保留）。SFT 把抽取行为对齐到"有据可依"后，再接 GRPO 强化，奖励由四项构成——格式合规、越界惩罚（抽到"Fig. 1"这类非数值串）、编造惩罚（用物理量解析器校验抽出的串是否为合法物理量）、误分类奖励（用 token 级精度惩罚把被测实体等周边成分错并进数量的过长片段），分别对应分类法里的几类数量幻觉。

3. 关系分支：句子锚定抽取 + 幻觉靶向 GRPO，专治跨句关系幻觉

针对"关系定位脆弱"，关系抽取的难点在于长程依赖——满篇找证据容易跨句牵错线。这条分支改成句子锚定的两步推理：先定位含目标数量的证据句，再把后续推理锁定在这个局部上下文里，解析数量的单位、修饰词并关联到被测实体/属性，从源头掐掉跨句幻觉的触发，顺带也减少了冗余的全局推理、更高效。该策略同样是 SFT 先建立输出 schema、GRPO 再对齐，奖励里专门加了关系完整性项，缓解依赖链断裂导致的稀疏成分（如被测实体、限定词）漏抽。

损失函数 / 训练策略¶

两条分支都采用"渐进式推理感知 SFT → 幻觉靶向 GRPO"的两阶段优化：SFT 阶段先在增广数据 \(\mathcal{D}_{aug}\) 上打底、再在金标反推的 \(\mathcal{D}_{trace}\) 上对齐 MeasEval 规范；GRPO 阶段用对准各类幻觉的复合奖励（数量分支为格式/越界/编造/误分类四项，关系分支含关系完整性项）做强化，把"忠实抽取"的约束写进模型参数。

实验关键数据¶

主实验¶

方法	核心指标	说明
基线	较低	现有最优
本文	最高	显著提升

消融实验¶

配置	结果	说明
Full	最高	完整模型
w/o 核心组件	下降	验证关键性

关键发现¶

提出的方法在多个基准上一致优于基线
消融实验验证了各组件的必要性
在特定场景下表现特别突出

亮点与洞察¶

核心技术创新解决了长期存在的问题
方法的可扩展性和实用性较强
分析揭示了有价值的规律

局限与展望¶

评估范围可进一步扩展
特定假设的适用性需要验证
未来可探索更多应用场景

评分¶

新颖性: ⭐⭐⭐⭐ 有创新但部分技术是已有方法的组合
实验充分度: ⭐⭐⭐⭐ 评估较全面
写作质量: ⭐⭐⭐⭐ 结构清晰
价值: ⭐⭐⭐⭐ 对领域有实际贡献