跳转至

ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection

会议: ACL 2026
arXiv: 2604.08326
代码: 论文称公开数据、奖励模型与 benchmark,缓存中未给出具体 URL
领域: 医学大模型 / 医疗对齐 / Reward Model
关键词: 医疗 LLM 对齐, 细粒度 rubric, 安全 veto, 奖励模型, GRPO

一句话总结

ProMedical 用医生参与构造的分层细粒度 clinical rubric 贯穿偏好数据、奖励模型和 benchmark,通过显式 criteria injection 训练多维 reward model,使 Qwen3-8B 在医学对齐中获得 22.3% overall accuracy 和 21.7% safety compliance 的提升。

研究背景与动机

领域现状:医疗 LLM 已能回答症状、诊疗和健康管理问题,闭源模型在若干医学 benchmark 上接近临床专家水平。但医疗场景的评价标准正在变得更细:不仅要答对事实,还要避免幻觉、识别风险、遵循临床边界,并体现同理心和清晰推理。

现有痛点:主流 alignment 数据仍以粗粒度 preference pair 或整体打分为主。模型只知道哪个回答更好,却不知道是因为安全、事实、完整性、语气还是临床流程。对于高风险医疗错误,这种二元信号很容易让模型把“流畅、有帮助”误当成“安全、专业”。

核心矛盾:评估端要求细粒度临床标准,训练端却给粗粒度偏好信号。训练目标与真实临床评价之间不一致,导致模型难以内化复杂医疗协议。

本文目标:构建一个统一框架,让 instruction-specific clinical rubrics 不只是事后评测工具,而是进入偏好构造、奖励建模和 RL 对齐过程。

切入角度:作者把医疗回答质量分成 Proficiency、Excellence 和 Safety 三个正交维度,并把 Safety 设计为严格 veto 约束,避免模型用高效用回答抵消安全违规。

核心 idea:把每条医疗指令的细粒度 criteria 显式注入 reward model,使 reward model 在“具体 rubric 条件下”判断偏好,而不是输出一个混合所有因素的黑箱标量。

方法详解

整体框架

ProMedical 包含三层:第一层是 ProMedical-Rubrics,把每条医疗指令映射为临床 criteria;第二层是 ProMedical-Preference-50k 和 ProMedical-Bench,分别用于训练和评价;第三层是 Explicit Criteria Injection,训练 Rubric-Aware Reward Model,再用该 reward model 引导 Qwen3-8B 进行 GRPO 对齐。它的核心不是提出一个新的医疗问答模型,而是重塑医疗对齐的监督信号。

关键设计

  1. 三分量临床 rubric 与安全 veto:

    • 功能:把医疗回答质量拆成可解释、可约束的维度。
    • 核心思路:Proficiency \(S_1\) 衡量基础临床准确性和完整性;Excellence \(S_2\) 奖励同理心、逻辑清晰等超出合格线的属性;Safety \(S_3\) 检测严重幻觉、有害建议或越界行为。最终偏好不是简单求和,而是先比较 safety violation,再比较 proficiency,最后比较 excellence。
    • 设计动机:医疗场景不应允许“很有帮助但有严重安全问题”的回答胜出。lexicographical comparison 让安全成为硬约束。
  2. Human-in-the-Loop rubric 数据构造:

    • 功能:在可扩展生成和医生专业校验之间取得平衡。
    • 核心思路:ProMedical-Preference-50k 先经过数据来源、语义去重、难度筛选和专家引导分类,再由多个强模型生成候选回答。rubric 构造使用 Gemini-3-Pro-thinking 结合静态专家系统指令和动态 few-shot 示例,医生每轮审阅 500 条并把修正后的 gold standard 回注到示例池。
    • 设计动机:完全人工写 rubric 成本太高,完全自动生成又容易医学幻觉。迭代式 HITL 让生成质量逐步收敛,作者报告 strict expert evaluation 通过率 96.40%。
  3. 显式 Criteria Injection 的 reward model:

    • 功能:让 reward model 学会“在某个具体标准下比较两个回答”。
    • 核心思路:传统 reward model 学 \(P(y_w \succ y_l|x)\);本文改成 \(P(y_w \succ y_l|x,c)\),其中 \(c\) 是某个 rubric criterion。一个回答对会被展开成多个 criterion-conditioned 训练实例,并分别标注该维度下的偏好。
    • 设计动机:标量 reward 容易把安全、专业性和表达质量混在一起。criteria-conditioned 训练能显式拆开监督信号,后续再按安全 veto、主能力和 excellence 分层聚合。

损失函数 / 训练策略

Reward model 使用 Bradley-Terry 风格的 pairwise loss,输入包含 instruction、候选回答和 criterion,优化 criterion-conditioned reward margin。策略对齐阶段用 ProMedical-RM 作为 proxy oracle,为 Qwen3-8B 的 GRPO 采样输出计算分层 reward;安全违规惩罚系数被设为足以压过任何正向效用,避免安全问题被其他维度抵消。

实验关键数据

主实验

ProMedical-Bench 包含 795 个 held-out 样本,并展开为 5,505 个 criterion-level pair:3,625 个 Proficiency、1,650 个 Excellence、230 个 Safety。双盲医生 adjudication 的 weighted Cohen's Kappa 为 0.88。

模型 Pointwise Proficiency Pointwise Safety Pairwise Safety Overall Accuracy
GPT-5 91.50 76.45 77.39 76.42
Gemini-3-Pro 89.80 64.10 65.65 64.80
DeepSeek-R1 89.50 78.80 80.00 78.55
Qwen3-8B 50.15 62.79 65.64 64.30
PairRM-LLaMA3-8B 76.50 58.80 60.43 58.95
medical_o1_verifier_3B 75.20 51.90 53.04 51.10
ProMedical-RM-8B (Llama) 90.15 87.20 86.10 85.40
ProMedical-RM-8B (Qwen3) 90.85 88.50 87.39 86.55

消融实验

模型 Safety Precision Safety Recall Safety F1 说明
GPT-5 79.24 73.85 76.45 闭源强模型仍漏掉部分安全 veto
DeepSeek-R1 81.50 76.28 78.80 开源推理模型较强,但低于 ProMedical-RM
PairRM-LLaMA3-8B 62.45 59.80 61.10 易把安全与文本流畅性混淆
medical_o1_verifier_3B 55.30 50.80 52.95 recall 明显不足
ProMedical-RM (Llama) 89.40 85.10 87.20 细粒度监督带来稳定提升
ProMedical-RM (Qwen3) 91.50 86.80 89.09 最佳 Safety Veto 检测

外部泛化与策略对齐

方法 Q Q+Criteria Q+Sub 结论
Ultra-Medical 80.53 - - 标准偏好优化基线
RaR 79.03 80.10 81.32 rubric 相关基线
InfiMed-ORBIT 80.85 81.07 81.63 细粒度偏好基线
ProMedical 81.94 82.32 83.60 三种粒度均更高
ProMedical-RAG 81.60 83.20 84.28 外部医学知识增强后 Q+Sub 最优

关键发现

  • ProMedical-RM-8B (Qwen3) 的 Overall Accuracy 达 86.55%,超过 GPT-5 的 76.42 和 DeepSeek-R1 的 78.55,说明专门的 rubric-aware reward model 能在细粒度临床标准上超过通用强模型。
  • Llama backbone 版本也达到 85.40%,只比 Qwen3 版低 1.2 个点,证明增益主要来自 explicit criteria injection,而不是某个 backbone 自身能力。
  • Meditron-70B 的 Overall Accuracy 只有 53.40%,说明参数规模和医学预训练不能自动带来安全约束遵循。
  • Safety Veto F1 从 GPT-5 的 76.45 提升到 ProMedical-RM(Qwen3) 的 89.09,提升集中在高风险医疗边界识别。

亮点与洞察

  • 论文最关键的贡献是把 clinical rubric 从评测端前移到训练端。医疗对齐不是“多做偏好数据”就够了,而是要让偏好标签有明确的临床理由。
  • Safety 作为 veto 而非 soft penalty 很重要。很多通用 alignment 方法允许维度之间互相抵消,但医疗场景中一个严重幻觉足以否定整个回答。
  • ProMedical-Bench 的双盲医生 adjudication 和 0.88 Kappa 提升了 benchmark 可信度,也让 reward model 的提升更有说服力。
  • Criteria-conditioned reward model 的思想可迁移到法律、金融、教育等高风险领域:先把标准拆成明确 criteria,再让模型学习按标准评价。

局限与展望

  • 框架依赖专家共识,在存在争议、指南不一致或地区差异明显的医疗问题上,rubric 本身可能难以定义。
  • 当前只处理文本模态,无法覆盖真实医疗流程中常见的影像、检验指标、生命体征和结构化病历。
  • HITL pipeline 成本仍然高,虽然比纯人工可扩展,但每个新专科或新地区标准都可能需要重新校准。
  • 论文使用 reward model 引导生成模型,但最终回答仍可能产生医学幻觉;真实部署必须有人类医生监督。
  • benchmark 和数据构造依赖强模型生成候选和 rubric 初稿,需要持续监控生成模型偏差对数据分布的影响。

相关工作与启发

  • vs UltraMedical: UltraMedical 提供大规模医学偏好数据,ProMedical 进一步给每条 instruction 注入细粒度 rubric,并区分安全、能力和 excellence。
  • vs HealthBench: HealthBench 强调医生编写的评价 rubric,本文把类似思想用于训练 reward model 和 GRPO 对齐。
  • vs 通用 Reward Model: PairRM 等模型能学到通用偏好,但无法可靠处理医学安全 veto;ProMedical-RM 的优势来自 criterion-conditioned supervision。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 instruction-specific rubric 显式注入 reward model 是很扎实的高风险对齐设计。
  • 实验充分度: ⭐⭐⭐⭐⭐ 数据集、benchmark、reward model、safety 指标和外部泛化都覆盖得较完整。
  • 写作质量: ⭐⭐⭐⭐ 方法线清晰,表格信息密集;个别公式排版略复杂。
  • 价值: ⭐⭐⭐⭐⭐ 对医疗 LLM alignment 和可解释 reward modeling 有直接参考价值。