ProMedical: Hierarchical Fine-Grained Criteria Modeling for Medical LLM Alignment via Explicit Injection¶

会议: ACL 2026
arXiv: 2604.08326
代码: 论文称公开数据、奖励模型与 benchmark，缓存中未给出具体 URL
领域: 医学大模型 / 医疗对齐 / Reward Model
关键词: 医疗 LLM 对齐, 细粒度 rubric, 安全 veto, 奖励模型, GRPO

一句话总结¶

ProMedical 用医生参与构造的分层细粒度 clinical rubric 贯穿偏好数据、奖励模型和 benchmark，通过显式 criteria injection 训练多维 reward model，使 Qwen3-8B 在医学对齐中获得 22.3% overall accuracy 和 21.7% safety compliance 的提升。

研究背景与动机¶

领域现状：医疗 LLM 已能回答症状、诊疗和健康管理问题，闭源模型在若干医学 benchmark 上接近临床专家水平。但医疗场景的评价标准正在变得更细：不仅要答对事实，还要避免幻觉、识别风险、遵循临床边界，并体现同理心和清晰推理。

现有痛点：主流 alignment 数据仍以粗粒度 preference pair 或整体打分为主。模型只知道哪个回答更好，却不知道是因为安全、事实、完整性、语气还是临床流程。对于高风险医疗错误，这种二元信号很容易让模型把“流畅、有帮助”误当成“安全、专业”。

核心矛盾：评估端要求细粒度临床标准，训练端却给粗粒度偏好信号。训练目标与真实临床评价之间不一致，导致模型难以内化复杂医疗协议。

本文目标：构建一个统一框架，让 instruction-specific clinical rubrics 不只是事后评测工具，而是进入偏好构造、奖励建模和 RL 对齐过程。

切入角度：作者把医疗回答质量分成 Proficiency、Excellence 和 Safety 三个正交维度，并把 Safety 设计为严格 veto 约束，避免模型用高效用回答抵消安全违规。

核心 idea：把每条医疗指令的细粒度 criteria 显式注入 reward model，使 reward model 在“具体 rubric 条件下”判断偏好，而不是输出一个混合所有因素的黑箱标量。

方法详解¶

整体框架¶

ProMedical 包含三层：第一层是 ProMedical-Rubrics，把每条医疗指令映射为临床 criteria；第二层是 ProMedical-Preference-50k 和 ProMedical-Bench，分别用于训练和评价；第三层是 Explicit Criteria Injection，训练 Rubric-Aware Reward Model，再用该 reward model 引导 Qwen3-8B 进行 GRPO 对齐。它的核心不是提出一个新的医疗问答模型，而是重塑医疗对齐的监督信号。

关键设计¶

三分量临床 rubric 与安全 veto:
- 功能：把医疗回答质量拆成可解释、可约束的维度。
- 核心思路：Proficiency \(S_1\) 衡量基础临床准确性和完整性；Excellence \(S_2\) 奖励同理心、逻辑清晰等超出合格线的属性；Safety \(S_3\) 检测严重幻觉、有害建议或越界行为。最终偏好不是简单求和，而是先比较 safety violation，再比较 proficiency，最后比较 excellence。
- 设计动机：医疗场景不应允许“很有帮助但有严重安全问题”的回答胜出。lexicographical comparison 让安全成为硬约束。
Human-in-the-Loop rubric 数据构造:
- 功能：在可扩展生成和医生专业校验之间取得平衡。
- 核心思路：ProMedical-Preference-50k 先经过数据来源、语义去重、难度筛选和专家引导分类，再由多个强模型生成候选回答。rubric 构造使用 Gemini-3-Pro-thinking 结合静态专家系统指令和动态 few-shot 示例，医生每轮审阅 500 条并把修正后的 gold standard 回注到示例池。
- 设计动机：完全人工写 rubric 成本太高，完全自动生成又容易医学幻觉。迭代式 HITL 让生成质量逐步收敛，作者报告 strict expert evaluation 通过率 96.40%。
显式 Criteria Injection 的 reward model:
- 功能：让 reward model 学会“在某个具体标准下比较两个回答”。
- 核心思路：传统 reward model 学 \(P(y_w \succ y_l|x)\)；本文改成 \(P(y_w \succ y_l|x,c)\)，其中 \(c\) 是某个 rubric criterion。一个回答对会被展开成多个 criterion-conditioned 训练实例，并分别标注该维度下的偏好。
- 设计动机：标量 reward 容易把安全、专业性和表达质量混在一起。criteria-conditioned 训练能显式拆开监督信号，后续再按安全 veto、主能力和 excellence 分层聚合。

损失函数 / 训练策略¶

Reward model 使用 Bradley-Terry 风格的 pairwise loss，输入包含 instruction、候选回答和 criterion，优化 criterion-conditioned reward margin。策略对齐阶段用 ProMedical-RM 作为 proxy oracle，为 Qwen3-8B 的 GRPO 采样输出计算分层 reward；安全违规惩罚系数被设为足以压过任何正向效用，避免安全问题被其他维度抵消。

实验关键数据¶

主实验¶

ProMedical-Bench 包含 795 个 held-out 样本，并展开为 5,505 个 criterion-level pair：3,625 个 Proficiency、1,650 个 Excellence、230 个 Safety。双盲医生 adjudication 的 weighted Cohen's Kappa 为 0.88。

模型	Pointwise Proficiency	Pointwise Safety	Pairwise Safety	Overall Accuracy
GPT-5	91.50	76.45	77.39	76.42
Gemini-3-Pro	89.80	64.10	65.65	64.80
DeepSeek-R1	89.50	78.80	80.00	78.55
Qwen3-8B	50.15	62.79	65.64	64.30
PairRM-LLaMA3-8B	76.50	58.80	60.43	58.95
medical_o1_verifier_3B	75.20	51.90	53.04	51.10
ProMedical-RM-8B (Llama)	90.15	87.20	86.10	85.40
ProMedical-RM-8B (Qwen3)	90.85	88.50	87.39	86.55

消融实验¶

模型	Safety Precision	Safety Recall	Safety F1	说明
GPT-5	79.24	73.85	76.45	闭源强模型仍漏掉部分安全 veto
DeepSeek-R1	81.50	76.28	78.80	开源推理模型较强，但低于 ProMedical-RM
PairRM-LLaMA3-8B	62.45	59.80	61.10	易把安全与文本流畅性混淆
medical_o1_verifier_3B	55.30	50.80	52.95	recall 明显不足
ProMedical-RM (Llama)	89.40	85.10	87.20	细粒度监督带来稳定提升
ProMedical-RM (Qwen3)	91.50	86.80	89.09	最佳 Safety Veto 检测

外部泛化与策略对齐¶

方法	Q	Q+Criteria	Q+Sub	结论
Ultra-Medical	80.53	-	-	标准偏好优化基线
RaR	79.03	80.10	81.32	rubric 相关基线
InfiMed-ORBIT	80.85	81.07	81.63	细粒度偏好基线
ProMedical	81.94	82.32	83.60	三种粒度均更高
ProMedical-RAG	81.60	83.20	84.28	外部医学知识增强后 Q+Sub 最优

关键发现¶

ProMedical-RM-8B (Qwen3) 的 Overall Accuracy 达 86.55%，超过 GPT-5 的 76.42 和 DeepSeek-R1 的 78.55，说明专门的 rubric-aware reward model 能在细粒度临床标准上超过通用强模型。
Llama backbone 版本也达到 85.40%，只比 Qwen3 版低 1.2 个点，证明增益主要来自 explicit criteria injection，而不是某个 backbone 自身能力。
Meditron-70B 的 Overall Accuracy 只有 53.40%，说明参数规模和医学预训练不能自动带来安全约束遵循。
Safety Veto F1 从 GPT-5 的 76.45 提升到 ProMedical-RM(Qwen3) 的 89.09，提升集中在高风险医疗边界识别。

亮点与洞察¶

论文最关键的贡献是把 clinical rubric 从评测端前移到训练端。医疗对齐不是“多做偏好数据”就够了，而是要让偏好标签有明确的临床理由。
Safety 作为 veto 而非 soft penalty 很重要。很多通用 alignment 方法允许维度之间互相抵消，但医疗场景中一个严重幻觉足以否定整个回答。
ProMedical-Bench 的双盲医生 adjudication 和 0.88 Kappa 提升了 benchmark 可信度，也让 reward model 的提升更有说服力。
Criteria-conditioned reward model 的思想可迁移到法律、金融、教育等高风险领域：先把标准拆成明确 criteria，再让模型学习按标准评价。

局限与展望¶

框架依赖专家共识，在存在争议、指南不一致或地区差异明显的医疗问题上，rubric 本身可能难以定义。
当前只处理文本模态，无法覆盖真实医疗流程中常见的影像、检验指标、生命体征和结构化病历。
HITL pipeline 成本仍然高，虽然比纯人工可扩展，但每个新专科或新地区标准都可能需要重新校准。
论文使用 reward model 引导生成模型，但最终回答仍可能产生医学幻觉；真实部署必须有人类医生监督。
benchmark 和数据构造依赖强模型生成候选和 rubric 初稿，需要持续监控生成模型偏差对数据分布的影响。

评分¶

新颖性: ⭐⭐⭐⭐ 把 instruction-specific rubric 显式注入 reward model 是很扎实的高风险对齐设计。
实验充分度: ⭐⭐⭐⭐⭐ 数据集、benchmark、reward model、safety 指标和外部泛化都覆盖得较完整。
写作质量: ⭐⭐⭐⭐ 方法线清晰，表格信息密集；个别公式排版略复杂。
价值: ⭐⭐⭐⭐⭐ 对医疗 LLM alignment 和可解释 reward modeling 有直接参考价值。