Reliable to Expressive: A Curriculum for Rubric-Following Safety Judges¶
会议: ICML 2026
arXiv: 2606.09165
代码: 待确认
领域: LLM评测 / 安全审判 / 课程学习
关键词: 安全审判器, rubric-following, 动态评分标准, 课程学习, 跨标准鲁棒性
一句话总结¶
把"安全审判"重新定义为"遵循评分标准(rubric)"的问题,用「实例条件化的动态 rubric」+「先可靠后表达(reliable-to-expressive)的课程」训练一个 12B 审判器,使其在三套写法迥异的 rubric 下都保持 94%+ 准确率、跨标准波动仅 0.76,稳定性碾压参数量更大的 20B/30B 审判器。
研究背景与动机¶
领域现状:用 LLM 当"安全审判器"(safety judge)来自动判定一条模型回复是否违规已是主流做法,从通用大模型直接 prompt,到 Llama-Guard / ShieldGemma 这类专门训练的安全分类器都属此列。
现有痛点:最近的元评测工作发现这些审判器极其脆弱——仅仅给回复加一点风格化扰动,假阴率(false-negative rate)就能摆动多达 0.24;某些对抗性输出甚至能让审判器把 100% 的有害回复 judge 成"安全"。一个会被改写措辞就翻盘的审判器,部署到生产线上是危险的。
核心矛盾:根因在于"训练目标"和"实际需求"的错配。标准 SFT 在单一固定 rubric 上微调,模型学到的是表面信号——礼貌措辞、明确拒绝的话术、道歉模板——而不是真正去推理"这条回复有没有违反给定的评判标准"。一旦 rubric 被改写、政策措辞变化、或对抗输出绕开了表面模式,性能立刻崩。
安全场景为何更致命:安全判定本质上是多准则且合取(AND-of-criteria)的——一条回复只有满足 rubric 里每一条准则才算安全,违反任意一条即不安全。BeaverTails 的 14 个危害类别、Llama-Guard 的多类型 OR、SORRY-Bench 的 45 类,都体现了"漏掉任一准则就放过一条有害回复"的语义。在这种合取语义下,因改写、准则脱落或表面捷径而漏判单条准则,就会悄无声息地放行危险内容。
本文目标 + 核心 idea:作者把安全审判重构为 rubric-following 问题——审判器的任务是"解释并应用给定的评分标准",而不是"记住某个特定模板"。一个鲁棒的审判器,其判决应是所供 rubric 的函数,而非权重里某个记忆模板的函数。围绕这个重定义,本文用「动态 rubric 暴露多样性 + 课程学习先稳后扩」来训练,使审判器学会规则本身而非套模板。
方法详解¶
整体框架¶
整条管线分两段:离线的动态 rubric 生成和在线的课程式 SFT。生成阶段从公开人工标注的安全数据里取出 (prompt \(x\), response \(y\), label \(z\)) 三元组,让一个冻结的 GPT-4.1 针对每个实例写一份"为什么这条回复被判为 \(z\)"的具体评分标准,再用"标签回收过滤器"剔除不靠谱的 rubric,得到约 27K 条实例条件化 rubric。训练阶段从 gemma-3-12b-it 出发做单次 SFT,但喂入的数据混合比例由一条课程曲线控制:前期几乎全是干净的固定 rubric 打底,后期逐步加大噪声更大、覆盖更广的动态 rubric 占比。最终产出一个 12B 审判器,输入是 (rubric, \(x\), \(y\))、输出只有一个 <is_safe>safe/unsafe</is_safe> 标签。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["公开安全数据<br/>(x, y, z) 三元组<br/>BeaverTails"] --> B["rubric-following 重定义<br/>判决 = f(供给的 rubric)<br/>AND-of-criteria 语义"]
B --> C["实例条件化动态 rubric<br/>GPT-4.1 写 3-6 条准则<br/>+ 标签回收过滤"]
A --> D["固定 rubric 语料<br/>12 类危害 taxonomy<br/>~28K 干净监督"]
C --> E["可靠→表达 课程调度<br/>前2轮纯固定→逐轮 +0.1 动态<br/>p_t(dyn)=min(1, αt/T)"]
D --> E
E --> F["12B 审判器 SFT<br/>gemma-3-12b-it"]
F --> G["跨三套 rubric 评测<br/>HarmBench / ShieldGemma / 领域"]
关键设计¶
1. 把安全审判重定义为 rubric-following,并配一套可量化的评测协议
本文最核心的概念创新不是模型结构,而是问题表述。形式上,审判器 \(J\) 对 prompt \(x\)、response \(y\),在 rubric \(r\) 条件下输出标签 \(\hat{z}=J(x,y;r)\),其中 \(r\) 被视为准则集合 \(\{c_1,\dots,c_K\}\),采用合取语义:每条准则都满足才 safe,任一被违反即 unsafe。标准 SFT 只用单一固定 rubric \(r_0\),把审判器行为和这个 rubric 绑死,在合取语义下漏一条准则就翻判,因此格外脆弱。为了直接"测出"rubric-following 能力,作者设计的协议是:固定数据、只换 rubric。给定指标 \(m\) 与三套 rubric prompt \(r_1,r_2,r_3\),定义跨标准极差
极差越小,说明判决越是由 rubric 内容(而非某种 prompt 表面格式)主导。这个 Range 就是全文的核心鲁棒性指标——它把"会不会跟着规则走"从一句口号变成了能比大小的数字。
2. 实例条件化动态 rubric:用三步管线把人工标签转成"遵循标准"的监督
要让模型学会跟着 rubric 走,就得让它见过同一判决目标下、措辞/粒度/侧重各异的多种 rubric。动态 rubric \(r_{\text{dyn}}(x,y,z)\) 同时条件于 prompt、response 和真值标签 \(z\),落地为一小串(通常 3–6 条)针对该实例的准则,如"回复是否泄露了第三方的可识别个人信息?"。生成管线三步走:(1) 三元组取源——从 BeaverTails 等人工标注数据取 \((x,y,z)\),让生成的 rubric 锚定到一个真实判决而非凭空描述;(2) LLM 写 rubric——冻结的 GPT-4.1 接到三元组后,被要求输出一份结构化准则列表(每条是关于某个具体安全方面的 yes/no 问题),且必须条件于 \(z\),这一点很关键,它把 rubric 钉在正确判决上、防止模型幻想出与回复无关的危害类型;(3) 质量过滤——因为 LLM 生成的 rubric 可能不完整、自相矛盾或与 \(z\) 冲突,作者用一个标签回收过滤器:用独立的审判 prompt 把生成的 rubric 重新套回它的源 \((x,y)\),若回收出的判决和原标签 \(z\) 不一致就丢弃。存活的 rubric 与其 \((x,y)\) 配成训练样本。这批语料的特点正是"共享判决目标、但准则表述多变",恰好是课程后期要吸收的那种变异性。
3. 可靠→表达(reliable-to-expressive)课程调度:先用干净数据立根,再逐步引入噪声
为什么不能把动态 rubric 直接和固定 rubric 混进 SFT?因为消融显示朴素混合反而把跨标准方差从 1.44 推高到 3.60——噪声监督一上来就动摇了判决边界。作者的解法是把课程按"监督可靠度"排序:动态占比按 \(p_t(\text{dynamic})=\min(1,\alpha\cdot t/T)\) 随训练步 \(t\) 增长(\(T\) 为总步数,\(\alpha\) 控制最终动态比例)。实验取 \(T=10\) epoch、\(\alpha=1\):前 2 个 epoch 纯用固定 rubric 当 warm-up,把决策边界锚在最干净的信号上;从第 3 epoch 起动态占比每轮 +0.1,混合比例走 \(\{0.9/0.1\},\{0.8/0.2\},\dots\),到第 10 epoch 达到 \(\{0.2/0.8\}\)(固定/动态)。注意这是"先可靠后表达"而非传统的"先易后难"——监督随着模型变得能扛噪声而逐渐更灵活。整个过程仍是单次 SFT、token 级交叉熵,无独立后训练或 RL 阶段;课程是唯一把本文审判器和同底座、同固定语料的标准 SFT baseline 区分开的机制。
损失函数 / 训练策略¶
从 gemma-3-12b-it 出发,对 \((\text{rubric}, x, y, \text{label})\) 元组做标准 token 级交叉熵 SFT,每个元组渲染成推理时一致的 chat 模板。动态 rubric 生成在训练前离线完成。训练数据两路:约 28K 条对齐 12 类风险 taxonomy 的固定 rubric(人工策划、准则一致)+ 约 27K 条过滤后的动态 rubric。推理时只让模型吐最终标签、刻意关闭 CoT,既省推理成本,又避免跨标准测量被推理长度差异污染。
实验关键数据¶
主实验¶
评测集是单一人工标注语料:一个受监管(金融)领域安全语料,覆盖 26 个细粒度风险类别(金融诈骗、市场操纵、洗钱协助、合规违规等),每类 20 对、按 8 safe : 12 unsafe,共 520 条(208 safe / 312 unsafe)。8:12 的偏置刻意加重"漏判 unsafe"这一对部署更昂贵的错误类。三套 rubric 共用一个五字段 chat 模板,只换 rubric 内容本身。
| 组别 | 模型 | HarmBench | ShieldGemma | 领域专用 | Range ↓ |
|---|---|---|---|---|---|
| BASE | gemma-3-12b-it | 91.35 | 85.19 | 85.96 | 6.16 |
| BASE | Qwen2.5-14B-it | 93.08 | 85.19 | 92.88 | 7.89 |
| GUARD | Llama-Guard-3-8B | 75.00 | 59.62 | 84.23 | 24.61 |
| REASONING | gpt-oss-safeguard-20B | 92.69 | 92.23 | 94.62 | 2.39 |
| REASONING | Qwen3-30B-A3B-Thinking | 85.00 | 92.50 | 89.81 | 7.50 |
| Ours (Curriculum) | 12B | 94.23 | 94.12 | 94.88 | 0.76 |
课程审判器在每一套 rubric 上都拿最高准确率(94.12–94.88),跨标准极差仅 0.76——比 20B 的 gpt-oss-safeguard(2.39)和 30B 的 Qwen3(7.50)都更稳,且参数只是它们的一小部分。通用 LLM 和 GUARD 类换个 rubric 写法就剧烈摆动(6.16–24.61),说明其判决紧紧耦合于某种 prompt 模板而非 rubric 内容。
消融实验¶
| 配置 | Accuracy Range ↓ | Unsafe-Recall Range ↓ | 说明 |
|---|---|---|---|
| Ours (Fixed) | 1.44 | 3.10 | 仅固定 rubric SFT,已是不错的基线 |
| Ours (Dynamic) | 3.60 | 6.09 | 固定+动态朴素混合,无课程,反而变差 |
| Ours (Curriculum) | 0.76 | 2.86 | 阶段式课程,方差约降 2× 且准确率回升 |
unsafe 召回是安全审判最要命的指标(漏报 unsafe 代价最高)。课程审判器在三套 rubric 下召回均 ≥92.79、极差 2.86,召回地板最高。对照 Llama-Guard-3-8B 虽在领域 rubric 上召回 95.13,但其准确率只有 84.23——靠滥贴 unsafe 刷召回,精度被牺牲(unsafe-F1 极差高达 16.49)。
关键发现¶
- 课程是唯一变量,效果却最大:固定→动态朴素混合让 Accuracy 极差从 1.44 涨到 3.60、召回极差从 3.10 涨到 6.09,证明噪声监督直接灌入会损害稳定性;唯有"先可靠后表达"的调度能把方差降到 0.76 并同时提升峰值准确率。
- 稳定性可以脱离参数量:12B 课程审判器在峰值准确率和跨标准稳定性上都压过 20B/30B 推理型审判器,说明"跟着 rubric 走"是个可以被训练注入的能力,而非靠堆参数涌现。
- 召回 vs 精度要一起看:单看召回会被"无差别贴 unsafe"刷高(Llama-Guard 即如此),因此本文同时报告 worst-rubric F1 与 F1 极差作为部署相关的下界。
亮点与洞察¶
- 重定义比新模型更值钱:本文没改架构,只把"安全审判"重述为"rubric-following",并配上"固定数据、只换 rubric、用极差量化"的评测协议——一个干净、可复现、直击痛点的 benchmark 设计,本身就是贡献。
- 标签回收过滤器很巧:用一个独立审判 prompt 把生成的 rubric 套回源样本、看能否回收出原标签,等于给 LLM 自动生成的监督加了一道自洽性校验,几乎零额外人工就把噪声 rubric 挡在门外。这个"生成-回收-一致才保留"的思路可迁移到任何"用 LLM 造结构化监督"的场景。
- "先可靠后表达"重排了课程学习的轴:传统课程按"难度"排序,本文按"监督可靠度"排序——干净人工 rubric 先立根、噪声 LLM rubric 后扩面。这个视角解释了"为何朴素混合反而更差",也给"如何安全地引入噪声合成数据"提供了一条具体调度。
局限与展望¶
- 评测集偏窄:核心结论建立在单一金融领域、520 条样本、仅 3 套 rubric 上,跨领域(医疗、法律)和更多 rubric 写法下的鲁棒性还需验证。
- 依赖一个强生成器:动态 rubric 由冻结 GPT-4.1 生成,rubric 质量上限受这个外部模型制约;若换用更弱的开源生成器,过滤后存活率和监督质量可能下滑。
- 关闭 CoT 的取舍:为省成本和避免混淆而禁用链式推理,可能限制审判器在真正复杂、需要多步推理的边界 case 上的表现;作者也提到 RL(如 GRPO)正交但初步实验更贵更不稳,留作未来。
- 课程曲线是手调的:\(T=10\)、\(\alpha=1\)、前 2 轮 warm-up 这些超参由实验定,缺少对调度形状敏感性的系统分析。
相关工作与启发¶
- vs Prometheus / Prometheus 2(rubric 条件评估器):它们研究"给定 rubric 下的判决质量",本文则问"rubric 被改写/替换后判决还稳不稳",把 rubric-following 当作首要能力而非副产品来训练和度量。
- vs Llama-Guard / ShieldGemma / GuardReasoner(专用安全分类器):它们对固定政策 schema 分类,换新政策通常要重训而非重 prompt,且元评测显示其在风格扰动下脆弱;本文训练审判器条件于所供 rubric,换政策只需换 rubric 文本。
- vs 传统课程学习(Bengio 2009 等):本文把排序轴从"难度"改成"监督可靠度",提出 reliable-to-expressive 调度,正是这一改动让噪声动态 rubric 从负担转为净增益。
评分¶
- 新颖性: ⭐⭐⭐⭐ 模型结构无新意,但"重定义为 rubric-following + 可量化协议 + 可靠度课程"组合很扎实。
- 实验充分度: ⭐⭐⭐⭐ 三组 baseline、三套 rubric、Acc/Recall/F1 三指标加消融,逻辑闭环;唯评测集偏窄。
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰,AND-of-criteria 与极差指标讲得到位。
- 价值: ⭐⭐⭐⭐ 对部署安全审判器、以及"如何安全引入合成监督"都有直接借鉴意义。