LLMs on Trial: Evaluating Judicial Fairness for Large Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=C5Ihi4bVQt
代码: https://github.com/THUYRan/LLM-Fairness
领域: LLM 安全 / 公平性评测 / LLM-as-a-Judge / 法律 NLP
关键词: judicial fairness, LLM-as-a-judge, counterfactual prompting, bias, fixed-effect regression, legal NLP

一句话总结¶

本文从司法公平理论出发，构建了含 65 个标签、161 个取值的 LLM 司法公平评测框架与 17.7 万条反事实案件数据集 JudiFair，并用「不一致性 / 偏见 / 不平衡误差」三指标 + 固定效应回归 + Bernoulli 检验严格审计 16 个 LLM，发现所有模型都存在普遍且系统性的司法不公平。

研究背景与动机¶

领域现状：LLM 正被越来越多地用于起草司法文书、给出量刑建议等高风险法律场景，当 LLM 充当「法官」时，能否公平裁决直接关系到其可信度。然而已有的 LLM 公平性研究大多集中在通用领域（性别、种族等少数人口属性），最多覆盖 9 个标签，缺乏理论根基、概念定义模糊、也缺少严谨的统计方法。

现有痛点：法律领域的公平评测存在三处系统性缺口。其一，只看实体（substance）不看程序（procedure）——既有工作几乎只关注案件事实本身的人口属性，却忽视了辩护人类型、法院层级、是否公开审理等程序性因素，而程序公平恰恰是法治的核心。其二，碎片化、case-by-case——因素零散、没有统一框架和理论支撑，即便模型在通用公平 benchmark 上得分高，也无法说明其司法公平。其三，统计不严谨——多依赖简单比例对比，没有控制案件固有特征、没有多重检验校正，结论容易被随机性污染。

核心矛盾：法律裁决既受法定因素影响，也受大量「法外因素」（extra-legal factors，如被告户籍、辩护人性别、法院层级）影响；要测 LLM 的司法公平，就必须系统地枚举这些法外因素并用能控制混杂的统计方法分离其净效应——而这正是现有 benchmark 所缺的。

本文目标：建立一个有理论根基、覆盖实体与程序双维度、且统计上稳健可解释的 LLM 司法公平评测体系，并用它实证审计当前主流 LLM 到底有多不公平。

核心 idea：（1）双层公平框架——把法外因素沿「实体 vs 程序」「人口属性 vs 非人口属性」两个正交维度切成四类，理论上覆盖远比以往全面的公平维度；（2）反事实 prompting 造数据——对真实判决书做最小改动、逐一替换触发句中的某个事实，理想的中立 LLM 应在无关事实变动时保持判决不变；（3）社科级统计推断——用高维固定效应回归 + 聚类稳健标准误 + Bernoulli 检验，把「系统性偏见」与「随机噪声」严格区分开。

方法详解¶

整体框架¶

方法分四步串成一条审计流水线：先用司法公平理论搭出 65 标签 / 161 取值的双层标签体系；再从 LEEC 真实判决书出发，由 40 多名法律专家标注触发句并做反事实替换，得到 1,100 份文书 × 多取值扩展出的 177,100 条案件事实数据集 JudiFair；接着把每条事实喂给 LLM 让其预测量刑（有期徒刑月数）；最后用三指标 + 回归 + Bernoulli 检验把预测结果统计性地判定为「不一致 / 有偏 / 不平衡误差」与否，并聚合到模型层面和全体模型层面。

flowchart LR
    A[司法公平理论<br/>实体/程序 × 人口/非人口] --> B[65 标签 161 取值<br/>标签体系]
    B --> C[LEEC 真实判决书<br/>40+ 法律专家标注触发句]
    C --> D[反事实替换<br/>逐取值生成 query]
    D --> E[JudiFair<br/>177,100 条案件事实]
    E --> F[16 个 LLM 预测量刑月数]
    F --> G[三指标 + 固定效应回归<br/>+ Bernoulli 检验]
    G --> H[模型级 / 全体级<br/>司法公平判定]

关键设计¶

1. 双层公平框架：把法外因素切成实体/程序 × 人口/非人口四象限。 框架的理论支点是「程序公平独立于实体公平」——Rawls、Waldron、Fuller、Tyler 等法哲学家都论证过程序本身（透明、一致、中立、参与者尊严）是合法性的道德基础，且经验研究显示程序因素（如自诉人被视为能力较弱、庭审是否直播）会实质改变裁判结果。基于此，本文把所有法外因素沿两条正交轴划分：实体因素（案件事实、被告/被害人的人口属性等与犯罪本身直接相关者）vs 程序因素（辩护人类型、法院层级、是否公开审理、法官属性等独立于案情的裁判过程因素）；同时叠加 人口属性（被告族裔、性别、被害人年龄等）vs 非人口属性（犯罪时间地点、回避、附带民事诉讼等）。值得注意的是，司法工作人员相关属性（如辩护人性别、法官年龄）被归为「程序性人口属性」。这一框架直接填补了以往「只测实体人口属性」的盲区。

2. 反事实 prompting 数据集 JudiFair：最小改动 + 独立查询。 受 APriCot 启发，做法是先从真实判决书里定位与某标签相关的「触发句」，用原始事实构造初始 query，再把触发句中的事实逐一替换为该标签的其它取值（counterfactual），从而对单个案件×单个标签生成一组只在该事实上有差异的 query。两个关键设计取舍：一是每个反事实取值单独成一条 query（而非把多个选项并列在同一 prompt），强制 LLM 独立评估、避免相邻选项间的捷径与对比污染；二是让 LLM 基于逻辑推理而非经验频率作答，以削弱 Base Rate Probability 的影响。最终从 1,100 份判决书（自 LEEC 因犯罪覆盖广而选取）扩展出 177,100 条案件事实，标注以触发句精确匹配为主、匹配失败时用 LLM 语义检索再经专家复核。

3. 三维公平指标：不一致性 / 偏见 / 不平衡误差。 三个指标刻画公平的不同侧面。不一致性（Inconsistency）——即便温度为 0、输入相同，仅改变某无关标签的取值就导致判决变化的文书比例；按各标签有效样本量 \(w_l\) 加权平均：\(\text{Inconsistency} = \frac{\sum_{l=1}^{N} w_l \cdot p_l}{\sum_{l=1}^{N} w_l}\)，其中 \(p_l\) 是标签 \(l\) 取值变化时预测改变的文书比例。偏见（Bias）——是否存在沿某取值的系统性方向性偏移。不平衡误差（Imbalanced Inaccuracy）——借助 JudiFair 来自真实判决书的特点，可用真实量刑衡量准确率，并检验不同群体（如男 vs 女被告）的预测误差是否系统性不等。三者还能互相关联分析（详见关键发现）。

4. 社科级统计推断：固定效应回归 + Bernoulli 检验把偏见与噪声分开。 这是本文方法学上最硬核的部分。对每个标签做回归，因变量取量刑月数的自然对数（加 1 以处理右偏分布），自变量是关注标签 Treated（设一个参考组，其余取值各建一个哑变量），并加入文书 ID 固定效应以吸收每份判决书的固有特征、从而隔离出标签净效应：\(\text{Ln(Sentence)} = \gamma + \sum_{j=1}^{j-1} \alpha_j \cdot \text{Treated}_j + \sum_{i=1}^{i-1} \beta_i \cdot \text{ID}_i + \varepsilon\)。用 Stata 的 REGHDFE 高维固定效应回归（每次回归约引入上千个 ID 变量），并在 ID 层做聚类稳健标准误以应对同一文书内的相关性。由于同时检验大量标签时「显著」可能纯由随机产生，本文把每个标签检验视作 Bernoulli 试验（\(p \le \tau\) 记为成功），对每个模型在 96 个取值 / 65 标签上做 Bernoulli 检验：\(p_{\text{Bernoulli}} = \sum_{l=k}^{N} \binom{N}{l} \tau^l (1-\tau)^{L-l}\)，\(p_{\text{Bernoulli}}\) 小说明显著标签数远超噪声所能解释，即该模型偏见是系统性的；再对全体模型聚合做一次 Bernoulli 检验。不平衡误差用同一回归框架，只是把因变量换成预测与真实量刑的绝对差 \(\text{Abs Dif}\)。

实验关键数据¶

设置：评测 16 个 LLM（跨参数量、发布时间、产地），主分析温度设为 0 以最小化随机性，偏见显著性阈值取 \(p<0.1\) 与 \(p<0.05\)。

主实验：偏见率排名（温度=0，p<0.1）¶

模型	实体	程序	总偏见	实体%	程序%	总%
Phi 4	17/25	22/40	39/65	68%	55%	60%
Gemini Flash 1.5 8B	14/25	19/40	33/65	56%	48%	51%
GLM 4	9/25	18/40	27/65	36%	45%	42%
DeepSeek R1-32B Qwen	9/25	13/40	22/65	36%	33%	34%
Mistral Small 3	5/25	14/40	19/65	20%	35%	29%
LFM 40B MoE	2/25	10/40	12/65	8%	25%	18%

总偏见率从 18% 到 60% 不等，且大多数模型程序偏见高于实体偏见。

三指标汇总（温度=0，节选）¶

模型	不一致性	显著偏见标签数	Wt.Avg MAE	Wt.Avg MAPE	不平衡误差标签数
Phi 4	0.173	39	47.995	142.787	25
Qwen2.5 72B Inst.	0.140	30	61.759	169.048	29
Gemini Flash 1.5	0.134	30	56.142	165.735	35
GLM 4	0.142	27	60.172	187.157	19
LFM 40B MoE	0.588	12	111.115	555.326	15
DeepSeek R1-32B Qwen	0.551	22	46.341	122.468	9

15 个温度=0 的模型平均不一致性 >15%（约 18% 文书因无关取值变动而改判）；Bernoulli 检验显示 15 个中 14 个存在显著偏见，全体模型聚合 p<0.01。平均 Wt.Avg MAE 64.871（即量刑平均偏离真实判决 5 年以上），平均 MAPE 219%（LLM 判决普遍比真实量刑严苛数倍）。

关键发现¶

三指标内部相关：不一致性与显著偏见标签数显著负相关——输出越随机，反而越掩盖底层偏见；偏见与不平衡误差显著正相关；尤其准确率越高、偏见越严重——LLM 学到真实司法数据的模式时，预测变准是以放大偏见为代价的。
偏见结构：程序因素（尤其法官属性）的 p 值比实体因素更小；人口属性偏见显著强于非人口属性；强制措施、法院层级是最易偏的两个标签。被告财富在 13 个模型中 10 个显著有偏，被害人年龄仅 1 个模型有偏。
偏见镜像现实：LLM 偏见方向往往复刻实证法学发现的真实司法偏见（如女性被告量刑更宽、农村户籍被告遭「惩罚效应」）；但性取向等中国判决书通常不含的属性也会致偏，说明偏见来源不限于司法记录。
温度可调，但规模/时间/产地无效：升温显著加剧不一致性、却减少显著偏见标签数（p<0.01，随机性掩盖偏见）；发布更新、参数更大、中美产地均未系统性降低不公平，增大参数甚至可能加剧不一致性。

亮点与洞察¶

首次把「程序公平」系统引入 LLM 公平评测：以往 LLM 公平研究几乎只盯人口属性，本文用法哲学（Rawls/Waldron/Fuller/Tyler）论证程序因素的独立地位并实证其偏见更强，是概念层面的真正补全。
社科级统计严谨度罕见：高维固定效应回归 + 聚类稳健标准误 + Bernoulli 多重检验 + 多重稳健性检查，把「显著」从随机噪声里干净地分离出来，远超「比例对比」式 benchmark，给 LLM 审计提供了可复用的方法学模板。
反事实最小改动 + 独立查询的造数据范式干净地隔离单一因素净效应，避免选项并列带来的捷径污染。
「准确率↑则偏见↑」的反直觉发现极具警示性：意味着单纯追求 LLM 在司法任务上更「准」可能在伦理上适得其反，公平与准确存在张力。
配套开源 JudiFair 数据集与 JustEva 工具包，可迁移到其它法系。

局限与展望¶

仅限中国法系与刑事量刑：标签体系与数据均基于中国刑事判决书、因变量是有期徒刑月数，跨法系（普通法、量刑指南制）与跨案件类型（民事、行政）的普适性需进一步验证，作者也承认目前只在中国法系内做了实验。
「真实量刑」作为公平基准本身存疑：不平衡误差以真实判决为 ground truth，但真实司法本身就含偏见（论文也证实 LLM 偏见镜像现实偏见），因此「贴近真实」与「公平」未必一致。
只测了 LLM-as-a-judge 的量刑预测，未覆盖文书起草、法律检索等其它司法用途；也未深入归因偏见来自预训练语料、对齐还是 prompt。
未给出缓解方案：本文是诊断性 benchmark，除观察到温度可微调外，并未提出降低司法不公平的训练/对齐方法，留给后续工作。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统引入程序公平维度、用社科级统计推断审计 LLM 司法公平，框架与方法学均有真正创新。
实验充分度: ⭐⭐⭐⭐⭐ 16 个模型 × 65 标签 × 17.7 万案件 × 双温度 + 多重稳健性检查，并挖出「准确率↑偏见↑」等多个非平凡相关，扎实。
写作质量: ⭐⭐⭐⭐ 理论铺陈充分、指标定义清晰；但内容密集、大量结论压在附录，主文阅读门槛偏高。
价值: ⭐⭐⭐⭐⭐ 高风险法律场景的公平审计具现实紧迫性，开源数据集 + 工具包 + 可迁移方法学，对负责任部署 LLM 价值显著。