ICLR 2026 Reasoning 法律推理评测基准长文本开放问答多语言 LLM-as-a-Judge 过程式评估

LEXam: Benchmarking Legal Reasoning on 340 Law Exams¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=xNhbMyXsJn
代码: https://lexam-benchmark.github.io/
领域: LLM 推理 / 法律 NLP 评测基准
关键词: 法律推理, 评测基准, 长文本开放问答, 多语言, LLM-as-a-Judge, 过程式评估

一句话总结¶

LEXam 把苏黎世大学 340 套真实法学院考试整理成 7,537 道英德双语题（开放问答 + 多选），不只看最终答案对不对，还用专家校准过的集成 LLM 评委去评判模型的多步法律推理过程，揭示当前 SOTA 模型在结构化法律推理上仍大面积翻车。

研究背景与动机¶

领域现状：测试时扩展（test-time scaling）让 o3、DeepSeek-R1 这类推理模型在数学奥赛、物理题等 STEM 任务上表现亮眼，因为这些任务以演绎推理和确定性规则为主，可以直接核对数值答案或用形式化验证器判定对错。

现有痛点：法律推理是另一类问题——它既要严谨的演绎/归纳逻辑，又要把规则套用到界定模糊的真实场景里，本质上是"非形式化推理"。但已有法律基准（LegalBench、LawBench 等）几乎都沿用 STEM 那套只看最终输出对不对的范式，把中间推理过程当黑箱。结果就是：模型答错了你也不知道它是哪一步崩的，而法律是高风险领域，这种"知其错不知其所以错"会带来实质危害。

核心矛盾：法律答案的"正确"往往词面重合度很低——同一个结论可以有完全不同的措辞，而措辞相似也不代表推理合法（引错法条照样语义接近）。这让 BLEU/ROUGE/BERTScore 这类浅层指标失效，但又没有现成的形式化验证器可用，过程式评估缺乏可靠、可扩展的工具。

本文目标：造一个能同时考察过程与结果正确性、且覆盖多语言多法系的法律推理基准，并配一套经过人类专家严格验证、可复现的评估管线。

核心 idea：① 用真实法学院考试当题源——这些题天然带教授手写的参考答案和"应该怎么推"的规范指引（issue spotting → rule recall → rule application），把过程式评分变得有据可依；② 用集成 LLM-as-a-Judge 替代浅层指标，并用统计检验（Alt-test）证明这个评委能稳定逼近甚至超过人类专家。

方法详解¶

整体框架¶

LEXam 的构建是一条"原始考卷 → 结构化题库 → 双轨评估"的流水线：先由受过法学训练的标注者从苏黎世大学公开的 340 套考卷（2016–2023，116 门课）中抽取题目并打上领域元数据；开放题（2,841 道）走"过程 + 结果"双重评估，由集成 LLM 评委和人类专家共同打分；多选题（4,696 道）则通过排列组合扩充干扰项，走清晰的结果式 accuracy 评估。

flowchart TD
    A[340 套真实法学院考卷<br/>116 门课 / 英德双语] --> B[专家抽取 + 课程元数据标注<br/>领域/法系/语言/年份]
    B --> C[开放题 2,841 道<br/>带参考答案 + 规范推理指引]
    B --> D[多选题 4,696 道<br/>排列扩充 3/7/15/31 干扰项]
    C --> E[集成 LLM 评委<br/>GPT-4o + Qwen3-32B + DeepSeek-V3<br/>取最小分]
    E --> F[Alt-test 人类专家验证]
    D --> G[Accuracy 评估<br/>含 4/8/16/32 选项扰动鲁棒性检验]

关键设计¶

1. 真实考卷题源 + 规范化推理指引：把"过程"变得可评。LEXam 没有像多数基准那样人工编题或从判例里抠片段，而是直接用苏黎世大学法学院公开的真实期末考卷，覆盖私法、公法、刑法、跨学科四大领域下细分的 78 个子领域，由三位有法学训练的作者按教学大纲归类。关键在于每道开放题都自带教授写的参考答案以及"这题该怎么推"的规范指引——比如先识别法律争点（issue spotting）、再回忆相关法条（rule recall）、最后把规则套到事实上（rule application）。这条结构化的推理链就是过程式评分的标尺：评委不是去对照某种抽象的"法律推理理论"，而是核查模型有没有遵循专家答案里的教义结构，并惩罚编造或引错法条这类领域特有错误。

2. 多选题的排列扩充与干扰项控制。原始考卷里的真/假题（TFQ）和多选题被解析成"题干 stem + 若干陈述 statement"，然后对每个 stem 随机生成含 2–5 条陈述的题目。每道题保证只有一个正确组合，干扰项从"至少有一条陈述错误"的全部组合里随机抽，配成 4 / 8 / 16 / 32 个选项（即 1 正 + 3/7/15/31 错），这样既统一了不同题目的选项数，也固定了随机猜测的基线准确率（4 选 1 约 25%）。更妙的是他们额外造了一个 385 题的扰动子集：题干和陈述顺序完全不变，只把选项数从 4 逐级放大到 32，用来诊断模型到底是真懂还是靠干扰项不够强在蒙——选项一多准确率就崩，说明后者。

3. 集成 LLM-as-a-Judge + Alt-test 统计背书。开放题评分的核心难点是"评委可信吗"。作者先让两位有法学博士训练的作者起草专用评分 prompt，以 GPT-4o 为评委做 pilot 反复迭代校准罚分力度；再用 Alternative Annotator Test (Alt-test) 严格检验候选评委能否在统计上超过人类标注者。他们发现单靠专有大模型（GPT-4o、Gemini-2.5-Pro）或超大推理模型（DeepSeek-R1）才稳定优于人类，但这会损害基准的可及性。解法是取最小分的集成：把 GPT-4o、Qwen3-32B、DeepSeek-V3 三家（两开源一闭源）的点对点打分取最小值 \(s = \min(s_{\text{GPT-4o}}, s_{\text{Qwen3}}, s_{\text{DSV3}})\)。取最小既抑制了同模型/同家族自夸的 self-bias，也让开源组合就能越过人类评委门槛，整条管线可复现、不依赖单一供应商。三位法律专家在 50 题上盲评的平均 Pearson 相关 \(r = 0.70\)，给"人类一致性"立了参照基线。

实验关键数据¶

主实验：开放题（集成 LLM 评委打分，满分 100）¶

评测 35 个模型，按 Judge Score 排序（节选）：

类别	模型	Judge Score (±S.E.)
推理	GPT-5	70.20 (±0.41)
推理	Gemini-2.5-Pro	67.40 (±0.51)
推理	Claude-3.7-Sonnet	62.86 (±0.51)
推理	DeepSeek-R1	55.91 (±0.51)
推理	Qwen3-32B	40.00 (±0.43)
大模型	GPT-4.1	57.50 (±0.51)
大模型	DeepSeek-V3	52.53 (±0.48)
大模型	Llama-3.3-70B-it	41.27 (±0.41)
小模型	GPT-4.1-mini	54.58 (±0.43)
小模型	Gemma-3-12B-it	41.29 (±0.48)
小模型	Llama-3.1-8B-it	10.00 (±0.26)

即便最强的 GPT-5 也只到 70 分，说明结构化多步法律推理远未被攻克；分数从 70 一路平滑铺到 10，证明基准有很强的区分度。值得注意的是 Gemma-3-12B-it（41.29）能逼平大它 6×/33× 的 Llama-3.3-70B / Llama-3.1-405B，得益于其多语言专长。

多选题（16 选项）与扰动鲁棒性¶

MCQ-16 上 GPT-5.2 (52.53%)、Claude-4.6-Sonnet (52.42%) 领先，大/小模型多数跌破 20%。扰动实验最能说明问题——同一批题随选项数增加，准确率系统性崩塌：

模型	4 选项	8 选项	16 选项	32 选项
Gemini-2.5-Pro	68.61	51.56	45.24	35.62
Claude-3.7-Sonnet	60.92	48.59	40.38	33.02
DeepSeek-R1	57.54	44.11	36.94	24.93
GPT-4o	53.73	36.42	22.55	21.81
DeepSeek-V3	58.57	36.07	28.92	16.03

题干不变只加干扰项就掉这么多，说明 4 选 MCQ 的高分含大量"蒙对"水分，标准多选评测会给出过于乐观的结论。

关键发现¶

语言鸿沟：所有模型英语题都强于德语题，小模型差距最大；因英德题非平行翻译，语言与法律差异交织难以解耦。
法系/领域差异：通用法和国际法题准确率高于瑞士本土法；跨学科和公法高于刑法和私法。
否定句反直觉崩盘：把多选题改成否定式（"以下哪些陈述是错误的"）后所有模型大跌，推理模型跌得尤其厉害，小模型几乎掉到随机水平。
评委可靠性：取最小分的集成评委在 Alt-test 下稳定超过人类标注者，且开源组合即可达标，三位专家盲评 \(r=0.70\)。

亮点与洞察¶

"用真考卷"是最聪明的一招：教授手写的参考答案和评分指引天然提供了过程式评分的金标准，省去了从零定义"什么是好的法律推理"这一最难的环节。
扰动诊断直击 MCQ 评测痛点：固定题干只放大选项数这一招，干净利落地把"真懂"和"蒙对"分开，给整个领域的多选评测敲了警钟。
集成取最小分这个工程化细节，同时解决了 self-bias 和可及性两个问题，且用 Alt-test 给了统计背书，比"拍脑袋选个强模型当评委"扎实得多。
否定句让推理模型崩得比普通模型更狠，这个反直觉现象暗示当前推理链在处理逻辑取反时存在系统性脆弱。

局限与展望¶

法系单一：题源全来自瑞士（大陆法系）一所学校，虽含国际/比较法内容，但缺普通法（判例法）题目，作者也把扩展到普通法列为重要未来方向。
缺人类基线：受制度限制无法获取真实考生成绩，MCQ 形式也非原考卷所有，人类表现只能在附录的独立小实验里近似给出。
英德非平行：语言差异和法律内容差异纠缠在一起，无法干净地归因"模型为何德语更差"，需高质量法律翻译才能解耦。
评委仍是 LLM：尽管 Alt-test 验证过，集成评委本质上还是模型评模型，长尾的细微教义错误是否都能被抓住仍存疑。

评分¶

新颖性: ⭐⭐⭐⭐ 用真实考卷自带的参考答案 + 规范指引来做过程式法律推理评估，配上 Alt-test 验证的集成评委，角度新颖且落地。
实验充分度: ⭐⭐⭐⭐⭐ 35 个模型、开放题 + 多选 + 选项扰动 + 多维元数据切片 + 三专家盲评 + Alt-test，覆盖面和严谨度都很高。
写作质量: ⭐⭐⭐⭐ 动机清晰、图表丰富、把过程式评估的难点和解法讲得很透。
价值: ⭐⭐⭐⭐⭐ 高质量、可复现、带可信评委的法律推理基准，对法律 NLP 和过程式评估社区都是稀缺资源。