JudgeMeNot: Personalizing Large Language Models to Emulate Judicial Reasoning in Hebrew¶

会议: ACL 2026
arXiv: 2604.18041
代码: GitHub
领域: 模型压缩
关键词: LLM个性化, 司法推理, 低资源语言, 参数高效微调, 合成指令数据

一句话总结¶

提出了一个 synthetic-organic 监督管线，将法官的原始判决文书转化为推理指令微调数据，通过 CLM→指令微调的 Chain-of-LoRA 策略实现对个体法官推理风格的高保真模拟，在希伯来语低资源场景下生成内容与真实法官不可区分。

研究背景与动机¶

领域现状：LLM 的个性化研究近年增长迅速，但大多聚焦于用户偏好（风格、推荐），而非对特定决策者推理过程的建模。法律领域中，法官的判决不仅仅是法律条文的机械应用，而是反映了个体特有的推理模式、论证重点和修辞结构。

现有痛点：(1) 原始判决文书是非结构化的长文本，推理内容与程序性模板、事实陈述交织在一起，难以直接用于训练；(2) 法官的推理决策在文本中是"无提示"的——没有显式的触发问题；(3) 单个法官的数据量有限，如何在计算高效的前提下让模型学到足够强的个体信号是核心挑战。

核心矛盾：个性化需要足够的推理监督信号，但法律判决的推理信号被大量非推理文本稀释。直接在原始文本上做因果语言建模（CLM）效率低下。

本文目标：设计一个无需人工标注、可扩展到大量法官的个性化框架，使 LLM 能够忠实模拟特定法官的推理风格和内容。

切入角度：法律领域天然提供了大量可分解的推理 trace——法官定期处理复杂决策并撰写详细论证。通过将判决分解为细粒度的推理声明（而非只看最终裁决），可以获得丰富的推理训练信号。

核心 idea：用 agentic workflow 从判决中自动提取推理声明并生成合成问题，构造推理指令集，然后通过 CLM→指令微调的两阶段 Chain-of-LoRA 实现高效个性化。

方法详解¶

整体框架¶

框架分为两阶段：第一阶段是数据生成——通过多 LLM agent 从原始判决中提取推理声明并生成合成问答对；第二阶段是模型训练——比较 CLM、指令微调、Chain-of-LoRA（CLM→指令微调）和 RAG 等个性化方案。

关键设计¶

Synthetic-Organic 对齐管线:
- 功能：将非结构化判决文书转化为高质量推理指令对
- 核心思路：使用 GPT-4.1-mini 做推理提取（temperature=0.3）、GPT-4o-mini 做验证（temperature=0.1），通过多轮 agentic workflow 实现：提取推理声明→验证提取质量→生成合成问题→验证问题保真度。最终产出 62,051 个推理句和对应的合成问题
- 设计动机：直接在原始判决上训练会稀释推理信号，而人工标注不可扩展。合成问题弥补了判决中"隐含触发问题"的缺失，让模型以问答形式学习推理
Chain-of-LoRA (CoLA) 两阶段训练:
- 功能：融合通用写作风格适应和推理特化
- 核心思路：第一步用 QLoRA 在法官全部原始判决上做 CLM（学习写作风格），将 adapter 权重合并回基座模型；第二步在合成推理指令集上再做一轮 QLoRA 微调（学习推理模式）。借鉴了 Chain of LoRA 的思想
- 设计动机：CLM 阶段让模型熟悉法官的词汇和文体特征，指令微调阶段聚焦推理逻辑。两阶段分离让模型分别学习"怎么写"和"怎么想"
多维评估体系:
- 功能：全面衡量个性化质量
- 核心思路：包含词汇相似度（BLEU、ROUGE）、语义相似度（BERTScore）、风格相似度（POS 分布的 JSD 散度）和作者辨识测试（训练二分类器区分真实 vs 生成文本）
- 设计动机：单一指标无法捕捉个性化的多层面——表面风格和深层推理需要不同指标衡量

损失函数 / 训练策略¶

使用 Gemma 3 (4B) 作为基座，QLoRA 配置（rank=8）。每个法官单独训练一个 LoRA adapter，基座权重冻结。CLM 阶段用标准因果语言建模损失，指令微调阶段用标准 SFT 损失。

实验关键数据¶

主实验（问答任务，CoLA 相对各基线的提升差值）¶

方法	BLEU↑	BS-F↑	R-L↑	POS-JSD↓
Vanilla-Gemma (基线)	0	0	0	0
Gemini-3-Pro RAG	-3.22	-0.09	-0.12	+0.02
Pers-CLM	-0.25	-0.03	-0.01	+0.02
Pers-IT	-7.02	-0.09	-0.15	+0.02
CoLA (本文)	最优	最优	最优	最优

作者辨识测试¶

方法	准确率	说明
随机猜测	50.0%	基线
真人 vs 真人	84.3%	法官间确有差异
Vanilla-Gemma	70.3%	容易被识破
CLM-only	56.2%	仍可区分
CoLA	49.8%	与随机无异，不可区分
IT-only	49.6%	与随机无异

关键发现¶

CoLA 生成的文本与真实法官不可区分：作者辨识分类器准确率降到随机水平（49.8%），说明生成质量极高
数据量比模型大小更重要：消融显示数据翻倍带来 +2.68 BLEU 提升，而 LoRA rank 翻倍仅提升 +0.77 BLEU
CLM+IT 的组合效果优于单独使用：跨法官特异性测试确认个性化效果是法官特定的，而非通用提升
RAG 擅长表面风格但弱于推理：RAG 在 POS-JSD 上表现好，但语义指标落后，说明参数适应才能真正捕获推理

亮点与洞察¶

"persona = 风格层 + 推理层" 的分解很有洞察力：RAG 能捕获表面风格但不能捕获推理，参数微调相反。这提示个性化可能需要两条路径的结合
合成监督管线的设计非常实用：从非结构化文档中用多 agent 提取推理+生成问题的模式，可以迁移到医学、教育等任何需要从专家文档中提取决策推理的领域
在 4B 参数模型上实现高保真个性化挑战了"推理需要大模型大数据"的观念——关键在于监督信号的结构化

局限与展望¶

只关注细粒度推理声明，未建模案件级别的整体推理链
不考虑法官推理风格随时间的漂移
只在希伯来语单一法律体系下验证，跨语言/跨司法体系的泛化未知
刻意不释放模型权重（防止滥用），但限制了可复现性
未来可以探索显式建模推理链依赖关系，以及结合事实接地的推理增强

评分¶

新颖性: ⭐⭐⭐⭐ 合成-有机管线和 CoLA 训练策略有新意，但各组件相对成熟
实验充分度: ⭐⭐⭐⭐⭐ 三个任务、多个基线、消融研究、跨法官验证、鲁棒性检测，非常全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，伦理讨论充分，motivation 推导流畅
价值: ⭐⭐⭐⭐ 对 LLM 个性化推理有重要启示，但应用场景较窄