SenseJudge: Human-Centric Preference-Driven Judgment Framework¶
会议: ACL 2026
arXiv: 2606.03189
代码: GitHub
领域: recommender
关键词: LLM评估, 个性化判断, 偏好驱动, 多轮对话, 模型排名
一句话总结¶
提出 SenseJudge,一种基于显式人类偏好的可定制化 LLM 判断框架,配合真实多轮对话基准 SenseBench,在个性化评判任务中平均准确率比基线高 16.08%,模型排名与真实人类排名一致。
研究背景与动机¶
领域现状: LLM-as-a-Judge 范式日益流行,用于评估模型响应、生成偏好数据和模型排名。
现有痛点: (1) 现有判断方法(PandaLM、Auto-j、奖励模型)依赖固定偏好数据训练,学到的是同质化标准,忽略了用户偏好的多样性;(2) 现有基准(MT-Bench、Auto-j)以单轮或双轮对话为主,与真实多轮人机交互场景脱节;(3) 训练好的奖励模型在面对多样化真实场景时泛化能力有限。
核心矛盾: 用户偏好是多样化和场景依赖的(有人重视创意、有人重视格式、有人重视准确性),但现有判断器只学到了一种固定的偏好标准。
本文目标: 构建能适应不同用户偏好的可定制化 LLM 判断框架,以及能真实反映人机交互复杂度的评测基准。
切入角度: 从少量人工标注中提取显式偏好文本,用多偏好投票机制让小模型也能做出准确的个性化判断。
核心 idea: 偏好提取 + 偏好集选择 + 多偏好投票 = 无需训练的个性化 LLM 判断。
方法详解¶
整体框架¶
SenseBench 通过质量过滤+挑战过滤从真实用户对话中构建多轮评测基准。SenseJudge 从少量人工标注对中提取偏好文本,选择最优偏好子集,推理时通过多偏好投票产生最终判断。
关键设计¶
-
SenseBench 基准构建:
- 功能:提供贴近真实人机交互的多轮、多领域评测基准(8 个类别 × 125 题)
- 核心思路:两阶段过滤——(1) 质量过滤:用 Qwen3-14B 去噪+分类(数学/逻辑/代码/创意写作/角色扮演/翻译/QA/NLU);(2) 挑战过滤:多模型响应对比(强模型 vs 弱模型)+ GPT-4 自动筛选 + 人工校验,确保问题具有区分度
- 设计动机:现有基准多为单轮简单任务,无法反映真实用户场景的复杂性和多轮上下文依赖
-
偏好提取与选择:
- 功能:从少量标注中蒸馏出可泛化的显式偏好集
- 核心思路:(1) 偏好生成:用 DeepSeek-R1 从标注对 \((q, \text{chosen}, \text{rejected})\) 中生成显式偏好文本;(2) 偏好集选择:遍历所有偏好子集 \(\mathcal{P}_k \subseteq P\),在标注集上多偏好投票,选择准确率最高的子集 \(\mathcal{P}_k^*\);(3) 偏好应用:在测试集上用 \(\mathcal{P}_k^*\) 中的每个偏好独立判断,最终多数投票
- 设计动机:不同偏好文本捕捉用户标注决策的不同方面(如"重视逻辑严谨性"vs"重视回答全面性"),组合使用比单一偏好更鲁棒
-
输入输出格式与投票机制:
- 功能:标准化判断流程,减少位置偏差
- 核心思路:输入 \(I = \{q, (r_1, r_2), p\}\),输出 judgment + analysis;不允许"平局"选项以强制模型区分;正反序都评估以检测位置偏差;最终通过多偏好投票产生稳定判断
- 设计动机:位置偏差是 LLM-as-Judge 的已知问题(模型倾向选第一个/最后一个),双序评估和多偏好投票可有效缓解
实验关键数据¶
主实验(LLM-as-a-Personalized-Judge 准确率 %)¶
| 方法 | Math | Code | Logic | QA | Write | Role | NLU | Trans | Overall |
|---|---|---|---|---|---|---|---|---|---|
| GPT-4o | 66.00 | 61.60 | 65.47 | 72.93 | 60.80 | 63.20 | 65.47 | 56.40 | 63.98 |
| DeepSeek-V3 | 72.80 | 62.27 | 66.67 | 77.07 | 62.67 | 64.40 | 64.80 | 61.87 | 66.57 |
| Skywork-Reward-Gemma2-27B | 70.40 | 61.60 | 66.10 | 74.10 | 64.00 | 60.00 | 62.70 | 58.40 | 64.70 |
| Qwen2.5-14B + SenseJudge | 73.45 | 80.90 | 72.44 | 85.67 | 72.89 | 75.24 | 76.80 | 74.21 | 76.88 |
| Qwen2.5-72B + SenseJudge | 82.30 | 89.01 | 79.76 | 89.87 | 79.82 | 82.12 | 78.10 | 75.23 | 81.99 |
| Qwen3-14B + SenseJudge | 86.53 | 87.96 | 83.69 | 92.24 | 75.27 | 81.04 | 78.72 | 75.78 | 82.65 |
一致性与位置偏差¶
| 模型 | 原始一致性 | +SenseJudge 一致性 |
|---|---|---|
| Qwen2.5-14B-Instruct | 69.97% | 74.17% |
| Llama3.1-8B-Instruct | 60.36% | 68.19% |
| Qwen2.5-72B-Instruct | 78.86% | 78.79% |
| Qwen3-14B-Instruct | 81.23% | 81.30% |
关键发现¶
- SenseJudge 平均比基线提升 +16.08%,即使在 8B/14B 小模型上也超越 GPT-4o 等强模型的直接判断
- 8 个类别全面提升,其中 Code (+20.10) 和 Trans (+18.84) 提升最大
- 奖励模型(INF-ORM-70B、QRM-27B)在个性化数据集上准确率 <65%,说明固定偏好难以泛化
- SenseJudge 显著缓解位置偏差,尤其对小模型效果更好
- 在 RewardBench 上达到 90.55%,接近专门训练的 Skywork-Critic(92.2%),验证通用有效性
- 模型排名结果与 Arena 人类排名一致:DeepSeek-R1 > Claude-3-7-Sonnet > GPT-4o > Qwen2.5-72B > GPT-3.5
亮点与洞察¶
- 偏好提取 + 子集选择 + 投票的三步流程简洁优雅,不需要训练判断模型即可实现个性化
- 从失败中学习的思路——通过少量标注反向推断偏好——比直接训练奖励模型更数据高效
- SenseBench 的构建方法(强弱模型对比 + 人工校验)确保了评测基准的区分度
- 证明了小模型 + 好偏好 > 大模型 + 无偏好,为低成本部署提供了新思路
局限与展望¶
- 偏好构建依赖 DeepSeek-R1 等强模型生成,偏好质量受生成模型能力制约(消融实验证实弱模型生成的偏好效果更差)
- 仅 3 位标注者,标注规模有限(每人 1000 条),更大规模标注可能揭示更丰富的偏好模式
- 偏好子集选择需要遍历组合空间,随偏好集增大计算量指数增长
- 跨域偏好迁移效果参差不齐(数学→逻辑 78.62% vs 数学→翻译 61.83%)
相关工作与启发¶
- Auto-j / PandaLM 等训练式判断器学到固定偏好,SenseJudge 的显式偏好文本更灵活可解释
- 个性化 LLM(OPPU / 多粒度兴趣预测)关注响应个性化,SenseJudge 关注评判个性化——互补方向
- 偏好投票机制可推广到任何需要多视角聚合的评估场景(如代码审查、内容审核)
评分¶
- 新颖性: ⭐⭐⭐⭐ 显式偏好驱动的个性化判断是有意义的新方向
- 实验充分度: ⭐⭐⭐⭐ 多模型对比+一致性/位置偏差分析+消融+跨域+RewardBench 验证
- 写作质量: ⭐⭐⭐ 结构完整但部分公式表述可更简洁
- 价值: ⭐⭐⭐⭐ 实用性强,低成本个性化评判的落地价值高