ACL2026 LLM 评测论文解读论文笔记 LLM 推理多模态个性化生成 Agent 对话系统

📊 LLM 评测¶

💬 ACL2026 · 96 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (131) · 🧪 ICML2026 (40) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (38) · 📹 ICCV2025 (27) · 🧪 ICML2025 (22)

🔥 高频主题： LLM ×33 · 推理 ×13 · 多模态 ×4 · 个性化生成 ×3 · Agent ×3

AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking: AgentEval 把 agent 执行轨迹建模成「评估 DAG」，对每个节点用 GPT-4o 判官按 5 类节点类型打分并按贪心父节点策略追溯根因，配合 21 类失败类目与 CI/CD 集成；相对端到端评估在 450 条生产 trace 上 failure detection recall 提升 2.17×（0.41→0.89），人类一致性 \(\kappa=0.84\)，根因准确率 72%（接近人类上限 81%），4 个月试点把根因定位中位数时间从 4.2 小时缩到 22 分钟。
Aggregate vs. Personalized Judges in Business Idea Evaluation: Evidence from Expert Disagreement: 针对商业 idea 评估中专家系统性分歧的现实，构建了 3000 个个体专家评分的 PBIG-DATA 数据集，并实证证明在该领域"个性化 judge（条件于目标评审员历史）"比"汇总 judge（条件于多评审员混合历史）"更贴合专家行为，挑战了"用 pooled labels 当唯一 ground truth"的常见假设。
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation: 提出 AJ-Bench，首个系统评估 Agent-as-a-Judge 能力的基准，覆盖搜索、数据系统和 GUI 三个领域共 155 个任务和 516 条标注轨迹，实验表明 Agent-as-a-Judge 比 LLM-as-a-Judge 平均 F1 提升约 13 个百分点。
Are They Lovers or Friends? Evaluating LLMs' Social Reasoning in English and Korean Dialogues: 本文提出 SCRIPTS 基准，包含 1.1K 英语和韩语电影对话，通过三层概率标签（HIGHLY LIKELY / LESS LIKELY / UNLIKELY）评估 9 个 LLM 的社会关系推理能力，发现模型在英语上准确率仅 75-80%、韩语 58-69%，且 CoT 和思维模型对社会推理几乎无帮助。
arXiv2Table: Toward Realistic Benchmarking and Evaluation for LLM-Based Literature-Review Table Generation: 提出 arXiv2Table 基准（1,957 张表、7,158 篇论文），通过引入干扰论文、模式无关的用户需求和基于 QA 的无标注评估框架，实现更真实的 LLM 文献综述表格生成评估，并提出迭代批处理生成方法。
Attribution, Citation, and Quotation: A Survey of Evidence-based Text Generation with Large Language Models: 本文系统综述了 134 篇关于 LLM 证据基础文本生成的论文，首次提出统一分类学（归因方式 × 引用特征 × 任务），分析了 300 个评估指标并归纳为七大维度六种方法，为该碎片化领域提供了全景式参考框架。
Automated Creativity Evaluation of Language Models Across Open-Ended Tasks: 这篇论文提出一套与任务解耦、无需参考答案的自动化框架来量化 LLM 的创造力：用「语义熵」衡量发散创造力（想法的新颖与多样），用「基于检索的多智能体评判」衡量收敛创造力（解答是否真正解决问题），并在解题、科研构思、创意写作三个领域上系统刷出了模型规模、温度、推理能力对创造力的影响规律。
BadScientist: Can a Research Agent Write Convincing but Unsound Papers that Fool LLM Reviewers?: 作者搭了一个"坏科学家" pipeline：让一个不做任何真实验的生成 agent 用五种"表演式造假"策略写出看似严谨实则站不住的论文，再喂给由 o3 / o4-mini / GPT-4.1 组成的多模型评审 agent，结果造假论文的接收率最高冲到 82%，而且评审常常一边在评语里点出诚信问题、一边照样打出接收分（concern-acceptance conflict），现有缓解手段几乎只比随机猜强一点。
BenchMarker: An Education-Inspired Toolkit for Highlighting Flaws in Multiple-Choice Benchmarks: 本文借鉴教育学界对多选题（MCQ）的成熟质检框架，构造 BenchMarker 工具用 LLM 判官从「污染（contamination）+ 捷径（shortcuts）+ 写作错误（writing errors）」三个维度审计 12 个主流 NLP MCQA benchmark，发现 TruthfulQA 47% 题目能直接在网上搜到、HellaSwag 100% 违反多条写作规则，并实证证明这些缺陷会显著拉高/压低 LLM 准确率甚至改变模型排名。
Beyond Fixed Psychological Personas: State Beats Trait, but Language Models are State-Blind: 构建覆盖 1667 用户 × 多 subreddit 上下文的 Chameleon 心理画像数据集，用 ICC 分解证明 72-74% 心理变异来自「状态（情境）」而非「特质（人格）」，进一步揭示 LLM 几乎对状态视而不见、reward model 反应到状态却方向相反——RLHF 因此盲目继承了奖励模型的状态偏好。
Beyond Itinerary Planning: A Real-World Benchmark for Multi-Turn and Tool-Using Travel Tasks: 提出 TravelBench，首个融合真实用户查询、隐式用户偏好、多轮交互、不可解任务识别和10种真实工具的旅行规划基准，通过沙箱环境实现可复现评估，揭示前沿模型在不同能力维度上表现不均衡。
Beyond Marginal Distributions: A Framework to Evaluate the Representativeness of Demographic-Aligned LLMs: 本文提出了一种超越边际分布的 LLM 代表性评估框架，通过同时考察边际响应分布和跨问题相关结构来评估人口统计对齐模型，发现虽然微调和 persona prompting 能改善边际分布的近似度，但两者都无法忠实再现人类价值观调查中的多变量相关模式。
Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation: 提出配对任务框架联合评估 LLM 的文学文本理解能力和翻译创造力，基于 11 本英文经典小说对 23 个模型进行大规模测评，发现强理解力并不能转化为人类水平的翻译创造力。
Beyond Static Benchmarks: Synthesizing Harmful Content via Persona-based Simulation for Robust Evaluation: 作者用"二维 persona"（内在身份 + 外在策略）驱动 LLM agent 在真实 Reddit 帖子上扮演用户写有害评论，合成出比传统静态 benchmark 更难、更多样、覆盖更广的有害内容评测集，对四类主流安全分类器的准确率打到 13–31%（vs. 静态集 60–94%），暴露了现有 benchmark 已被"刷穿"的事实。
Beyond the Singular: Revealing the Value of Multiple Generations in Benchmark Evaluation: 作者把 LLM benchmarking 形式化为一个分层贝叶斯估计问题——prompt 难度 \(p_i \sim \mathbb{P}(\mu,\sigma)\)，每条 prompt 的 \(k\) 次生成正确率服从 Bernoulli\((p_i)\)；理论证明用 \(k>1\) 次采样能把 within-prompt variance 压到 \(\frac{1}{nk}\)，并由此衍生出 prompt-level 难度分 \(\mathbb{P}(\text{correct})\) 和能检出标注错误的 data map（在 GSM8K 上 44.4% 命中率）。
BizCompass: Benchmarking the Reasoning Capabilities of LLMs in Business Knowledge and Applications: 本文提出 BizCompass，一个连接理论基础与实际应用的商业推理基准，覆盖金融/经济/统计/运营四个知识域和分析师/交易员/顾问三个应用角色，系统评估了开源与闭源 LLM 的商业推理能力，揭示理论知识向实际表现转化的规律。
Can LLMs Act as Historians? Evaluating Historical Research Capabilities of LLMs via the Chinese Imperial Examination: 本文构建 ProHist-Bench：以中国 1300 年科举史为锚点、由历史学家手写 400 道专家级题目和 10,891 条细粒度 rubric，评测 18 个 SOTA LLM 的专业历史研究能力——结果最强的 Gemini-3-Pro 和 Qwen3-235B 的 Rubric Score 也仅约 28，远低于开卷历史学家。
Can We Predict Before Executing Machine Learning Agents?: 本文证明 LLM 可作为隐式 "world model"，仅凭 task 描述 + verified data report + 两份代码，就能预测 ML 解的优劣（DeepSeek-V3.2-Thinking 61.5% 准确率）；据此构造 ForeAgent，把 AIDE 的 Generate-Execute-Feedback 循环改成 Predict-then-Verify 循环，在 MLE-Bench 上获得 6× 加速 + 3.2× 搜索空间 + +6% Beat Ratio。
Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry: 本文提出了一个三步评估框架（计算特征提取 + LLM-as-Judge + 人类专家验证）来系统评估六种 LLM 在唐诗生成上的能力，发现了关键的"回声室"效应：LLM 系统性地高估模仿统计模式但违反格律规则的机器生成诗歌，与人类专家判断显著偏离。
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models: 提出 OlymMATH，首个统一自然语言评估和形式化定理证明的奥赛级数学基准，包含350题双语（中英文）题目，涵盖OlymMATH-EASY/HARD（200题数值答案）和OlymMATH-LEAN（150题Lean 4形式化），揭示最强模型在HARD子集上仅58.4%准确率。
CLARITY: A Framework and Benchmark for Conversational Language Ambiguity and Unanswerability in Interactive NL2SQL Systems: CLARITY 是 Oracle 提出的首个支持 "multi-facet 歧义 + 不可答 + 单/多轮对话 + 多种用户澄清行为" 的 NL2SQL 诊断基准，用 SQL→pivot term→改写→对话→筛查的可控 LLM pipeline 把 Spider/BIRD 自动扩展出 ~3 万实例，并通过 schema 级 pivot/group 标注揭示出 SOTA LLM "能检测歧义却定位不到 schema 元素"的失败模式。
Common to Whom? Regional Cultural Commonsense and LLM Bias in India: 本文构建 Indica，首个评估 LLM 次国家级文化常识的基准，聚焦印度五大区域在八个日常生活领域的文化差异，发现仅 39.4% 的问题在全部五个区域达成共识，且所有 LLM 均表现出地理偏见——过度选择中部和北部印度作为"默认"文化代表。
Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation: 针对长文本生成中"遗漏关键信息"难以量化的问题，作者提出三种 comprehensiveness 度量——NLI 分解 + 图分析、QA 对比、端到端 LLM 直接识别——以参考语料 \(\mathcal{C}\) 为基准计算覆盖率 \(S = |\mathcal{A}_{in}| / (|\mathcal{A}_{in}| + |\mathcal{A}_{out}|)\)；在 WikiContradict / ConflictBank 上 meta-evaluation 发现最简单的 E2E 方法平均最强（最佳 LMR=0.85），但 Q&A 鲁棒性更好（跨模型 std 仅 0.009 vs E2E 的 0.044），三者各有适用场景。
Contrastive Decoding Mitigates Score Range Bias in LLM-as-a-Judge: 本文揭示了LLM评判器在直接评估任务中存在分数范围偏差（score range bias），即模型输出对预定义分数范围高度敏感，并提出利用对比解码（contrastive decoding）方法，通过同一模型家族内相似偏差的相互抵消来缓解该问题，在Spearman相关性上平均实现高达11.3%的相对提升。
CUB: Benchmarking Context Utilisation Techniques for Language Models: 作者把 7 类主流"上下文利用调控技术"（CMTs）放到统一基准 CUB 上，覆盖 3 个数据集（CounterFact / NQ / DRUID）× 3 类上下文（gold / conflicting / irrelevant）× 11 个 LLM 共 ~800 个实验点，证明所有现有 CMT 都存在"对相关上下文敏感 vs 对无关上下文鲁棒"的根本权衡，且在合成数据上效果普遍被高估。
DiningBench: A Hierarchical Multi-view Benchmark for Perception and Reasoning in the Dietary Domain: 作者构建了首个层级化的多视图食品 benchmark DiningBench（3,021 道菜 / 15,928 张图 / 平均 5.27 视图/菜），覆盖「细粒度分类（同店硬负样本）→ 营养估计（4 维回归）→ VQA（推理）」三层认知任务，对 29 个 SOTA VLM 系统评测后发现：现有模型在精细视觉判别和营养量化上严重不足，且 CoT 反而损害纯视觉感知。
Do LLMs Overthink Basic Math Reasoning? Benchmarking the Accuracy-Efficiency Tradeoff: 本文提出 LLMThinkBench，一个系统性评估 LLM 基础数学推理效率的基准，引入 Overthinking Score（准确率和 token 效率的调和平均），通过动态生成的 14 个确定性数学任务评估 53 个 LLM，发现推理模型平均生成约 18× 更多 token 但有时准确率更低，且扩展推理预算呈现收益递减。
Dynamic Infilling Anchors for Format-Constrained Generation in Diffusion Large Language Models: DIA 是一种无需训练的扩散大语言模型格式约束生成方法，通过先预测结束锚点位置再在锚点间迭代填充，显著提升 reasoning template 和 JSON 输出的格式正确率，并缓解固定锚点导致的截断或冗余。
E2EDev: Benchmarking Large Language Models in End-to-End Software Development Task: 本文提出 E2EDev，一个基于行为驱动开发（BDD）原则的端到端软件开发基准，包含 46 个真实 Web 项目、244 条细粒度需求和 703 个可执行 BDD 测试，评估发现即使最强 LLM（Claude 系列）在需求准确率上也不超过 60%，多智能体框架的复杂交互成本与性能收益不成正比。
EngiBench: A Benchmark for Evaluating Large Language Models on Engineering Problem Solving: 提出 EngiBench——首个面向真实工程问题求解的多层级 LLM 评测基准，把任务按三档难度 (基础知识检索 → 上下文推理 → 开放式建模) 组织、配以三种受控变体 (扰动 / 知识增强 / 数学抽象)，覆盖三大工程子领域 1,760 题，发现即使 GPT-4.1 / Claude 3.7 Sonnet 在 Level 3 开放式工程任务上也明显落后于人类专家。
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks: L2T 提出了一种预训练框架，将 14 种语言学习任务（字符级→篇章级）与标准 next-token prediction 混合训练，在 500M/1B 参数规模上将 BLiMP 语言能力得分提升 2-3 个百分点并加速其习得过程，同时保持通用推理性能。
Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics: LEGIT 把韩国民事/行政判决书自动抽成「层级化的争议点树」当 rubric，让 LLM-as-judge 既能评 "issue coverage" 又能评 "issue correctness"，并据此发现 RAG 与 RL 在法律推理上有互补效应：RAG 全面提升、RL 牺牲覆盖换正确性。
Evaluating Memory Capability in Continuous Lifelog Scenario: 本文提出LifeDialBench，一个评估连续生活日志场景下记忆能力的基准（含7天真实数据的EgoMem和1年模拟的LifeMem），引入在线评估协议确保时间因果性，反直觉地发现简单RAG基线一致优于复杂记忆系统。
Evaluating Reasoning Models for Queries with Presuppositions: 本文构建 ≈13K 跨健康/科学/常识的虚实声明 + 5 档预设强度查询，测评 6 个主流模型（GPT-OSS / Qwen3 / GPT-5 Mini / Gemini 2.5）的开/关推理两档表现，发现推理只带来 2-11% 的轻微准确率提升，但会让模型变得更"决断"——错的更自信，对 26-42% 的虚假声明仍然顺从。
Evaluating Temporal Consistency in Multi-Turn Language Models: 本文提出 ChronoScope，一个基于 Wikidata 自动合成的 146 万条多轮问答 chain 评测集，专门用来测 LLM 能否在多轮交互中"维持先前对话隐含的时间作用域"，发现包括 GPT-4 / Gemini-2.5 在内的强模型都会系统性地"漂移到现在"（present-day drift），且交互越长越严重，即便给 oracle 上文也无法消除。
Exploring the Capability Boundaries of LLMs in Mastering of Chinese Chouxiang Language: 本文将中文互联网亚文化语言"抽象话"引入 NLP 社区，构建首个评估基准 Mouse（含翻译、表征分类、意图识别、毒性检测、含义选择、完形填空六个任务），发现 SOTA LLM 在上下文语义理解上表现尚可但在其他任务上存在明显局限。
Fin-Bias: Comprehensive Evaluation for LLM Decision-Making under human bias in Finance Domain: Fin-Bias 用 8868 份长篇分析师报告构造了一个"原始 / 去掉评级 / 替换为假评级"三版输入的对照基准，证明 18 个 LLM（含 GPT-5、Claude-4-Sonnet）在金融投资评级时严重"羊群" — 即使是无中生有的 fake rating 也会被 30% 的样本盲从，而用 MPQA 主观词典过滤上下文里的人类观点 + DPO 微调可以把开源 8B 模型反推到比 GPT-5 还准的水准。
Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows: 本文提出 Finch（FinWorkBench），一个从真实企业环境（Enron 数据集等）构建的金融会计工作流基准，包含 172 个复合工作流和 1,710 个电子表格（2700 万单元格），即使最强的 GPT 5.1 Pro 花费平均 16.8 分钟也仅通过 38.4% 的工作流，揭示了前沿 AI Agent 在真实企业场景中的严重不足。
Gated Tree Cross-Attention for Checkpoint-Compatible Syntax Injection in Decoder-Only LLMs: 作者给冻结的 decoder-only LLM（Qwen-2.5-7B、Llama-3-8B）外挂一个 Gated Tree Cross-Attention 侧支路 —— 离线 Berkeley parser 预算 constituency 树并按高度索引成 chunk memory，token 隐状态通过 head-wise 门控 cross-attention 读它得到残差更新，再配合 token update mask + 三阶段训练防止干扰；BLiMP 准确率从 78.58/79.95 提升到 83.12/84.61，同时 MCQA、HellaSwag、WinoGrande 完全不退步。
How Hypocritical Is Your LLM Judge? Listener–Speaker Asymmetries in the Pragmatic Competence of Large Language Models: 本文通过三个语用任务（虚假预设、反预设、演绎推理）系统对比 14 个 LLM 作为"语用听者"（判断语用适当性）和"语用说者"（生成语用适当的语言）的表现，发现普遍存在的听者-说者不对称：多数模型作为判断者远优于生成者，且项目级分析表明正确判断不能可靠预测成功生成。
HoWToBench: Holistic Evaluation for LLM's Capability in Human-level Writing using Tree of Writing: 本文指出 LLM-as-a-judge 在长篇开放式写作上有 "negotiation inconsistency" —— 子分聚合不稳定且不可解释，提出 Tree-of-Writing (ToW) 把写作评测显式建模成"内容 / 格式 / 印象"三主节点 + 子叶节点 + 显式 LLM-negotiator 权重的树形流水线，在 1302 条中文 12 体裁的 HoWToBench 上把 system-level Pearson 相关性从 0.85-0.89 拉到 0.93 并对常见文本扰动鲁棒。
HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns: 本文提出 HumanLLM 框架，将 244 个心理学模式（100 个人格特质 + 144 个社会认知模式）建模为相互作用的因果力而非孤立标签，构建了 11,359 个包含 2-5 个模式交互的场景和多轮对话数据集，通过双层 checklist 评估实现与人类判断的高对齐（\(r=0.90\)），HumanLLM-8B 在多模式动态上以 4 倍小的参数量超越 Qwen3-32B。
Identifying the Achilles' Heel: An Iterative Method for Dynamically Uncovering Factual Errors in Large Language Models: HalluHunter 是一个基于知识图谱的全自动 LLM 事实错误测试框架——用 Wikidata 抽事实三元组、规则化生成 Yes/No、MC、WH 三种问题类型并支持多跳推理，再用"自适应迭代算法"基于上一轮错误回答的实体相似度和关系准确率挑下一批难题，5 轮迭代后能把 9 个主流 LLM 的准确率降低 32-42%，最多触发 55% 题目错误，并显著优于静态 benchmark。
Idiom Understanding as a Tool to Measure the Dialect Gap: 提出三个新的法语习语理解基准数据集（魁北克法语 QFrCoRE/QFrCoRT 和标准法语 MFrCoE），在 111 个 LLM 上评估发现 65.77% 的模型在方言习语上表现显著差于标准法语，量化了方言差距现象。
IF-Critic: Towards a Fine-Grained LLM Critic for Instruction-Following Evaluation: 本文提出 IF-Critic-14B：先用一个 Checklist Generator 把复杂指令拆成约束清单，再让 critic 在一次推理内对所有约束逐条给出"解释+0/1 判断"，并通过多阶段过滤的高质量 critique 训练 + 约束级 DPO 进行训练，最终在四个指令跟随评测榜上超过 o4-mini / Gemini-3-Pro，并以约 1/3 的算力让 7B/8B 策略模型在 Multi-IF / CFBench / SysBench 上经 GRPO 训练后追平 32B/70B 同族模型。
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation: 本文提出 IF-RewardBench：第一个同时覆盖单轮 / 多轮 / 系统提示三类指令、由 16 个 LLM 生成响应、由人工严格标注 (Cohen's \(\kappa\)=0.87) 的 judge 元评测基准；它把传统的 pairwise / BoN 评测范式升级为基于 Pareto-dominance 偏好图的 listwise 评测，对 22 个 SOTA judge（含 Gemini-3-Pro / GPT-5.1 / 各类 reward model）一通跑后发现：最强 judge 的 Kendall \(\tau_b\) 也只有 0.609（远低于人类 0.755），所有专用 RM 均不超过 0.2，且本榜与下游 BoN 性能的相关性显著高于 RewardBench-2、PPE-IF 等现有 benchmark。
Illusions of the Gold Standard: A Large-scale Analysis of Human Evaluation Protocols for Long-form Text Generation: 作者把研究镜头对准 NLP 社区自己：用一套 20 条「可报告标准」的 codebook，对 2023–2025 年 *CL 会议 9100+ 篇论文做大规模审查（284 篇全人工标注 + 1800+ 篇 LLM 辅助标注），证明被奉为「黄金标准」的人工评估其实普遍报告缺失——超半数论文只报告了 20 条里的 ≤7 条，统计显著性几乎没人报、power analysis 零人用，黄金标准更像是一种「错觉」。
Inverting the Shield: Systematically Generating Safety Tests from Policy Specifications: POLARIS把自然语言安全策略先编译成一阶逻辑规约，再构造语义策略图并系统遍历生成测试查询，从而让LLM安全评测从启发式红队转向可追踪、可覆盖、可复现的规约驱动测试。
K-MetBench: A Multi-Dimensional Benchmark for Fine-Grained Evaluation of Expert Reasoning, Locality, and Multimodality in Meteorology: 作者基于韩国国家气象工程师认证考试 25 届真题构造了 1,774 题的 K-MetBench，沿"多模态视觉 / 专家推理 / 地理文化 / 子领域细粒度"四个正交维度评测了 55 个 LLM/MLLM，发现现有模型存在普遍的 modality gap（视觉气象图准确率较纯文本平均掉 18.6%）、reasoning gap（答案对但 rationale 幻觉）、geo-cultural gap（小韩国模型 A.X-4.0 在韩特题上 78.9 反超 235B 的 Qwen3-VL 的 72.6），证明纯参数规模不能解决文化本地化问题。
Language Models Don't Know What You Want: Evaluating Personalization in Deep Research Needs Real Users: 作者构建了首个开源个性化 Deep Research 系统 MyScholarQA（profile → action → report 三段式），在 16 项离线指标上几乎全胜其它 DR baseline；但 21 位真实研究员的 90 分钟访谈揭示了 9 类离线评测完全检测不到的个性化失败模式，且四个主流 LLM judge 都预测不准用户满意度，给"用 LLM judge 替代真实用户"敲响了警钟。
Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions: 本文首次大规模系统审计了 11 个前沿 LLM 在 15 种概率分布上的原生采样能力，发现 LLM 严重缺乏内在概率采样机制，且这种缺陷会传导到下游应用中造成系统性偏差。
LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics: 在丹麦难民上诉委员会 (RAB) 的 273 份庇护决定文书上构建了 RAB-Cred 这个三类 ("Absent / Positive / Negative") 可信度评估专家标注数据集，系统跑了 21 个开源 LLM × 30 种 system×user prompt 组合，发现 prompt 设计比模型选择更重要、phi-4 (14B) 在零样本下能拿 94.7% F1 但单模型一致会犯"不可接受"的错，于是建议用"15 个最优模型-prompt 组合多数投票"的 ensemble，正确率能再涨 1.5 pp 到 96%。
LoCar: Localization-Aware Evaluation of In-Vehicle Assistants through Fine-Grained Sociolinguistic Control: LoCar 面向韩语车载助手提出 13 个部署级 KPI，并用人工校准的 LLM-as-a-Judge 与敬语形态验证来评测 11 个模型，发现通用理解能力接近饱和，但细粒度敬语控制和多轮策略性引导仍明显不稳定。
MARCH: Evaluating the Intersection of Ambiguity Interpretation and Multi-hop Inference: 提出 MARCH 基准（2,209 个多跳歧义问题）和 CLARION 框架，首次系统研究歧义解析与多步推理交叉场景下的 QA 挑战，揭示现有 SOTA 模型在此类问题上的严重不足。
Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text: 作者通过"严格的数据质量控制 + SFT + DPO 对齐"三步走，用不到现有工作一半规模的 57K 条高质量评测样本，训练出能同时给 I2T 与 T2I 双向多模态生成任务打分的 8B 评测模型 Minos，在 16 个 out-of-domain 任务上超过所有开源 MLLM-评测模型，并接近 GPT-4o。
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge: 作者把"MLLM 当 judge 时是否真的把图像、查询、回答三者综合起来评判"形式化为 Compositional Bias，并构建 MM-JudgeBias——一个含 9 类偏见、1804 条来自 29 个源 benchmark 样本的诊断集，用 Bias-Deviation（语义破坏后该降分但没降）+ Bias-Conformity（语义保不变时该稳但不稳）两个互补指标，发现 26 个 SOTA MLLM judge（含 Gemini-3 Pro、GPT-5.1、Claude Opus 4.5）都存在严重的 modality neglect。
Modeling Multi-Dimensional Cognitive States in Large Language Models under Cognitive Crowding: 本文发现 LLM 在联合预测情感-思维风格-立场-意图四个认知维度时准确率暴跌至 5.7%（"认知拥挤"效应），通过 Gromov δ-hyperbolicity 分析证明认知状态具有层次结构，提出 HyCoLLM 框架在双曲空间中建模认知状态，8B 模型超越 GPT-4o。
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge: 本文提出 MT-RL-Judge，一个多任务强化学习框架，通过 GRPO 联合优化多个评估任务训练统一的 MLLM-as-a-Judge 模型，在文本-图像对齐、安全合规和视觉质量评估等六个基准上一致超越 SFT 基线，并在未见过的 MJ-Bench 配对比较格式上展现出强大的分布外泛化能力（Safety 任务 82.23% vs SFT-Unified 的 49.40%）。
MultiFileTest: A Multi-File-Level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms: 提出 MultiFileTest，首个多文件级别 LLM 单元测试生成基准，覆盖 Python/Java/JavaScript 各 20 个项目，评估 11 个前沿 LLM 并分析手动修复和自修复机制对测试质量的影响，揭示即使最强模型也存在大量基础可执行性错误。
NovBench: Evaluating Large Language Models on Academic Paper Novelty Assessment: NovBench 把“论文引言中的新颖性主张”和“审稿人对新颖性的文字评价”配对成 1,684 条基准样本，并用相关性、正确性、覆盖度、清晰度四个维度系统揭示：当前通用 LLM 和审稿专用 LLM 都能写出流畅评价，但仍难以真正理解和完整判断学术新颖性。
Personalized Benchmarking: Evaluating LLMs by Individual Preferences: 本文对 Chatbot Arena 的 115 名活跃用户进行个性化排名分析，发现 Bradley-Terry 个性化排名与全局排名的平均 Spearman 相关仅 ρ=0.04（57% 用户近零或负相关），证明聚合基准无法反映大多数用户的个体偏好，并通过话题+风格特征成功预测了用户特定的模型排名。
PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models: 本文提出 PolicyBench（21K 题的中美跨体制政策理解基准）和 PolicyMoE（基于认知层次的混合专家模型），系统评估 11 个 SOTA LLM 在政策记忆/理解/应用三层次上的能力，发现模型在结构化推理上表现好但在抽象政策概念上仍然薄弱。
PolitNuggets: Benchmarking Agentic Discovery of Long-Tail Political Facts: PolitNuggets 提出一个面向 400 位全球政治人物、超过 1 万条政治履历事实的多语言 agentic discovery benchmark，并用 FactNet 动态证据验证协议发现：当前 agent 高精度但低召回，真正瓶颈是长尾事实发现、非英语证据和高效工具使用。
Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations: 这篇论文系统压力测试 LLM 内部激活上的欺骗探针，发现干净数据上的近满分 AUROC 并不等于可部署鲁棒性：单方向和熵代理解释都站不住脚，欺骗信号更像分散在多维弱特征中，而风格增强训练能把 27B 模型上接近随机的探针恢复到 0.983 的 held-out style AUROC。
Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs: 这篇论文用基于语言学理论的条件句预设投射任务对比人类和四个 LLM，发现人类会联合使用概率、前件-预设相关性和上下文线索，而 LLM 的评分相似性与理论化推理质量明显脱钩，很多看似贴近人类的判断可能来自表层模式匹配。
Question Difficulty Estimation for Large Language Models via Answer Plausibility Scoring: Q-Daps 通过生成多个候选答案并计算去流行度偏置后的 plausibility 分布熵来估计 LLM 问答难度，在 TriviaQA、NQ、MuSiQue、QASC 上系统优于可读性、检索复杂度、prompt 打分和不确定性基线。
Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases: 论文系统比较 reasoning model 与普通 LLM 作为 judge 的表现，发现推理模型在准确率、评测指令遵循和攻击鲁棒性上更强，但仍容易受表层质量偏差影响，并提出 prompt-only 的 PlanJudge 缓解偏差。
ReCoQA: A Benchmark for Tool-Augmented and Multi-Step Reasoning in Real Estate Question and Answering: 本文构建了 ReCoQA——一个包含 29,270 个房地产问答对的大规模基准，要求模型融合数据库查询和地图 API 调用进行混合多源推理，并提出层次化多 Agent 框架 HIRE-Agent 作为强基线，系统性地揭示了现有 LLM 在垂直领域复杂推理中的瓶颈。
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition: 提出 ResearchBench，首个大规模评估LLM科学发现能力的基准，基于"灵感驱动假设生成"的理论分解，覆盖12个学科1386篇论文，将科学发现分解为灵感检索、假设组合、假设排序三个充分子任务，发现LLM在跨学科灵感检索上表现出色。
Rethinking Meeting Effectiveness: A Benchmark and Framework for Temporal Fine-grained Automatic Meeting Effectiveness Evaluation: 本文重新定义会议效率评估——提出"目标达成率/时间成本"的客观标准和时序细粒度评估范式，构建了包含 130 场会议 2,459 个标注片段的 AMI-ME 数据集，并开发了基于 LLM 的自动评估框架，在 Spearman 相关系数上达到 0.64。
ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering: 本文提出 ReTraceQA，首个面向常识推理任务的推理过程评测基准，包含 2421 条由专家标注的步骤级错误定位和错误分类标注，揭示 14-24% 的 SLM 虽给出正确答案但推理过程有误，当采用推理感知评估替代仅答案评估时，SLM 性能最多下降 25 个百分点。
Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models: 这篇论文提出 SEMANTICQA，把习语、词汇搭配、名词复合词和动词多词表达统一到分类、抽取、解释及顺序组合任务中，发现强 LLM 在开放解释上看似不错，但在结构化抽取、细粒度语义分类和级联工作流中仍明显不稳。
Revisiting the Reliability of Language Models in Instruction-Following: 本文提出 nuance-oriented reliability 和 reliable@k，用 IFEval++ 检验模型能否稳定处理语义相近但细节不同的 cousin prompts，发现即便高分模型在细微提示变化下也会显著掉线。
Reward Modeling for Scientific Writing Evaluation: 本文提出 SciRM 和 SciRM-Ref 两个针对科学写作评估的开源奖励模型，通过两阶段强化学习（GRPO）分别优化评估偏好和推理能力，实现了在多种科学写作任务上的细粒度多方面评估，并能泛化到未见过的评估任务和标准。
RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity: RoleConflictBench 通过构建 13,914 个角色冲突场景，利用情境紧迫性作为客观约束来评估 LLM 的上下文敏感性，揭示了模型决策被静态角色偏好主导而非响应动态情境线索的严重问题。
Same Voice, Different Lab: On the Homogenization of Frontier LLM Personalities: 本文用 144 个性格 trait 的外部 ELO 偏好评测发现，九个前沿 LLM 虽来自不同实验室，却普遍收敛到 structured、systematic、precise 等“Assistant-like”人格，而差异主要集中在 poetic、playful 等中位风格特征上。
ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models: ScaleBox 通过自动 special judge 合成、统一验证流程和分布式细粒度并行，提高 LLM 代码训练与评测中的验证精度和吞吐，并在 LiveCodeBench RLVR 实验中带来更稳定的 Pass@1 提升。
SCAN: Structured Capability Assessment and Navigation for LLMs: SCAN 将大模型评测从单一排行榜推进到可导航的能力画像：它自动构建层级能力标签、用 RealMix 生成覆盖长尾能力的真实感查询，并用 PC2 judge 提升自动评分可靠性，从而在 21 个主流 LLM 上揭示总分掩盖的细粒度强弱项。
SciCustom: A Framework for Custom Evaluation of Scientific Capabilities in Large Language Models: SciCustom 将科学评测需求拆成可复用的本体知识单元，并通过 tagger、multi-model voting、binary-search relevance filtering 和 proxy subset selection 自动构建领域定制 benchmark，在 10/11 个化学与医疗子任务上取得最高 Spearman 排名一致性。
SciImpact: A Multi-Dimensional, Multi-Field Benchmark for Scientific Impact Prediction: 本文构建 SciImpact——首个跨 19 个学科领域、涵盖 7 个影响力维度（引用、奖项、专利、媒体、代码、数据集、模型）的大规模科学影响力预测基准，包含 215,928 个对比论文对，通过多任务微调使 4B 模型超越 o4-mini 等大模型。
SessionIntentBench: A Multi-Task Inter-Session Intention-Shift Modeling Benchmark: 本文提出 SessionIntentBench，一个评估 L(V)LM 理解电商购物会话中跨步骤意图漂移能力的多任务基准，包含四个递进式子任务（意图购买似然估计、属性正则化、意图验证对比、意图演化建模），构建了 190 万条意图条目和 113 万条意图轨迹，实验表明当前 20+ 个 L(V)LM 在捕获复杂会话意图方面表现不佳。
SPENCE: A Syntactic Probe for Detecting Contamination in NL2SQL Benchmarks: SPENCE 通过对 NL2SQL 基准查询进行系统性句法改写并测量执行准确率随句法距离的衰减程度，检测和量化 LLM 在 NL2SQL 基准上的数据污染行为，发现越老的基准（如 Spider）污染信号越强，而较新的 BIRD 基准几乎不受影响。
Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges: 本文揭示了 LLM 评估器的关键脆弱性：虽然在重复评估下高度稳定，但在后续对话质询下会产生大幅反转（49% 翻转率，权威框架下 74%），表明稳定性不等于鲁棒性，且置信度无法预测真实可靠性。
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference: PRECISE 将 Prediction-Powered Inference (PPI) 扩展到排名评估指标，通过少量人工标注 + 大量 LLM 判断的组合，在纠正 LLM 系统性偏差的同时降低指标估计方差，实现统计可靠的排名系统评估。
StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall: StratMem-Bench 将虚拟角色对话中的记忆分成 must、nice 和 irr 三类，评估模型是否能在保证事实需求的同时主动加入有益记忆并抑制无关记忆，揭示当前强 LLM 在“支持性记忆选择”上仍明显不稳。
Stress Testing Factual Consistency Metrics for Long-Document Summarization: 这篇论文把六个常用 reference-free factuality metrics 放到长文档摘要中做压力测试，发现它们会被事实保持的改写、检索窗口大小和高信息密度 claim 显著影响，说明短摘要指标不能直接信任地迁移到长文档场景。
TabReX: Tabular Referenceless eXplainable Evaluation: 提出 TabReX，一种基于图推理的无参考表格生成评估框架，将源文本和生成表格转化为知识图谱三元组并对齐，计算可解释的属性驱动分数，在人类判断相关性上大幅超越现有方法；同时构建 TabReX-Bench 大规模基准。
TaxPraBen: A Scalable Benchmark for Structured Evaluation of LLMs in Chinese Real-World Tax Practice: 本文提出 TaxPraBen，首个面向中国税务实践的 LLM 评测基准，包含 14 个数据集共 7.3K 样本，覆盖税务风险防控、稽查分析和税务筹划三大真实场景，并设计了"结构化解析—字段对齐提取—数值与文本匹配"的可扩展评估范式，评测 19 个 LLM 后发现闭源大模型和中文优化模型表现更优，而税务领域微调模型 YaYi2 改进有限。
Teaching Language Models to Check Grounded Claim Factuality with Human Test-Taking Strategies: 将接地声明事实性检验重新表述为真/假阅读理解任务，通过融入人类考试答题策略设计结构化提示，使LLM能以最少的推理步骤高效准确地检验声明，同时通过监督微调与直接偏好优化训练小型语言模型替代大模型实现80%以上的推理成本节省。
Teaching Language Models to Forecast Research Success Through Comparative Idea Evaluation: 本文研究语言模型能否学会预测研究想法的经验成功，通过构建含 11,488 个想法对的数据集（基于 PapersWithCode 客观成果），用 SFT 和 RLVR 训练 8B 模型达到 77.1% 准确率，超过 GPT-5 的 61.1%，成为自动科研发现中的有效想法验证器。
The Silent Vote: Improving Zero-Shot LLM Reliability by Aggregating Semantic Neighborhoods: 这篇论文指出零样本 LLM 分类中的 constrained softmax 会丢掉标签同义词附近的概率质量，提出无需训练的 Semantic Softmax，把 top-K 词表 token 的“沉默投票”聚合回目标标签，从而显著降低 ECE 和 Brier Score 并提升 AUROC/F1。
VC-Inspector: Advancing Reference-free Evaluation of Video Captions with Factual Analysis: 本文提出 VC-Inspector，一个基于开源轻量级多模态模型（Qwen2.5-VL 3B/7B）的无参考视频字幕评估指标，通过可控事实错误合成流水线生成训练数据，在 VATEX-Eval 上达到 \(\tau_b\)=42.58 的人类判断相关性，超越依赖 GPT-4o 的 G-VEval（\(\tau_b\)=39.40），且在幻觉检测基准上达到 99.6% 准确率。
正确信念的瓦解：临床压力下 LLM 的认知韧性研究: 通过设计多轮对抗压力评估框架 Med-Stress，本文发现高医学知识不能保证 LLM 的信念稳定性，并提出推理时 RBED 和训练时 R-FT 两种防御策略来提升 LLM 在临床对话中的认知韧性。
When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias: 揭示 VLM-as-a-Judge 系统存在严重的"信息量偏见"（informativeness bias）——评判器倾向于选择更详细丰富的回答，即使该回答与图像内容矛盾，提出 BIRCH 范式通过先校正候选答案再进行比较，将偏见减少最高 17%，性能提升最高 9.8%。
WildIFEval: Instruction Following in the Wild: WildIFEval 是一个从真实用户对话里抽取、规模达 7,523 个任务 / 24,731 条约束的单轮约束生成基准：它把每个用户指令自动分解成细粒度约束、归入 8 大类别，并用 LLM 评委做"严格/柔性"双评分，从而首次大规模刻画真实指令里约束的分布与共现，并揭示出"约束数一多、模型整体成功率骤降但单约束成功率几乎不变"的容量瓶颈。
Zero-shot Large Language Models for Automatic Readability Assessment: 本文系统评估 10 个开源 LLM 在 14 个多语言可读性数据集上的零样本 ARA 能力，并提出 LAURAE：用 LLM 的期望值可读性分数与传统可读性公式按 verbal confidence 加权集成，从而在 13/14 个数据集上优于既有无监督方法。