ICLR2026 LLM 评测论文解读论文笔记 LLM 推理 Agent 问答扩散模型多模态

📊 LLM 评测¶

🔬 ICLR2026 · 131 篇论文解读

📌 同领域跨会议浏览： 💬 ACL2026 (96) · 🧪 ICML2026 (40) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (38) · 📹 ICCV2025 (27) · 🧪 ICML2025 (22)

🔥 高频主题： LLM ×32 · 推理 ×9 · Agent ×6 · 问答 ×3 · 扩散模型 ×2

ACADREASON: Exploring the Limits of Reasoning Models with Academic Research Problems: AcadReason 用 5 个高推理学科（计算机、经济、法律、数学、哲学）的 50 道顶刊论文研究问题，专门考 LLM 和 Agent 能不能"像研究者一样"获取并推理学术知识——结果是绝大多数 LLM 不到 20 分、连 GPT-5 也只有 16 分，最强 Agent OAgents 也只拿到 34 分，揭示了模型在"超智能学术研究"上的巨大差距。
AdaBlock-dLLM: Semantic-Aware Diffusion LLM Inference via Adaptive Block Size: 通过统计分析扩散语言模型（dLLM）去噪过程中 token 置信度的动态变化，发现"波动带"（Volatility Band）区域编码了文本的局部语义结构，进而提出 AdaBlock-dLLM——一个无训练、即插即用的自适应块大小调度器，让半自回归解码的块边界与语义步骤自然对齐，在相同吞吐量下最高提升 5.3% 准确率。
Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation: 本文指出自然语言生成不确定性估计的主流 QA 选择性预测评测会被近似正确性函数严重左右，并提出用 SP-MoJI、结构化任务、OOD/扰动检测和 Elo 聚合来让评测结论更稳健。
Agentic Reinforced Policy Optimization: ARPO 是一种为多轮工具调用智能体量身定制的强化学习算法：它发现 LLM 在每次工具返回结果后 token 熵会骤升，于是在这些高熵步上自适应地"分叉"采样、再用优势归因把分叉路径的好坏差异传回去学习，结果在 13 个推理/深搜基准上全面超过轨迹级 RL，且只用一半的工具调用预算。
AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation: AirQA 是一个人工标注的 AI 科研问答数据集（13,956 篇论文、1,246 道题），覆盖单文/多文/检索/综合四类问题与文本/表格/图像/公式/元数据五类元素，并首次用 19 个「逐题定制」的 Python 函数做实例级客观评测；同时提出三智能体框架 EXTRACTOR 自动合成问答对与交互轨迹，让 7B 小模型微调后达到 14B 模型的工具调用水平。
AlphaBench: Benchmarking Large Language Models in Formulaic Alpha Factor Mining: AlphaBench 是第一个系统评测大语言模型在「公式化 Alpha 因子挖掘」（FAFM）能力的基准，把量化研究员的真实工作流拆成因子生成、因子评估、因子搜索三大任务，在 Qlib + CSI300 真实回测环境下横评十余个开源/闭源模型，发现 LLM 能可靠地生成合法因子、却在判断因子好坏（评估任务）上接近随机猜测。
An Open-Ended Benchmark and Formal Framework for Adjuvant Research with MLLM: 针对长期被 AI 忽视的"疫苗佐剂(adjuvant)"领域，构建了首个由领域专家标注的开放式问答 benchmark（1294 条 QA + 1364 条形式化描述），系统评测 11 个闭源 + 19 个开源 MLLM，并提出一套把佐剂设计原理和免疫机制编码成结构化变量/函数的形式化框架。
AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning: 构建首个面向麻醉学推理的综合数据集套件AnesSuite，包含评测基准AnesBench（7972道三级认知难度双语选择题）和三组训练数据集（AnesCorpus/AnesQA/AnesR1），基于此训练的Morpheus模型通过SFT+GRPO让7B模型追平14B基线，同时揭示了当前最强LLM在复杂临床推理（System 2）上的显著瓶颈。
Are LLMs Really Not Knowledgeable? Mining the Submerged Knowledge in LLMs' Memory: 这篇论文指出 LLM 在问答任务上答错或回答"不确定"，往往不是因为参数里没存相关知识，而是知识"沉在水面下没被表达出来"——它提出 Hits@k 指标证明：正确答案常常就排在 top-k logits 里只是没被选中（LLaMA3-8B 在 DBpedia 上 Hits@1 仅 17.2%，Hits@5 却到 57.9%），并进一步揭示主流"允许回答 unsure"的提示范式会主动压制低置信度的正确答案。
ASIDE: Architectural Separation of Instructions and Data in Language Models: 提出 ASIDE，一种在 token embedding 层面通过正交旋转区分指令和数据的架构级改造，仅需修改前向传播并在标准指令微调数据上训练，即可显著提升指令-数据分离度和 prompt injection 鲁棒性，无需任何安全专项训练。
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite: AI2 团队针对现有科研 Agent 基准的 5 大方法学缺陷，构建了首个覆盖科学研究全流程的 Agent 评估套件 AstaBench，包含 4 大类 11 个子基准共 2400+ 问题，配备基于 Semantic Scholar 的生产级可控搜索工具和 9 类科研优化 Asta Agent 基线，对 57 个 Agent（22 类）进行了迄今最大规模的系统评估，发现尽管在文献检索等单项任务上取得了进展，AI 在端到端科学研究辅助方面仍远未达标。
AutoCode: LLMs as Problem Setters for Competitive Programming: AutoCode 用「Validator-Generator-Checker(-Interactor)」闭环多角色框架，让 LLM 既能为已有竞赛题生成接近官方判罚 99% 一致性的测试数据，又能从种子题出发、通过「参考解 vs 暴力解」双重验证自动生成被 Grandmaster 认可为比赛级别的新题。
AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators: AutoCodeBench 用 AutoCodeGen 自动合成高难度、多语言、可执行验证的代码生成题目，把 LLM 生成测试输入、沙箱执行得到测试输出、反向生成题面和多阶段过滤串成一条流水线，并由此构建出覆盖 20 种编程语言、3,920 道题的代码生成评测集，实验显示当前最强模型平均 Pass@1 仍不超过 55.4%。
AutoLibra: Agent Metric Induction from Open-Ended Human Feedback: AutoLibra 把人类对智能体轨迹的开放式自然语言反馈（如"按钮已禁用就别再点了"）自动归纳成一组带定义和正反例的细粒度评测指标，再用 LLM-as-a-Judge 打分，并用"覆盖率/冗余度"两个元指标反过来优化这组指标，最终既能比专家手设指标更细地刻画智能体行为，又能当作优化目标让前沿模型在 2D 文字游戏上自我调节提升 20%+ 成功率。
AutoMetrics: Approximate Human Judgments with Automatically Generated Evaluators: AutoMetrics 把不到 100 条稀疏的人类反馈（点赞/点踩、Likert、行为信号）自动转成一组可解释的评估指标：先生成候选 LLM-as-a-Judge 标准并从 48 个现成指标的 MetricBank 中检索，再用偏最小二乘（PLS）回归把它们组合成最贴合人类判断的复合指标，在 5 个任务上把与人类评分的 Kendall 相关性最多提升 33.4%，还能当代理奖励去优化下游 agent，效果不输可验证奖励。
Benchmarking Overton Pluralism in LLMs: 提出 OvertonBench 框架，通过大规模人类研究（1208名美国代表性参与者、60个主观问题、8个LLM）将 Overton 多元主义形式化为集合覆盖度指标 OvertonScore，发现当前所有模型得分仅 0.35–0.41（理论上限为 1.0），并构建了与人类判断高度相关（ρ=0.88）的自动化评测工具。
Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs: 针对现有长对话记忆评测「话题割裂、领域狭窄、只考简单召回」三大毛病，本文先用一套递归剧情规划的合成流水线造出 BEAM（100 段最长 10M token 的连贯对话 + 2000 道覆盖 10 种记忆能力的探针题），再提出受人类认知启发、把「情景记忆 + 工作记忆 + 草稿本」三套记忆系统拼在一起的 LIGHT 框架，在 BEAM 上相比最强 baseline 平均提升 3.5%–12.69%。
BiasScope: Towards Automated Detection of Bias in LLM-as-a-Judge Evaluation: 提出 BiasScope，一个完全由 LLM 驱动的迭代式框架，能自动、大规模地发现 LLM-as-a-Judge 中的潜在未知偏差，并基于此构建了更具挑战性的 JudgeBench-Pro 基准，在其上即使强大的 LLM 评估器错误率也超过 50%。
BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation via Lens of Dynamic Interactions: BIRD-INTERACT 把单轮 text-to-SQL 评测改造成一个带"会模拟用户提问、会管知识库、会跑测试用例"的动态交互环境，覆盖完整 CRUD 操作并故意往任务里注入歧义，用 c-Interact（协议引导对话）和 a-Interact（自主智能体）两种设置考察 LLM 的交互能力——结果连最强的 GPT-5 在 600 题全集上也只解出 8.67%（c）/17.00%（a），暴露出当前模型"会写 SQL 但不会通过交互把任务问清楚"的短板。
Can LLMs Refuse Questions They Do Not Know? Measuring Knowledge-Aware Refusal in Factual Tasks: 本文提出 Refusal Index (RI)——把"拒答概率"与"出错概率"之间的 Spearman 秩相关作为度量，用一个只需两遍标准评测的轻量流程，量化 LLM "对不会的问题主动拒答"这一被现有指标忽视的能力。
Can Vision–Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective: 提出 AesEval-Bench，首个系统性评估 VLM 图形设计美学评估能力的 benchmark（4维度×12指标×3任务），发现现有 VLM（含推理增强型）在设计美学上表现有限，并通过 human-guided VLM labeling + indicator-grounded reasoning 构建训练数据，微调 7B 模型在精确定位任务上超过 GPT-5。
Can You Hear Me Now? A Benchmark for Long-Range Graph Propagation and Beyond: 本文提出 ECHO 基准，包含 3 个合成任务和 2 个基于密度泛函理论（DFT）的真实化学任务，要求图神经网络在 17–40 跳范围内有效传播信息，系统评估了 11 种 GNN 架构的长程传播能力。
CatalystBench: A Comprehensive Multi-Task Benchmark for Advancing Language Models in Catalysis Science: 这篇论文造了第一个面向催化科学的多任务 benchmark——CatalystBench，把理论计算数据和实验文献统一成覆盖"催化剂设计全流程"的 8 个任务，并提出多头全任务微调（MFT）把分类头、回归头、生成头解耦训练，得到的 CatalystLLM 在大多数任务上超过 GPT-4.1 等强基线，相对单任务基线平均提升 12.44%。
Characterizing Deep Research: A Benchmark and Formal Definition: 这篇论文给"深度研究（Deep Research, DR）"这个被各家模型抢着用、却从没被严格定义过的任务下了一个形式化定义——核心不是"输出长报告"而是"搜索过程中对概念的高扇出（high fan-out）"，并据此构造了 100 道开放网络任务的 benchmark LIVEDRBENCH，用基于 claim 的精确率/召回率做客观打分，发现当前最强的 OpenAI DR 也只有 0.55 的平均 F1，系统普遍只覆盖了约一半的必要搜索查询。
ChemEval: A Multi-level and Fine-grained Chemical Capability Evaluation for Large Language Models: ChemEval 把 LLM 的化学能力拆成「概念 → 文献 → 分子 → 推理」四级递进、13 个维度、62 个任务（含文本与多模态），用化学专家手工构建的 3160 道题做细粒度诊断，发现通用大模型擅长读文献、做不了深层化学推理，而化学专用模型懂术语却几乎丧失指令跟随能力。
Choices Speak Louder than Questions: 这篇论文指出多选题（MCQA）评测里大模型常常"看选项不看题"——决策被答案选项的表面特征主导而非真正理解问题，并提出一个把"题目贡献"从"选项贡献"中剥离出来的新打分方法 NPSQ，让评测在选项被恶意篡改时依然稳定。
CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives: CLASH 是一个由 345 个人工撰写的高风险价值困境、3795 个角色视角组成的评测基准，专门检验语言模型能否从不同人物视角判断"该不该做某个争议动作"，并首次系统考察模型对决策矛盾犹豫（ambivalence）、心理不适（discomfort）、价值随时间漂移（value shift）的理解能力——结果发现连 GPT-5、Claude-4-Sonnet 这样的顶级模型在矛盾犹豫判断上也只有 24.06 和 51.01 的准确率。
CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics: 提出 CMPhysBench——520 道研究生级凝聚态物理开放式计算题基准，并配套树编辑距离驱动的 SEED 度量给出细粒度部分分，揭示即便最强的 Grok-4 也只有 36 SEED / 29% 准确率，暴露 LLM 在前沿物理领域的巨大能力缺口。
CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers: 由全球凝聚态理论专家亲手出题，构建了 50 道研究级物理难题的 CMT-Benchmark，并用能处理非对易算符代数的自动评分管线检验 17 个前沿大模型——结果最强的 GPT-5 也只做对 30%，平均仅 11.4%，戳穿了"LLM 能当科研助手"的幻觉。
CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density: CogniLoad 是一个基于认知负载理论（Cognitive Load Theory, CLT）构建的合成自然语言推理 benchmark，用三个相互独立、可任意调节的参数——内在难度 \(d\)、干扰项密度 \(\rho\)、任务长度 \(N\)——分别操控推理任务的内在负载、外在负载和与"专注负载"对应的持续维护负担，从而把长上下文推理失败精确归因到具体维度；作者用它评测了 22 个 SotA 推理大模型，发现任务长度是最主导的瓶颈，模型对干扰项呈现 U 型响应。
Complementing Self-Consistency with Cross-Model Disagreement for Uncertainty Quantification: 针对自一致性（self-consistency）在「模型自信地答错」时失效的问题，本文用一组同量级、跨家族的开源 LLM 之间的语义分歧来估计认知不确定性（EU），把它加到原有的偶然不确定性（AU）上得到总不确定性（TU），在 5 个 7–9B 模型 × 10 个长文本生成任务上，TU 的校准（AUROC）和选择性弃答都稳定优于单用 AU，且只用纯文本输出、无需训练或访问 logits。
Computer Agent Arena: Toward Human-Centric Evaluation and Analysis of Computer-Use Agents: 把 Chatbot Arena 的"真人盲投 + Elo 排名"范式搬到计算机使用智能体（CUA）上：让两个匿名 CUA 在云端真实桌面环境里并行执行真人提的任务，用户对轨迹做成对偏好投票，从而暴露静态基准（如 OSWorld）测不出来的排名翻转和行为级错误。
Contamination Detection for VLMs Using Multi-Modal Semantic Perturbations: 针对"VLM 在公开 benchmark 上的高分可能源于训练集泄漏而非真实推理"这一隐患，本文提出多模态语义扰动检测法：用 LLM + 扩散模型微改图片语义、同时把正确答案换掉，再比较模型在原始 vs 扰动 benchmark 上的准确率落差——干净模型两边都答对，被污染（记忆题库）的模型在扰动版上崩盘，从而在无需访问任何"干净参照模型"的情况下可靠地标记污染。
Cost-of-Pass: An Economic Framework for Evaluating Language Models: 这篇论文借用经济学里的"生产前沿"理论，提出 cost-of-pass（生成一个正确答案的期望美元成本）这一把"准确率 × 推理成本"合并成单一指标的评测框架，并用它揭示出不同体量模型在不同任务上的经济生态位、过去一年成本前沿的下降速度，以及多数推理时增强技巧（多数投票、自我修正）在"花钱买正确"这个尺度上其实并不划算。
Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision: 本文提出 USACOArena——一个用统一"信用"经济驱动的 ACM-ICPC 风格在线竞技场，让编程智能体为生成的每个 token、每次本地测试和每一秒墙钟时间付费，把对编程智能体的评测从"孤立的代码正确率"转向"预算约束下的成本感知决策"。
CubeBench: Diagnosing Interactive, Long-Horizon Spatial Reasoning under Partial Observations: 用魔方搭了一个三层难度的生成式基准 CubeBench，把「空间推理 / 长程心智模拟 / 部分观测下的主动探索」三种物理世界核心认知能力从感知里剥离出来单独测，结果发现包括 GPT-5 在内的所有主流 LLM 在长程任务上 pass rate 一律 0.00。
Culture In a Frame: C\(^3\)B as a Comic-Based Benchmark for Multimodal Culturally Awareness: C3B（Comics Cross-Cultural Benchmark）用 2220 张漫画、18789 个 QA 对，把"识别文化物体 → 判断文化冲突 → 跨语言文化内容生成"三个递进难度的任务串成一条链，专门考查多模态大模型的文化感知能力；在 11 个开源 MLLM 上的评测显示它们离人类水平还差一大截。
Culture in Action: Evaluating Text-to-Image Models through Social Activities: 这篇论文指出现有文本到图像（T2I）评测只关注"食物/地标/服饰"这类静态物件、忽视了真正承载文化的社会活动，于是构建了 CULTIVate 基准（16 国 × 576 项社会活动 × 1.9 万张生成图）并提出 AHEaD 框架——用 LLM 生成的"文化描述子"把图像分解成可解释维度，从对齐/幻觉/夸张/多样性四个角度量化文化忠实度，其复合指标 FAITH 与人类判断的相关性比基线高 27%，并揭示出 T2I 模型对全球北方文化系统性地比全球南方更忠实。
CyberGym: Evaluating AI Agents' Real-World Cybersecurity Capabilities at Scale: CyberGym 用 OSS-Fuzz 上 188 个真实开源项目的 1507 个历史漏洞构建了一个比现有同类基准大 7 倍以上的网络安全评测基准，核心任务是让 AI 智能体在只给漏洞文字描述和打补丁前代码库的条件下生成能复现漏洞的 PoC，结果最强的智能体+模型组合也只有约 20% 成功率，并且在评测过程中顺带挖出了 34 个 0-day 漏洞和 18 个不完整补丁，证明它既是衡量 AI 进展的硬基准，也是能产生真实安全影响的平台。
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle: DAComp 是一个覆盖企业级"数据智能全生命周期"的 210 任务基准，把数据智能拆成"硬轴"仓库级数据工程（DE）和"软轴"开放式数据分析（DA），分别用执行式多指标和分层 rubric 的 LLM-judge 评测，发现即便 GPT-5 在 DE 上严格成功率也只有 20%、DA 平均不到 50%，暴露出当前数据智能体在整体管线编排和开放式推理上的硬伤。
DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science: DARE-bench 是一个面向数据科学任务的大规模可验证基准，包含 6300 个 Kaggle 衍生任务，支持 ML 建模和指令遵循两类评估，提供训练集支持 SFT 和 RL——SFT 将 Qwen3-32B 提升 1.83×，RL 将 Qwen3-4B 提升 8× 以上。
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents: 针对"深度研究智能体（DRA）"提出首个系统性基准 DeepResearch Bench——100 个由领域专家精心打磨、覆盖 22 个学科的 PhD 级研究任务，并配套两套全自动且高度对齐人类的评测框架：RACE 评报告质量、FACT 评信息检索与引用可信度。
DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence: DeepTRACE 把社区在真实使用中归纳出的失败模式翻译成 8 个可计算指标，对生成式搜索引擎（GSE）和深度研究 Agent（DR）做端到端审计，发现这类系统普遍存在单边表达、过度自信、以及大量"自己列了来源却没有来源支撑"的陈述，引用准确率只有 40–80%。
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models: 这篇论文首次系统研究 LLM 在 RL 后训练阶段的 benchmark 数据污染检测问题，提出 Self-Critique 用两次生成的 token 级熵轨迹相似度捕捉被污染样本上的策略路径依赖，并构建 RL-MIA benchmark 证明传统基于似然的检测器在这一阶段接近随机猜测，而该方法能稳定提高 AUC。
Detecting Data Contamination in LLMs via In-Context Learning: 提出 CoDeC（Contamination Detection via Context），靠"给同数据集的样本当上下文后模型置信度是涨还是跌"这一信号判断 LLM 是否在某数据集上训练过——见过的会跌、没见过的会涨，只需灰盒访问 token 概率、两次前向，就能在数据集级别把见过/没见过几乎完美分开（AUC 99.9%）。
DISCO: Diversifying Sample Condensation for Efficient Model Evaluation: DISCO 提出"挑选让模型们意见最不一致的样本"这一极简准则来压缩评测集，配合"模型签名 + 简单回归"直接预测全量性能，在 MMLU/HellaSwag/Winogrande/ARC 上用 100 个样本就把评测成本砍掉 99% 而误差仅约 1 个百分点，刷新了高效评测的 SOTA。
Do LLM Agents Know How to Ground, Recover, and Assess? Evaluating Epistemic Competence in Information-Seeking Agents: 提出 SeekBench——首个面向 LLM 搜索智能体的过程级评测框架，把"会不会用证据"拆成接地（groundedness）、纠错（recovery）、校准（calibration）三种认知能力并设计可量化指标（RQI / ERF / CE），用 190 条专家标注轨迹校准出一套高一致性标注 schema，再借 LLM-as-judge 把评测扩到 28,493 条轨迹，揭示出只看答案准确率根本看不到的行为缺陷。
Don't Pass@k: A Bayesian Framework for Large Language Model Evaluation: 本文把"评估 LLM"本身当成一个统计推断问题，用 Dirichlet 先验下的贝叶斯后验估计（Bayes@N）替代 Pass@k 和 avg@N，用闭式后验均值 + 可信区间在更少的采样下给出稳定排名，并提供"区间不重叠才宣布胜负"的透明决策规则。
Don't Throw Away Your Beams: Improving Consistency-based Uncertainties in LLMs via Beam Search: 这篇论文指出短答案问答里的多项式采样会大量重复高概率答案、导致一致性式不确定性估计方差很大，并用概率加权的 beam search 候选替代采样候选，在六个 QA 数据集和六个模型上稳定提升 PRR、ROC-AUC 与 PR-AUC。
Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas: 提出一种 doubly-robust 估计框架，将不完美的 LLM persona 评分与存在采样偏差的人工评分相结合，在协变量偏移和选择偏差同时存在时仍能产生统计有效的 GenAI 系统质量估计。
DRBench: A Realistic Benchmark for Enterprise Deep Research: DRBench 构造了第一个面向企业场景的 deep research 基准——要求 Agent 同时从公开网页和私有企业数据（邮件、聊天、PPT、表格、PDF）中挖掘并综合关键洞察，用 Insight Recall / Factuality / Distractor Avoidance / Report Quality 四个维度评估，揭示出当下 Agent 在企业洞察召回上严重不足（最强的 GPT-5 也只有 ~37%）。
EARTHSE：地球科学知识探索基准: EARTHSE 从 10 万篇地球科学论文构建三层递进式基准（广泛QA → 专业QA → 开放对话），覆盖5大地球层114个子领域11类任务，系统评估LLM在基础知识和科学探索两个维度的能力，揭示现有LLM在领域深度和开放式思维上的显著短板。
EIP: Weighted Ranking of LLMs by Quantifying Question Difficulty: 这篇论文提出 EIP（Empirical Interaction Propagation），把“模型答对/答错题目”的二值交互建成双向图传播系统，联合估计题目难度和模型能力，从而实现比纯准确率更细粒度、且与人类难度判断高度一致（90%）的 LLM 排名。
Evaluating Language Models' Evaluations of Games: 本文提出一个全新评测范式——不再考核 AI「会不会玩游戏」，而是考核它「会不会评判一个游戏值不值得玩」，用 121 个全新棋类游戏 + 450 多份人类判断，系统比较语言/推理模型在「估算收益(公平性)」和「评估趣味性」两类查询上与人类、博弈论最优解、符号化博弈智能体的对齐程度。
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists: 提出 EXPERTLONGBENCH（9 个领域 11 个专家级长文本生成任务）与 CLEAR 评测框架——用专家设计的 rubric 把模型输出和参考答案都拆成可逐项核对的 checklist，发现即便最强的 Gemini-2.5-Pro 平均 F1 也仅 33.4，专家级长文本生成对当前 LLM 仍是巨大鸿沟。
Fewer Battles, More Gain: An Information-Efficient Framework for Arena-based LLM Evaluation: 把 Arena 里"该让哪两个模型对战"建模成一个最优实验设计问题——用 Fisher 信息矩阵的 A-最优/D-最优准则主动挑选信息增益最大的对战，让同样数量的人工标注换来更可靠的排名，从而"少打架、多收益"。
FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning: FinSearchComp 是首个全开源、端到端的开放域金融搜索与推理智能体 benchmark，由 70 名金融专家标注 635 道横跨全球与大中华市场的三类分析师任务，评测 21 个模型后发现最强的 Grok 4（web）也仍落后人类专家 6.1 个百分点。
FormalML: A Benchmark for Evaluating Formal Subgoal Completion in Machine Learning Theory: 本文提出 FormalML——首个面向「子目标补全（subgoal completion）」的 Lean 4 基准，用一个自研的 to_theorem 翻译策略从机器学习理论（优化 + 概率）的形式化库中自动抽取 4,937 道证明片段题，系统性地暴露了当前 LLM 证明器在复杂上下文、前提利用与效率上的真实短板。
Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains: 本文反其道而行——不追逐 RL 等新方法，而是把"数据规模化"做到极致：精心策划 250 万条覆盖 5 类评估任务、多个推理域的训练样本，用简单稳定的迭代拒绝采样 SFT 训出 FARE 系列评估器（8B 与 20B），其中 8B 挑战更大的 RL 专用评估器，20B 超越 70B+ 开源评估器，并在重排序、RL 验证、领域续训等真实下游场景中显著见效。
FRABench and UFEval: Unified Fine-grained Evaluation with Task and Aspect Generalization: 作者提出一棵覆盖 112 个评估方面的层级化"方面树"，据此构建了横跨文本生成、图像理解、图像生成、图文交错生成四类任务的 60.4k 配对、325k 标签的细粒度评估数据集 FRABench，并训练出第一个具备"任务+方面"双重泛化能力的统一裁判模型 UFEval——核心论点是评估方面之间天然互联、多任务联合学习能产生协同增益。
From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking: 提出 AUTOEXPERIMENT 基准：给 Agent 一篇论文 + 一份被「渐进式掩码」掉若干关键函数的代码库 + 运行命令，让它补全缺失代码、跑实验并报告结果，通过调节掩码函数数量 \(n\) 在「复现(reproduction)」与「从零复刻(replication)」之间连续插值，量化研究 Agent 的真实能力边界。
GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks: GDPval 是 OpenAI 提出的一个面向"真实经济价值数字知识工作"的基准：覆盖美国 GDP 贡献最大的 9 个行业、44 个职业、1320 个由 14 年经验专业人士构造的真实任务，用"模型 vs 人类专家盲测胜率"为核心指标，发现前沿模型的交付质量正逐年线性逼近行业专家。
GuidedSampling: Steering LLMs Towards Diverse Candidate Solutions at Inference-Time: 提出 GuidedSampling 推理算法，将重复采样（RS）的隐式探索和生成过程显式解耦为两阶段：先迭代生成多样化的解题概念/定理，再基于各概念分别生成候选解。在 pass@50 上平均提升约 21.6%，微调后 pass@5 提升约 9.7%。
HackWorld: Evaluating Computer-Use Agents on Exploiting Web Application Vulnerabilities: HackWorld 构建了首个用 CTF 方式系统评测计算机使用智能体(CUA)通过图形界面发现并利用真实 Web 漏洞能力的框架，揭示当前 SOTA CUA 的漏洞利用成功率不足 12%，瓶颈在推理、规划与安全工具编排而非感知。
Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in LLMs: 本文提出 TDBench，把"时态数据库 + 数据库技术（时态函数依赖、时态 SQL、时态连接）"当成 TSQA 题库的自动构造引擎，零人工地生成覆盖 13 种时间约束的题目，并引入 time accuracy 指标揭示出 LLM 即便答对答案也会在解释里幻觉出错误时间引用（平均 21.7%）。
Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation: HAL 提供一套标准化、可分布式并行、自动记账的 Agent 评测基础设施，用 21,730 次 rollout 在「模型×脚手架×基准」三维度上跑出准确率-成本帕累托前沿，并用 LLM 自动分析 25 亿 token 的日志，揭示出 reasoning 越多反而越差、agent 偷看 HuggingFace 答案、用错信用卡订机票等被传统指标掩盖的行为。
How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective: 把"评测测试用例生成方法"形式化为在「错误代码 × 测试用例」二值矩阵里找一组秩等于矩阵秩、内部多样性最大的"诊断基"，据此构造出紧凑、抗分数膨胀的 TC-Bench，揭示即便最强方法 HackRate 也只有约 60%。
How Reliable is Language Model Micro-Benchmarking?: 提出 Minimum Detectable Ability Difference (MDAD) 元评估指标，系统揭示了 micro-benchmark 在极小规模下无法可靠区分性能差距小的模型对，且当样本量达到 ~250 时随机采样与精心设计的 micro-benchmark 方法表现相当。
Human-LLM Collaborative Feature Engineering for Tabular Learning: 提出一个人-LLM协作特征工程框架，将LLM的特征操作提议与选择过程解耦，通过贝叶斯神经网络建模操作效用和不确定性来指导选择，并选择性地引入人类偏好反馈，在18个表格数据集上平均错误率降低8.96%~11.23%。
In-Context Learning for Pure Exploration: 提出 ICPE（In-Context Pure Exploration），一种结合监督学习和强化学习的上下文学习框架，使用 Transformer 从经验中直接学习探索策略，在主动序列假设检验/纯探索问题中实现接近最优的实例自适应算法性能，无需显式建模信息结构。
In-Context Learning of Temporal Point Processes with Foundation Inference Models: 提出 FIM-PP——首个面向标记时间点过程（MTPP）的基础推断模型，在 72K 合成点过程（1440 万事件）上预训练 Transformer 来上下文推断条件强度函数，零样本即可匹配专用模型数小时训练的性能，微调几分钟后在四个真实数据集的多事件预测上全面刷新 SOTA。
Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?: 本文提出 Inverse IFEval——一个把 SFT「理想化标注范式」系统性反转过来的指令跟随基准，用 8 类「反直觉指令」+1012 条中英双语题目，专门测 LLM 能否挣脱对齐训练植入的「认知惯性」去执行与训练习惯冲突的真实指令。
JQBench: 一个从自然语言和/或示例读写 JSON 的基准: 本文构建了 JQBench——一个评测 LLM 把自然语言和/或输入输出示例转写成 jq 表达式（查询、过滤、变换 JSON）的基准，由 Stack Overflow（JQSTACK，1496 题）和 Spider（JQSPIDER，859 题）两条全自动流水线生成，并通过大量基线实验揭示了「文档陷阱」「jq 落后于 Python」「示例反馈至关重要」三大反直觉发现。
LFQA-E: Carefully Benchmarking Long-form QA Evaluation: 作者构建了一个带专家参考答案、覆盖中英双语 15 个领域、1618 题 7323 对比较的长文问答评测基准 LFQA-E，系统性地证明现有 17 种自动评估指标无一能逼近人类判断，并剖析了它们失败的根因。
LiveClin: A Live Clinical Benchmark without Leakage: LiveClin 用每半年更新一次、源自最新同行评议病例报告的"活基准"，把单题问答升级为模拟完整临床路径的多模态序列考试，从根上抵抗数据污染与知识过时——26 个模型里最强的 Case Accuracy 也仅 35.7%，且仍落后于主任医师。
LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild: LiveResearchBench 用 100 道专家精修、带 checklist 的"动态实时网络检索"任务，配上拆成六个维度、各用专属评测协议的 DeepEval 评测套件，第一次把单 agent / 多 agent 深度研究系统放在统一、不可作弊、与人类高度对齐的标尺上比较，揭示出当前系统"会搜集不会深析、引用错漏频发"的系统性短板。
LLM-as-a-Prophet: Understanding Predictive Intelligence with Prophet Arena: 本文提出"LLM-as-a-Prophet"评测范式与 Prophet Arena 实时基准：用 Kalshi 预测市场上不断更新的真实未来事件来考核大模型的预测智能，既天然免疫数据污染，又能用 Brier 分数、校准误差、市场收益三类指标系统拆解出前沿模型在事件回忆、信息源理解、临近结算时信息聚合上的瓶颈。
LLMs Get Lost In Multi-Turn Conversation: 本文通过"指令分片 + 模拟对话"的大规模实验（20 万+ 模拟对话、15 个 LLM）证明：所有顶尖 LLM 在多轮欠定对话中相比单轮完整指令平均掉点 39%，而这种退化主要不是能力下降，而是可靠性崩溃——模型一旦在某轮走错就"迷失"且无法恢复。
LMGame-Bench: How Good are LLMs at Playing Games?: LMGame-Bench 用统一 Gym 风格 API 把 6 款经典游戏做成一个可插拔模块化的评测基准，通过感知/记忆/推理三类脚手架（harness）按需开关来单独探测视觉感知、长程规划、反思等能力，并配套数据污染检测与提示词标准化，让 13 个前沿模型在不饱和的前提下被清晰区分。
Log Probability Tracking of LLM APIs: 提出 Logprob Tracking (LT) 方法，仅用单token输入和单token输出的log概率即可检测LLM API的微小变更（如单步微调），灵敏度比现有方法高2-3个数量级，成本低1000倍。
LogiConBench: Benchmarking Logical Consistencies of LLMs: LogiConBench 用「自动生成逻辑图 → 采样命题并沿推理路径传播真值 → 翻译成自然语言」的流水线，造出可无限扩展、深度可控、带显式推理路径的 280K 逻辑一致性评测集，并设计判别 / 枚举 / 生成三类任务，揭示出前沿 LLM 在枚举任务上 exact accuracy 最高只有 34% 的硬伤。
Mapping Overlaps in Benchmarks through Perplexity in the Wild: 本文提出 benchmark signature（基准指纹）——从大规模真实语料里筛出一组"显著 token"，用一组 LLM 在这些 token 上的困惑度去预测它们在某基准上的表现，从而刻画每个基准真正考察的能力，并据此量化 89 个基准之间被语义相似度和性能相关性都掩盖掉的真实重叠结构。
Mapping Post-Training Forgetting in Language Models at Scale: 提出一套样本级 + 去随机猜测修正的遗忘/反向迁移度量，对近 30 个 base→后训练模型对、约 100 个子基准做大规模实测，发现现实中的后训练遗忘远比持续学习文献预测的轻，而数学/逻辑上的反向迁移普遍存在。
Measuring LLM Novelty as the Frontier of Original and High-Quality Output: 本文提出把 LLM 的"新颖性"定义为原创性（训练数据中未见 n-gram 比例）与质量（任务专属打分）的调和平均，用这把统一的尺子在三个开放数据模型家族、三个创意任务上系统刻画了什么因素能真正推动新颖性前沿。
MLE-Smith: Scaling MLE Tasks with Automated Multi-agent Pipeline: MLE-Smith 用「生成—验证—执行」三段式多智能体流水线，把原始数据集自动转化为竞赛风格的机器学习工程（MLE）任务，无需人工就能规模化产出 606 个高质量、可执行、可区分模型能力的基准任务。
Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses: 把 LLM 事实性建模成「逐 claim 分数的累积乘积」，用组条件共形校准给出分布无关的覆盖保证，再用多 LLM 集成把事实性分数估得更准，从而在严格控制错误率的同时保留尽可能多的真实信息。
Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models: 本文提出 AnthroBench——一个用 LLM 模拟用户、自动跑多轮对话、再用多个 LLM 评委标注 14 种拟人化行为的可扩展评测基准，并用 N=1101 的真人实验证明：这些自动测出来的行为确实能预测真人对 AI 的拟人化感知，且超过一半的拟人化行为只在第 2-5 轮才首次出现。
NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation: NAIPv2 把"论文质量打分"重构成同领域同年份内的成对排序学习，再叠加一个把评审分数与置信度概率化融合的 RTS 信号，训练时学相对优劣、部署时退化为线性时间的点对点回归器，在 ICLR 评审预测上拿到 78.2% AUC / 0.432 Spearman 的 SOTA，同时比自回归 LLM 评审快上千倍。
Noisy but Valid: Robust Statistical Evaluation of LLMs with Imperfect Judges: 用一小撮人工标注估出 LLM 裁判的真/假阳性率（TPR/FPR），构造一个"方差修正"的临界阈值再去吃海量裁判标注，从而在裁判本身不可靠的情况下，依然能给出有限样本下 Type-I 误差受控（不会把不安全模型误判为安全）的 LLM 认证检验。
PACEbench: A Framework for Evaluating Practical AI Cyber-Exploitation Capabilities: PACEbench 用真实 CVE、多主机网络拓扑和真实 WAF 防御搭出 32 个贴近实战的网络攻击场景，配套一个三阶段渗透测试智能体 PACEagent 和带部分得分的加权指标，评测七个前沿大模型后发现它们在复杂多主机场景里大幅退化、没有一个能绕过防御，说明当前模型尚未构成通用网络攻击威胁。
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs: 这篇论文用信息论分析 + 可解析的合成列表任务，量化揭示了扩散语言模型（dLLM）并行解码因「条件独立假设」必然带来的质量损失，并据此构造了首个专门衡量并行解码速度-质量权衡的真实任务基准 ParallelBench（3 类 17 个任务），证明现有 dLLM 在对人类和自回归模型来说极其简单的任务上、一旦提高并行度就会严重掉点，且现有解码策略无法按任务难度自适应调节并行度。
PCB-Bench: Benchmarking LLMs for Printed Circuit Board Placement and Routing: PCB-Bench 是第一个系统评测（多模态）大模型在印制电路板（PCB）布局布线任务上能力的综合基准，用「纯文本 QA/CQ + 图文多模态 + 真实设计理解」三类任务覆盖约 3700 道文本题、约 500 道图文题和 174 个真实工程项目，揭示出当前前沿模型在空间布局推理、规则约束遵循和工程图纸解读上仍有明显短板。
PerSpectra: A Scalable and Configurable Pluralist Benchmark of Perspectives from Arguments: PerSpectra 把 Kialo 辩论图谱的"清晰结构"和 Reddit 真实讨论的"语言多样性"用一条检索-扩写流水线缝合起来，构造出 100 个争议话题、762 个 pro/con 立场、3810 条自然化论点的可配置基准，并衍生出观点计数、观点匹配、极性判断三个任务，揭示出当前 LLM 在多视角理解上的系统性失败（高估观点数、混淆同侧细分观点、被让步从句带偏极性）。
Pitfalls in Evaluating Language Model Forecasters: 这是一篇立场/分析论文：作者系统梳理了「用 LLM 做未来事件预测」这个新方向在评测上独有的两大类陷阱——回测中的各种时间泄漏让结果不可信，以及基准分数难以外推到真实预测能力——并用大量来自已有工作的具体例子论证「LLM 已达到甚至超越人类预测水平」的结论需要被严肃质疑。
POEMetric: The Last Stanza of Humanity: 本文提出 POEMetric——第一个系统评估诗歌生成的框架，用 10 个维度（基础指令遵循 + 高级创作能力 + 总体评价）、203 首人类定型诗 + 30 个 LLM 生成的 6090 首诗，通过「规则算法 + LLM 评委 + 人类专家」三方互证，量化地证明了：顶级 LLM 在格律和主题上已逼近满分，但在创意、个性、情感共鸣、意象与修辞这些「诗之所以为诗」的能力上仍远不及人类诗人。
PrefDisco: Benchmarking Proactive Personalized Reasoning: 本文提出 PrefDisco——一套把任意静态推理基准改造成「交互式个性化任务」的评测方法，要求模型在冷启动（无历史）下主动提问来发现用户隐藏偏好、再据此调整推理链，并用细粒度 rubric 指标 PrefAlign 度量对齐程度；在 21 个前沿模型 × 10 个任务上发现 29.0% 的个性化尝试反而比通用回答更差。
Preference Leakage: A Contamination Problem in LLM-as-a-judge: 首次定义并系统研究 LLM-as-a-Judge 中的 偏好泄漏 (Preference Leakage) 问题——当合成数据生成器 \(M_G\) 与评估器 \(M_J\) 存在关联（同模型/继承/同家族）时，评委会对"相关学生模型"产生系统性偏好，同模型场景下 PLS 高达 28.7%（Arena-Hard），且该偏差比自中心偏差更隐蔽、更难检测。
PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning: PRISM-Physics 把竞赛物理题的参考解答建模成"公式 DAG"（节点是公式、边是因果依赖），配上一套纯规则的物理公式等价匹配器和有理论最优性证明的"祖先闭包打分"，做出第一个对物理推理过程逐步打分的 benchmark，比 LLM-as-judge 和现有线性过程打分更贴近物理专家评分。
ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge: ProfBench 用物理/化学博士与金融/咨询 MBA 专家亲手撰写的 7000+ 条「回答-评分准则」对，搭起一个跨 4 个专业领域、需要真专业知识才能答也才能判的 rubric 评测基准，并配套一个去偏置、便宜 2-3 个数量级的 LLM-Judge，发现连 GPT-5-high 也只能拿 65.9% 总分。
Prompt and Parameter Co-Optimization for Large Language Models: 提出 MetaTuner 框架，通过共享 meta encoder 同时生成 prompt 和 LoRA 参数，将离散 prompt 优化与连续参数微调统一为端到端可优化的联合框架，在数学推理和问答任务上大幅超越单独优化的方法。
RedacBench: Can AI Erase Your Secrets?: 本文提出 RedacBench——一个用「策略条件 + 命题级标注」来评测 LLM 文本脱敏（redaction）能力的综合基准，用 514 篇人工撰写文本、187 条安全策略和 8,053 条标注命题，同时量化「删干净敏感信息」的安全性与「保住非敏感信息」的效用，并系统评测了 11 个主流模型 × 3 类脱敏策略，发现越强的模型安全性越高但效用越难保住，二者存在明显权衡。
RefineBench: Evaluating Refinement Capability of Language Models via Checklists: 作者提出 RefineBench——一个覆盖 11 个领域、1000 道难题、用「检查清单」逐条打分的多轮修正评测基准，系统区分「自我修正（无反馈）」与「引导式修正（给反馈）」两种场景，发现即便是 Gemini-2.5-Pro、GPT-5 这样的前沿模型，自我修正五轮后也只能拿到 31.3%/29.1% 的极低分，而一旦明确告诉它「哪里错了」就能逼近满分，说明当前模型缺的不是「改」的能力，而是「发现自己哪里错了」的能力。
Reliable Fine-Grained Evaluation of Natural Language Math Proofs: 针对"LLM 生成的自然语言数学证明无法可靠打分"这一空白，本文先构建首个细粒度专家标注集 PROOFBENCH（145 题 / 435 份证明 / 0–7 分），再系统搜索评估器设计空间（骨干模型、上下文、指令、工作流），得到 PROOFGRADER（O3 + 参考解与评分细则 + 简单集成），对专家分数的平均绝对误差低至 0.926，并在 best-of-n 选择中逼近人类上限。
ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents: ResearchRubrics 用 2800+ 小时人工，给 101 个真实开放式研究 prompt 配上 2593 条专家手写、带权重的细粒度评分细则（rubric），再用 LLM-as-Judge 按细则逐条打分，评测主流 Deep Research 系统，发现连 Gemini DR、OpenAI DR 这类最强 agent 的平均细则达成率都不到 68%，瓶颈集中在隐含需求推断和多源信息综合。
ResiliBench: Evaluating Agentic Workflow Adaptation in Stochastic Environments: ResiliBench 把"工具会概率性失败"和"用户给的工作流指令本身有缺陷"这两类真实部署不确定性当成评测的主角，用 30 个 API 的工具库自动生成 5040 个任务，并为每个任务配上 MDP 推导出的最优工作流和七类系统性扰动后的缺陷工作流，从而量化 LLM 在随机环境下的纠错与重规划能力。
Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry: 本文提出"表征即裁判"（Representation-as-a-Judge）范式：不让小语言模型生成评分文本，而是冻结它、直接从其隐藏层表征里用轻量探针分类器读出评估分数，在 GSM8K/MATH/GPQA 等推理评估任务上大幅超过同尺寸模型的 prompt 打分，并逼近大模型裁判，还能当数据过滤器提升下游 SFT。
Rethinking LLM Evaluation: Can We Evaluate LLMs with 200× Less Data?: 针对"评测一个 benchmark 太贵、且要在大量模型上反复跑"的痛点，本文把基准压缩重新表述为"保住榜单整体排名"的子集优化问题，提出 EssenceBench——用文本+排名双重冗余过滤、遗传算法配固定代理预测器搜索子集、再用归因引导精修三步流水线，在 HellaSwag（1 万样本）上只用 50 条样本就把 95% 的模型排名误差控制在 5% 以内，实现 200× 压缩。
Rewarding Doubt: A Reinforcement Learning Approach to Calibrated Confidence Expression of Large Language Models: 本文把 LLM 的数值置信度表达建模成一个“下注式”的强化学习问题，用严格适当的对数评分规则奖励答对时的高置信、惩罚答错时的过度自信，从而在基本不改变答题准确率的情况下显著提升模型置信度校准和跨任务泛化能力。
RouterArena: An Open Platform for Comprehensive Comparison of LLM Routers: RouterArena 是第一个面向 LLM 路由器（router）的开放评测平台，用 DDC 图书分类法构建覆盖 9 大领域、44 类、约 8400 条带难度标签的查询数据集，配合准确率、成本、路由最优性、鲁棒性、延迟五维指标和一个把准确率与成本合成的 Arena Score，再加上能自动跑新路由器并刷新榜单的框架，首次把学术与商业路由器拉到同一标尺下对比，发现没有一个路由器在所有指标上都最好、且现有方法普遍不擅长「该用小模型时用小模型」。
Same Content, Different Representations: A Controlled Study for Table QA: 首个控制变量研究：在保持表格内容完全相同的条件下变换表示形式（结构化 vs 半结构化），系统评估 NL2SQL、LLM、混合三类方法在不同表格大小/模式质量/查询复杂度下的鲁棒性，发现表示形式是影响 Table QA 性能的一阶因素。
Sci2Pol：评测与微调 LLM 的「科学→政策简报」生成能力: 本文提出首个面向「从科学论文生成政策简报（policy brief）」任务的评测基准 Sci2Pol-Bench（基于五阶段写作流程分解出 18 个任务）和训练语料 Sci2Pol-Corpus（从 560 万份政策文档中筛出 639 对高质量「论文–简报」配对），并指出 BERTScore/ROUGE 无法衡量简报质量、改用对齐专家判断的 LLM 评测指标；在语料上微调后，Gemma-3-27B 反超了规模大得多的 GPT-4o 与 DeepSeek-V3（671B）。
SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors: SimBench 把 20 个跨道德、经济、心理、政治的社会与行为科学数据集统一成「群体回答分布预测」任务，构建了首个大规模标准化的 LLM 人类行为模拟基准，并在 45 个模型上系统揭示：当前最强模型也只有 40.80/100 的中等保真度、模拟能力随规模对数线性增长但不随推理算力提升，且指令微调存在「对齐-模拟权衡」。
SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization: 本文把"用少量样本估计 LLM 在整个基准上的成绩"形式化为一个稀疏优化问题，首次用梯度下降的 MLP 直接学习锚点权重，并通过 AIS/CIS 两个重要性分数迭代替换锚点，只用约 100 个样本就能把估计误差压到 1–2% 并保持很高的排名一致性（Kendall's τ）。
SysMoBench: Evaluating AI on Formally Specifying Complex Real-World Systems: 本文提出 SysMoBench——首个评测 AI 为真实复杂系统（并发/分布式）自动写形式化模型（TLA+）能力的基准，用语法、运行时、代码一致性、不变量四个可自动核验的度量打分，发现 LLM 能搞定 spinlock 这类小系统、但在 Etcd Raft 这类大型协议实现上严重力不从心。
Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis: 提出TED(Talk, Evaluate, Diagnose)框架，通过通用可复用的expert/non-expert persona模板实现用户感知的动态Agent评估、grading notes+LLM-as-judge+MaxProgressRate@k等新指标进行细粒度效率评估、自动化错误发现和聚类提供可操作的改进反馈，在τ²-bench和ToolSandbox上揭示新的Agent性能洞察。
Teach2Eval: An Interaction-Driven LLMs Evaluation Method via Teaching Effectiveness: Teach2Eval 把「评测一个 LLM」重新定义为「让它去教更弱的学生模型」——候选模型不直接答题，而是在不看选项和答案的前提下给学生反馈、纠错、多轮引导，用学生答对率的提升量作为分数；在 33 个模型、60 个数据集上与 Chatbot Arena / LiveBench 的 Spearman 相关性高达 0.94–0.975，且天然抗数据污染、能拆出四个正交的细粒度能力维度。
Textual Bayes: Quantifying Prompt Uncertainty in LLM-based Systems: 本文把 LLM 系统里的提示（prompt）看作统计模型中的"文本参数 \(\theta\)"，用一个小训练集对其做贝叶斯推断，并提出一种文本版 MCMC 算法 MHLP（Metropolis-Hastings through LLM Proposals）从提示的后验里采样，从而对黑盒 LLM 的预测和不确定性给出有原则的量化，在准确率与校准（ECE/SECE）上同时优于若干 frequentist 基线。
The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas: 这篇论文用一次专家执行 + 盲审评审的随机对照实验检验 LLM 生成研究想法是否真的能转化为更好的研究成果，发现 LLM 想法在“只看 idea”时分数更高，但执行后在新颖性、兴奋度、有效性和整体质量上掉分显著更大。
The Open Proof Corpus: A Large-Scale Study of LLM-Generated Mathematical Proofs: 这篇论文构建了包含 5,062 条人类判分 LLM 数学证明的 Open Proof Corpus，并用它系统回答自然语言证明与形式化证明、最终答案与完整证明、best-of-n 选择和证明裁判训练之间的关键差异。
THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics: THEMIS 构建了一个面向「学术论文图像造假取证」的多任务基准（4054 道题、5 类造假手法、16 种细粒度篡改操作、7 个真实学术场景），把造假类型映射到 5 种专家级视觉推理能力，对 16 个主流 MLLM 做体检，发现连最强的 GPT-5 综合分也只有 56.15%，揭示当前模型在复杂真实场景下「鉴伪」能力的系统性短板。
TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning: TokUR 用注意力权重的低秩随机扰动构造轻量级贝叶斯模型集成，在每个生成 token 上估计 total / aleatoric / epistemic uncertainty，再把这些信号聚合成推理轨迹级置信度，用于识别错误推理、筛选高质量答案并辅助测试时扩展。
Towards Personalized Deep Research: Benchmarks and Evaluations: 作者提出 PDR-Bench——首个面向"个性化深度研究"的基准，用 50 个跨 10 领域的研究任务 × 25 个真实用户画像组合出 250 条个性化查询，并配套 PQR 评估框架（个性化对齐 P / 内容质量 Q / 事实可靠性 R），实测发现现有深度研究系统普遍"会写报告但不会因人而异"，且越多用户信息个性化越好、但隐式上下文远不如显式画像好用。
Towards Self-Evolving Agent Benchmarks: Validatable Agent Trajectory via Test-Time Exploration: 提出 TRACE 框架，让智能体把现有 benchmark 里的种子任务"自由探索 + 自我演化"成更难的新任务，并把演化过程中产生的执行轨迹当作一等公民记录下来、做多级验证，从而把静态人工标注的评测集变成可持续自我升级的动态评测系统。
Train-before-Test Harmonizes Language Model Rankings: 论文提出 train-before-test——评估前先用 benchmark 自带的训练集给每个模型做一次统一的标准化微调，再去测试集打分排名；在 24 个 benchmark × 61 个模型上证明，这种"比潜力"的排名跨 benchmark 高度一致（平均 Kendall's τ 从 0.52 升到 0.76），并把原本被遗忘的困惑度与下游表现重新连上、把模型-分数矩阵压成近乎秩一。
TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them: TrustJudge 系统性揭示了 LLM-as-a-judge 框架里两类被长期忽视的"自相矛盾"——打分和两两比较打架、两两比较成环——把根因归结为离散评分的信息损失和模糊平局，再用"分布敏感评分 + 似然感知聚合"两招无需训练地把不一致率大幅压低，同时保持甚至提升评测准确率。
Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction: 提出将博弈论中的 Peer Prediction 机制应用于 LLM 评估和训练，通过衡量参与者答案的互预测性来区分诚实与欺骗回答，无需真值标签即可实现诚实性激励，展现出惊人的"逆向缩放"特性——专家越弱反而越能抵抗强模型的欺骗。
Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework: 提出 HUMAINE 框架，通过 23,404 名人口统计分层参与者对 28 个 SOTA 模型进行多维度（5 维）、多轮对话的人类偏好评估，用层次贝叶斯 BTD 模型揭示年龄是偏好异质性的最大驱动因素（平均排名偏移 ±2.8），证明单一聚合排行榜不足以反映不同人群的真实偏好。
vCache: Verified Semantic Prompt Caching: 提出 vCache——首个具有用户定义错误率保证的语义缓存系统，通过在线学习为每个缓存嵌入独立估计最优相似度阈值，无需预训练即可在满足正确性约束下实现最高 12.5× 缓存命中率提升和 26× 错误率降低。
VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding: VideoJudge 用一个"生成器按目标分数造样本、评估器验收对齐分数"的自举循环，零人工标注地合成出 10 万条带分数监督的视频评测数据，训练出 3B/7B 的小型视频评判模型，在多数元评测基准上追平甚至超过 32B/72B 的通用 MLLM 评判者。
When LLMs Get Significantly Worse: A Statistical Approach to Detect Model Degradations: 针对"量化/稀疏化后的 LLM 到底有没有真的变差，还是只是评测噪声"这个问题，本文把它形式化为一个统计假设检验，提出精确单边 McNemar 检验——不看任务级聚合准确率，而是逐样本对照两个模型的对错，从而能以受控的假阳率把哪怕 0.3% 的准确率下降也判定为"真退化"。
When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling: 提出 SAFE（Stable And Fast LLM Ensembling），通过 Generate-Verify-Ensemble 循环在 token 级别选择性地集成多个异构分词器 LLM，解决长序列生成中分词不匹配导致的 OOV-like 污染问题，仅在不到 1% 的 token 上集成即可提升效果，MATH500 上将 UniTE 从 59.6% 提升到 77.4%。