📊 LLM 评测¶

🧪 ICML2026 · 40 篇论文解读

📌 同领域跨会议浏览： 🔬 ICLR2026 (131) · 💬 ACL2026 (96) · 🤖 AAAI2026 (16) · 🧠 NeurIPS2025 (38) · 📹 ICCV2025 (27) · 🧪 ICML2025 (22)

🔥 高频主题： LLM ×19 · 强化学习 ×3 · 推理 ×3 · Agent ×2

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning: 本文提出 Agent World Model，一条从场景、任务、数据库、MCP 工具接口到验证器的全合成流水线，生成 1000 个可执行数据库驱动环境，并用它们训练工具调用 Agent，在 BFCLv3、\(\tau^2\)-bench 和 MCP-Universe 上取得更强的域外泛化。
AGZO: Activation-Guided Zeroth-Order Optimization for LLM Fine-Tuning: AGZO 发现线性层梯度行空间受前向激活子空间约束，并据此在零阶微调中只沿激活引导的低秩方向扰动参数，从而在几乎保持 MeZO 级别显存占用的同时提升梯度对齐和下游任务性能。
Authority, Truth, and Citation Bias: A Large-Scale Multi-Domain Benchmark for Studying Epistemic Susceptibility in Large Language Models: 本文提出 AuthorityBench——一个 22 万条提示的多领域基准，用完全平衡的 2×2 因子设计（独立操纵"论断真假 × 引用真假"）来隔离"引用这个权威信号本身"对 LLM 认知行为的影响，发现只要带上引用（无论真伪）都会抬高幻觉率，而其中"真论断 + 伪造引用"是所有被测模型里幻觉最严重的条件（最高把通识领域幻觉拉到 35–77%），且模型越大并不越鲁棒。
BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback: 提出 Bespoke 基准，通过 30 名标注者 3 周的真实聊天+搜索历史收集 2,870 个会话，构建包含细粒度偏好评分与诊断反馈的评测框架，系统评估搜索增强 LLM 的个性化能力，发现当前模型在所有配置下平均得分均不超过 60，个性化瓶颈在于历史推理而非生成。
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum: 本文系统研究了 SFT 中概率类目标函数的行为规律，发现标准 NLL 并非普适最优：在模型先验强的任务上先验倾向（prior-leaning）目标如 \(-p\) 显著优于 NLL（最高提升 16%），而在先验弱的任务上 NLL 仍然占优，揭示了由模型能力连续谱（model-capability continuum）主导的目标函数选择原则。
Beyond Trajectory-Level Attribution: Graph-Based Credit Assignment for Agentic Reinforcement Learning: 提出 GraphGPO，将所有 rollout 轨迹聚合为统一的状态转移图，利用图上全局最短路径信息为每一步计算基于距离的 advantage，实现比轨迹级归因更精细的信用分配，在 ALFWorld、WebShop、Sokoban 上显著超越 GRPO 和 GiGPO。
BuildArena: A Physics-Aligned Interactive Benchmark of LLMs for Engineering Construction: BuildArena 把 LLM 丢进物理沙盒游戏 Besiege 里，让它用自然语言一砖一瓦搭桥、造车、造火箭，再用物理引擎跑仿真打分，从而第一次系统评测了 LLM"把语言变成能跑得动的真实结构"的工程构建能力——结果显示只有 GPT-5 在难任务上勉强能打，其余模型在 Hard 级别几乎全军覆没。
CapBencher: Give Your LLM Benchmark a Built-in Alarm for Test-Set Overfitting: CapBencher 通过为每道题注入随机性（生成多个逻辑正确答案并随机选一个作为标准答案），将 benchmark 的 Bayes 准确率降到可控水平（如 50%），从而在公开发布 benchmark 的同时实现数据污染的黑盒统计检测——任何准确率显著超过 Bayes 上界的模型都被判定为存在污染。
Correcting Prompt Dependence in LLM Benchmarks: A Bayesian Hierarchical Model with Embedding-Space Clustering: 作者指出主流 LLM 基准指标依赖两个常被违反的假设——评测次数足够多（可用中心极限定理）、提示之间相互独立——并提出一个带「嵌入空间聚类」的贝叶斯层次模型 BHM-ESC：先把语义相似的提示聚成簇、簇内共享一个成功概率，再把簇数当未知量从数据里推断出来，从而在小样本下给出更可靠、且修正了提示依赖的性能估计，在对抗鲁棒性基准上把平均绝对误差降低 4–73%、预期对数后验密度提升 40–450。
Decompose, Structure, and Repair: A Neuro-Symbolic Framework for Autoformalization via Operator Trees: 本文提出 DSR（Decompose-Structure-Repair）神经符号框架，把自然语言定理形式化拆解为「分解 NL 成分 → 联合生成 FL 成分与算子树（OPT） → 基于子树定位的层级化修复」三阶段，在 ProverBench / ProofNet / PRIME 上以 7B 模型刷新 SOTA，并配套发布 156 题的研究生级 Lean 4 基准 PRIME。
DEI: Diversity in Evolutionary Inference for Quality-Diversity Search: 本文提出 DEI，把多个不同家族的 LLM当作 Quality-Diversity 搜索里的异构变异算子分布到不同节点，用全异步 gossip 互相广播每轮 champion 形成跨模型对抗压力，在 Core War 程序合成任务上以等总算力换来比单节点 +124% 的 QD-Score 与 +28% 的 archive coverage。
Discovering Ordinary Differential Equations with LLM-Based Qualitative and Quantitative Evaluation: DoLQ 在 LLM 符号回归的搜索循环里插入一个 "Scientist Agent"，对候选项同时做定性（物理合理性）+ 定量（消融式 MSE 贡献）评估，把 LLM-SR 那种 "低误差但项数臃肿、物理上荒谬" 的方程逼到既数值精确又结构紧凑。
Estimating Tail Risks in Language Model Output Distributions: 用激活引导构造"不安全代理模型" + 重要性采样，把"安全模型在某条 query 下输出有害内容的概率"这种 \(10^{-4}\) 量级稀有事件，用比暴力采样少 10–20× 的样本就估准，并进一步预测部署时的最坏风险。
From Human-Level AI Tales to AI Leveling Human Scales: 本文用 LLM 当人口外推器，把 18 个能力维度按"全世界人口正确率"对数刻度 \(L=-\log_B p_W\) 校准，并发现 Volume / Attention 维度真实 base \(B \gg 10\)、Comprehension 维度 \(B \approx 1\)，揭示现行 AI 与人类的比较其实严重失调。
Top-W: Geometry-Aware Decoding with Wasserstein-Regularized Truncation and Mass Penalties for LLMs: Top-W 把 next-token 截断写成"考虑 token embedding 几何的 Wasserstein-熵-质量"三项最小化问题，理论证明最优解要么是单 token、要么是按 \(f(i)+\lambda\log p_i\) 排序的前缀，工程实现只是 \(O(n\log n)\) 的扫描；在 GSM8K、GPQA、AlpacaEval、MT-Bench 上 15 个 (T, model) 组合多数胜出，高温下 GSM8K 比 Top-H 最多再提 33.7%。
Hacking Generative Perplexity: Why Unconditional Text Evaluation Needs Distributional Metrics: 本文论证：当前扩散/连续流语言模型几乎唯一依赖的评测指标——生成困惑度（gen-PPL，即样本在冻结 AR 打分器 gpt2-large 下的逐 token 负对数似然）——是不可靠的；作者用一组零参数、刻意弱智的采样器（构造上完全不通顺）在 LM1B/OpenWebText 上、在非退化熵下刷出"SOTA gen-PPL"，反超近期发表的扩散与流模型，从而主张改用直接度量"生成分布 vs 人类文本分布"差异的分布距离指标套件重新评测。
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents: HiPER 把 LLM agent 的扁平 RL 改造成"高层规划子目标 + 低层执行原子动作"的两级 Plan-Execute 结构，并配套提出 Hierarchical Advantage Estimation (HAE) 把 GAE 沿子目标段切开做有界差分耦合的优势估计，在 ALFWorld / WebShop 上分别拿到 97.4% / 83.3% 成功率（Qwen2.5-7B），相对最强基线 GiGPO 提 +6.6% 与 +8.3%。
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem: InnoEval 把"评一个研究 idea"重新定义成一个知识接地 + 多视角推理的问题：先用一个异构深度搜索引擎从论文/网页/代码里在线捞活知识并细粒度对齐到 idea 的每个部件，再用一个由不同学术人格组成的"创新评审委员会"在五个维度上各自打分、汇总成带决策的元评审，在点评、配对、分组三类任务上全面超过现有 baseline 且与人类专家高度一致。
Investigating Advanced Reasoning of Large Language Models via Black-Box Environment Interaction: 本文提出「黑盒环境交互」作为评估 LLM 集成式推理（演绎+归纳+溯因）的新范式，构建含 6 类任务 96 个环境的 ORACLE 基准，benchmark 19 个 LLM 后发现：即便最强的 o3 也只能在简单环境拿 70% 准确率、难环境跌到 40%，且所有 LLM 都缺乏「根据反馈自适应优化探索策略」的高层规划能力。
Margin-Adaptive Confidence Ranking for Reliable LLM Judgement: 本文针对 LLM-as-a-judge 中"置信度高就一定靠谱"这一常被违反的单调性假设，提出用一个小 MLP 把多组 in-context 预测概率映射成置信度，并通过 margin-based ranking loss + PAC-Bayes 泛化界推导出一个 margin 自适应训练策略，使学到的置信度在四个数据集与六个 judge 模型上都获得更低的 ranking loss、更高的 AUROC，并显著提升 fixed-sequence 测试的目标一致性达成率。
Multi\(^2\): Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments: 本文提出 Multi\(^2\) 框架，把 LLM agent 的"规划"与"执行"显式拆成 System 1（SFT 训练的子目标规划器）和 System 2（offline-to-online RL 训练的原子动作执行器），通过角色专属 LoRA 适配器和带策略锚定/KL 正则的训练目标，在 ScienceWorld、ALFWorld、TextCraft 三个长时序交互环境中显著缓解了 objective drift 并提升了 token 效率。
NarrativeWorldBench: A Frontier-Saturated Benchmark and a Latent World Model for Long-Horizon Co-Creative Audio Drama: 作者构建了一个专测「长程连载剧本续写」结构一致性的 9 指标基准 NarrativeWorldBench，发现 21 个前沿大模型在剧情节拍 F1 上集体卡在 \([0.78,0.81]\) 天花板、且 horizon 拉到 200 集会齐刷刷掉 \(-0.20\)，随后提出用 Mamba-2 维护一个 256 维显式叙事潜状态的世界模型 N-VSSM，以 4 倍更低算力把 F1 稳在 \(\geq 0.84\) 并被专业编剧 71% 概率更偏好。
Nonparametric LLM Evaluation from Preference Data: 针对当前 LLM 排行榜普遍依赖参数化 Bradley–Terry 模型、在模型误设或接入黑盒 ML/LLM-as-a-judge 时无法给出有效置信区间的问题，本文提出非参数框架 DMLRank：把排名分数统一抽象成"上下文偏好概率的泛函"（GARS），再用去偏机器学习推出渐近有效、带合法置信区间的估计量，并进一步给出预算约束下最优的偏好采集策略。
On Cost-Effective LLM-as-a-Judge Improvement Techniques: 针对 LLM-as-a-judge 评判准确率高度依赖 prompt 与聚合策略、却缺乏"哪些技巧真正划算"的系统证据这一问题，本文在 RewardBench 2 上以"对随机评判器做噪声控制"为统一视角，系统对比了集成打分、任务专属评分准则、校准上下文、自适应模型升级四种即插即用技巧，发现"评分准则注入（几乎零成本）+ 集成打分"两招就能拿到最高 85.8% 准确率（较 baseline +13.5pp），并占据成本-精度 Pareto 前沿，而校准与模型升级被它压制。
On Effectiveness and Efficiency of Agentic Tool-calling and RL Training: 作者从「评测有效性」和「训练效率」两条主线系统审视 LLM 工具调用：一方面用 BFCL 作为案例证明随机种子、多轮模板、思考历史、系统提示等"小细节"能让排行榜分数大幅漂移，使跨论文比较不可靠；另一方面定位 RL（GRPO）训练中 rollout 和 policy update 两个阶段的浪费，提出"在线预 rollout 过滤 + 最大方差 rollout 下采样"两件套，在单轮/多轮工具调用上实现 1.7× 和 2.6× 端到端加速且性能不降。
PoliticsBench: Benchmarking Political Values in Large Language Models with Multi-Stage Roleplay: PoliticsBench 是基于多阶段角色扮演的新型基准——通过 20 个政治情景和 4 阶段交互评测 LLM 的政治价值观表达，发现 7 个主流 LLM 都呈左倾（19-39 分），唯有 Grok 右倾（-22.7）但波动性最大；情景提示比直接提问更能激发模型的价值观维度（特征激活 +0.48、承诺度 +1.39）。
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities: 用 5k 历史 + 2k 自测、横跨 2022–2026 的约 7000 个模型 checkpoint，把"给定预训练算力预算能拿到多少下游精度"建模成 log-算力的单调饱和 sigmoid 能力边界（高分位数回归），并验证这条边界在时间上是否稳定、能否用约 20% 评测预算高效重建。
REAL：把回归感知奖励塞进 RL，让 LLM-as-a-Judge 学会"差一分也是差": 针对 LLM 充当评分器（LLM-as-a-Judge）时 RL 用 0/1 二值奖励忽视序数结构的本质缺陷，作者把 RAFT 的"期望值预测 + 平方误差"塞进 RL 目标，因为奖励此时显式依赖策略参数，所以改用广义策略梯度——它干净地拆成"CoT 探索项 + 预测精修项"两部分；在 8B–32B 多基座上相对 SFT/标准 RL 全面胜出，Qwen3-32B 上 Pearson/Spearman 相对 SFT 提 8.4/7.2 点。
Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge: RACER 把"对每个 query 决定要不要调用 reasoning 模式做 judge"建模为带 KL 不确定集的分布鲁棒约束优化问题，用 primal-dual 算法解出 OOD 下仍满足 cost 预算的最优路由策略，并首次给出 LLM 路由器策略的 linear convergence 理论保证。
Reliable to Expressive: A Curriculum for Rubric-Following Safety Judges: 把"安全审判"重新定义为"遵循评分标准（rubric）"的问题，用「实例条件化的动态 rubric」+「先可靠后表达（reliable-to-expressive）的课程」训练一个 12B 审判器，使其在三套写法迥异的 rubric 下都保持 94%+ 准确率、跨标准波动仅 0.76，稳定性碾压参数量更大的 20B/30B 审判器。
Resolution Diagnostics for Paired LLM Evaluation: 本文把 LLM 排行榜上"A 比 B 高 0.X pp"的排名当作配对假设检验问题,通过反演 level-α / power-(1-β) 检验定义"分辨率比" \(q=N/N^\star\),并证明常用计算器把单臂 Cohen-\(h\) 公式乘 \((1-\rho)\) 这种捷径在小效应下会系统性低估所需样本量一倍,实测发现 Open LLM Leaderboard v1 有 11/40 对、MMLU-Pro top-10 相邻对有 4/9 在 \((\alpha,1-\beta)=(0.05,0.8)\) 下根本"分辨不出来",再叠加多重比较、真实学科聚类、anytime-valid 后这个数还会涨到 6/9。
Rethinking Psychometric Evaluation of LLMs: When and Why Self-Reports Predict Behavior: 这篇论文系统拆解了"LLM 的心理测量自我报告（self-report, SR）到底什么时候能预测它的真实行为"，用 \(2\times2\times2\) 因子实验（计划行为理论 TPB vs Big5 × 同会话 vs 跨会话 × 参数扰动 vs 人格诱导）跨 4 个行为任务、11 个前沿模型发现：SR–行为一致性存在但有选择性——细粒度的 TPB 在同会话内能达到人类水平的一致性，而 Big5 几乎测不出信号；跨会话时只有"行为锚定在 prompt 之外"的任务（如训练锁定的隐性偏见）才幸存，被上下文强烈启动的任务（如谄媚）则彻底崩塌。
RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing: RouteJudge 指出当前 LLM 路由器的评测都停在"离线、对标准答案、对自动分"的范式上、忽略了真实用户的多元偏好，于是提出一个在线成对偏好评测平台——同一个 query 让多个路由器在相同模型池与预算下各选一个模型、匿名两两对决、把用户偏好归因回路由器层面，并配套一个可复现的模块化工具箱 ORBIT 作为路由方法的开发与提交入口。
Spherical Steering: Geometry-Aware Activation Rotation for Language Models: 本文提出 Spherical Steering：在 LLM 隐藏状态的单位超球面上，沿测地线把激活向量旋转到由对比样本估计出的"真实性方向"，而不是像传统 activation addition 那样做线性加法，从而在保持激活幅值（norm）的同时显著提升 TruthfulQA / COPA / StoryCloze 等基准的多选准确率（+10% 量级），且不损伤开放式生成质量。
The ACUTE Protocol: Operationalizing Language Model Activations for Better Calibration, Utility, and Trust: 本文指出"校准误差（ECE）"作为信任度量有两处致命缺陷——分不清神谕估计器与"永远报基准率"的废估计器、且对任务风险无感；为此提出新指标 euro（用神谕归一化的期望效用）把校准与决策效用绑在一起衡量，并提出 acute 协议：拿语言模型生成时的逐层激活当特征、训一个随机森林去判断"这次生成对不对"作为校准后的置信度，在 6 个模型 × 3 类任务上既维持低校准误差、又在 euro 上显著超过强基线。
Toward Training Superintelligent Software Agents through Self-Play SWE-RL: 本文提出 Self-play SWE-RL (SSR)，让同一个 LLM 在沙箱化代码仓里既扮演"造 bug 的 proposer"又扮演"修 bug 的 solver"，仅以 Docker 镜像为输入、用一致性校验和 solve-rate 作奖励做联合 RL，在 SWE-bench Verified 与 SWE-Bench Pro 上分别自我提升 +10.4 / +7.8 分，并稳定优于使用人类标注 issue + 测试套件的"human-data"基线。
When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation: 这篇论文把 AI benchmark 饱和定义为前沿模型之间失去可靠区分度，提出基于 leaderboard 不确定性的 saturation index，并分析 60 个文本 LLM benchmark，发现近一半已高饱和，年龄和测试集规模比私有测试集、开放式输出或模板多样性更能解释饱和。
Who can we trust? LLM-as-a-jury for Comparative Assessment: 这篇论文指出多个 LLM 评审在成对比较中可靠性差异很大，提出带评审判别参数的 BT-σ 模型，在没有人工校准标签的情况下同时学习候选输出排名和每个 LLM judge 的可靠性，从而比简单平均和标准 Bradley-Terry 聚合更接近人类排序。
Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs: 论文提出一个"只给反论证、不给社交压力"的两阶段评测协议，量化 LLM 在答对之后被一段支持错误选项的论证挑战时"改口"的概率（Answer Flip Rate），发现 7 个前沿模型的翻转率从 17.5% 到 97.3% 巨幅分化，且把论证归因为模型"自己之前写的"会进一步推高翻转，最后用跨模型择优拼出一个最毒挑战集 MaxFlip。
Whose Alignment? Comparing LLM Process Alignment Across Diverse Organizational Decision Contexts: 这篇论文提出 CALM 来评估 LLM 是否按组织真实决策过程而不只是输出结果对齐，并通过 ECHR 法律裁判与 German Credit 信贷决策的对比说明：在规范稳定的领域过程对齐能预测准确率，而在价值争议领域，高过程对齐既难实现也未必应该追求。