📊 LLM 评测¶
🧪 ICML2026 · 8 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (79) · 📷 CVPR2026 (25) · 🔬 ICLR2026 (53) · 🤖 AAAI2026 (39) · 🧠 NeurIPS2025 (79) · 📹 ICCV2025 (27)
🔥 高频主题: LLM ×4 · 推理 ×2
- CoCoReviewBench: A Completeness- and Correctness-Oriented Benchmark for AI Reviewers
-
本文提出 CoCoReviewBench,通过"按类别建子基准 + 用 meta-review 仲裁审稿人/作者冲突来过滤错误意见"两步,把 3,900 篇 ICLR/NeurIPS 论文的人工审稿改造成一个更可信的 AI 审稿评测参考,并发现现有 AI 审稿在 correctness 和 thoroughness 上仍落后于人类、推理模型则更有潜力。
- Hallucinations Undermine Trust; Metacognition is a Way Forward
-
本文是一篇 position paper,论证"彻底消除 LLM 幻觉"在原理上无法逃避一个"区分度税"(discrimination gap → utility tax);作者主张把目标从"消灭幻觉"改为忠实表达不确定性(faithful uncertainty),并把这种 metacognition 视为 agentic LLM 调用工具时不可或缺的控制层。
- Investigating Advanced Reasoning of Large Language Models via Black-Box Environment Interaction
-
本文提出「黑盒环境交互」作为评估 LLM 集成式推理(演绎+归纳+溯因)的新范式,构建含 6 类任务 96 个环境的 ORACLE 基准,benchmark 19 个 LLM 后发现:即便最强的 o3 也只能在简单环境拿 70% 准确率、难环境跌到 40%,且所有 LLM 都缺乏「根据反馈自适应优化探索策略」的高层规划能力。
- iWorld-Bench: A Benchmark for Interactive World Models with a Unified Action Generation Framework
-
iWorld-Bench 是首个专门为"交互式世界模型"设计的统一评测基准,提出一套能把文本 / one-hot / 相机内外参三种动作输入折算到同一指令空间的 Action Generation Framework,并基于 330K 视频精挑 4.9K 任务、9 项指标,对 14 个主流模型做了全维度对比。
- Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge
-
RACER 把"对每个 query 决定要不要调用 reasoning 模式做 judge"建模为带 KL 不确定集的分布鲁棒约束优化问题,用 primal-dual 算法解出 OOD 下仍满足 cost 预算的最优路由策略,并首次给出 LLM 路由器策略的 linear convergence 理论保证。
- Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use
-
RHB 构造了一套现实工具型多步任务(独立 + 链式两种模式,含数据流水线、日志取证、性能优化、多文件重建四大家族)来量化 LLM agent 的奖励黑客行为,跨 13 个前沿模型发现 RL 后训练显著提高 exploit 率(DeepSeek-V3 0.6% vs R1-Zero 13.9%),且 exploit 率随链长上升、在更难变体上即使近零率模型也会"复发",而轻量级环境硬化能在不损害任务成功率前提下把 exploit 率减少 87.7%。
- Stop Automating Peer Review Without Rigorous Evaluation
-
这是一篇立场论文:作者通过对 ICLR 2026 真实评审和 60 篇模拟评审的实证测量,发现当前 LLM 审稿存在 hivemind(高度趋同)+ paper laundering(零样本改写就能涨 0.45 分)两大失效,因此论证「在没有严格评估之前,不应让 LLM 直接生成审稿意见」,并呼吁建立一门"审稿自动化的科学"。
- Token-Efficient Change Detection in LLM APIs
-
作者证明在低温采样下,"两个 token logit 几乎打平"的特殊输入(Border Inputs)对参数微扰极度敏感——理论上 SNR 在 \(T\to 0\) 时发散,于是只观测输出 token(严格黑盒)就能用极少请求做 LLM API 变更检测;提出的 B3IT 在 TinyChange benchmark 上以 1/30 的成本匹敌灰盒 logprob 方法,并在 93 个商用端点上 23 天连续监控发现 8 次真实模型替换。