EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving¶

会议: NeurIPS 2025
arXiv: 2506.02672
代码: github.com/ByteDance-Seed/EvaLearn
领域: LLM评测
关键词: LLM evaluation, sequential learning, learning capability, benchmark, dynamic evaluation

一句话总结¶

提出 EvaLearn 基准，通过序列化问题求解范式评估 LLM 的学习能力和学习效率，揭示静态能力强的模型不一定具备更强的学习潜力。

研究背景与动机¶

现有 LLM 评估基准几乎全部采用并行评估范式：模型在独立同分布的样本上逐一作答，汇总得到准确率等静态指标。这种方式只能衡量模型的"静态能力"，而忽视了一个同样重要的维度——模型在特定任务中通过经验进行学习和适应的能力（即学习能力），以及学习发生的速度（即学习效率）。

学习能力和学习效率是衡量人类智能的核心指标，但在 LLM 评估中几乎未被系统探索。并行评估范式在结构上就无法捕捉这种动态学习行为。因此需要一种全新的评估框架来弥补这一空白。

方法详解¶

整体框架¶

EvaLearn 采用序列化评估范式： 1. 构建 648 个具有挑战性的问题，组织为 182 个序列 2. 每个序列包含 7 个同一任务类型的问题 3. 模型需要按顺序逐一解决每个序列中的问题 4. 允许模型利用前面问题的解题经验来改善后续表现

涵盖六类任务： - 摘要 (Sum)：评估模型是否能通过经验提升摘要的准确性和覆盖度 - 分类 (Cla)：评估模型是否能从一系列分类问题中增强分类能力 - 抽取 (Ex)：评估模型是否能逐步提高关键信息抽取的完整性 - 逻辑推理 (LR)：评估模型能否从错误中学习以提升逻辑推理 - 数学推理 (MR)：评估模型能否通过反馈快速掌握解题策略 - 序列推理 (SR)：评估模型能否通过历史经验增强序列推理能力

关键设计¶

自动评估框架：由于大部分挑战性问题无法用规则验证，采用实例级 rubric + LLM-as-a-judge 方法。每个问题附带人工编写的评分标准，使用 GPT-4o 作为评判模型。验证实验表明所有任务的评估准确率超过 95%。

两种序列学习范式： - Demonstration Learning：为当前问题提供序列中所有前序问题及其标准答案（类似 ICL） - Feedback Learning：除前序问题外，还提供模型自己先前的解答以及评判模型基于 rubric 给出的详细反馈

评估指标体系¶

设 \(N=182\) 为序列数，\(M=7\) 为每序列问题数，\(y_{n,m} \in \{0,1\}\) 表示第 \(n\) 序列第 \(m\) 问是否正确。五个指标：

整体准确率 (Acc)：\(\text{Acc} = \frac{1}{NM}\sum_{n=1}^{N}\sum_{m=1}^{M} y_{n,m}\)
拟合准确率曲线斜率 (k)：对位置-准确率曲线 \(\text{Acc}_m\) 做最小二乘线性拟合，斜率 \(k\) 反映学习速度
首次正确解的平均位置 (\(P_{\text{first}}\))：\(P_{\text{first}} = \frac{1}{N}\sum_{n=1}^{N} p_n\)，越低越好
首次学习正确解的平均偏移 (\(P_{\text{offset}}\))：排除零样本已能解决的问题后，衡量模型开始学习的速度
连续正确解的平均数量 (\(N_{\text{consec}}\))：\(N_{\text{consec}} = \frac{1}{N}\sum_{n=1}^{N} \max_{1 \le a \le b \le M}\{b-a+1 : y_{n,a}=\cdots=y_{n,b}=1\}\)
预热后准确率 (\(\text{Acc}_{\text{pw}}\text{-}K\))：排除前 \(K\) 个问题后计算准确率

实验关键数据¶

主实验¶

在 9 个前沿模型上测试（含 thinking 和 non-thinking 类型）：

模型	Zero-shot	Feedback Learning	变化
OpenAI-o3-mini	54.3%	64.8%	+10.5%
Claude-3.7-Sonnet	28.4%	35.6%	+7.2%
Claude-3.7-Sonnet-Thinking	31.2%	37.4%	+6.2%
Gemini-2.5-Pro	68.5%	67.2%	-1.3%
DeepSeek-R1	55.7%	46.4%	-9.3%

任务维度发现： - 数学推理：GPT-4o 提升 +18.0%，Claude-3.7-Sonnet 提升 +15.6% - 分类：Claude-3.7-Sonnet-Thinking 提升 +13.5% - 摘要：9 个模型中 7 个性能下降，说明该任务更依赖预训练知识

消融实验¶

四种范式对比（Zero-shot vs Few-shot vs Demonstration Learning vs Feedback Learning）： - Demonstration Learning 通常优于 Few-shot 并行求解 - Feedback Learning 在大多数模型上优于 Demonstration Learning - 反馈学习更能促进模型在序列中更早获得正确解

关键发现¶

Thinking 模型更受益于序列学习：o3-mini 平均最长连续正确解为 3.42，GPT-4o 仅 2.58
学习能力与静态能力不相关：DeepSeek-R1 静态能力优于 Claude-3.7-Sonnet，但序列学习中反而下降 9%
学习效率差异显著：Claude-3.7-Sonnet 斜率 \(k=2.08\) 最高；non-thinking 模型初始基线低，因此斜率更陡
任务特异性：每个模型在某些任务上表现出强学习能力，但没有模型在所有任务上都稳定提升

亮点与洞察¶

评估范式创新：首次系统量化 LLM 的动态学习能力，突破了并行评估的局限
指标设计全面：五个指标从多个角度刻画学习行为——速度、稳定性、初始学习位置等
指标与方法解耦：评估指标不依赖特定学习方法，支持未来扩展
揭示重要现象：证明了"静态能力强 ≠ 学习能力强"，为模型开发提供新视角
反馈学习中，评判模型的 rubric 反馈比直接提供标准答案更有效

局限与展望¶

数据规模有限（648 问题 / 182 序列），每序列仅 7 个问题，可能不足以充分展示学习曲线
任务覆盖面可进一步扩展（如代码、多模态等）
仅评估了 9 个闭源/大参数模型，未涉及开源中小模型
评判模型（GPT-4o）本身可能存在偏差
序列长度固定为 7，未探索不同长度对学习行为的影响

评分¶

创新性：⭐⭐⭐⭐⭐ — 全新的评估维度和范式
实用性：⭐⭐⭐⭐ — 对模型选择和开发有实际指导意义
实验充分度：⭐⭐⭐⭐ — 9 个前沿模型、6 类任务、多种学习范式
写作质量：⭐⭐⭐⭐ — 结构清晰，指标定义严谨
综合评价：8.5/10

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

评估指标体系¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

与相关工作的对比¶

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

评估指标体系¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

与相关工作的对比¶

相关论文¶