Teach2Eval: An Interaction-Driven LLMs Evaluation Method via Teaching Effectiveness¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=HreYquZ5xs
代码: https://github.com/zhiqix/Teach2Eval
领域: LLM 评测
关键词: 模型评测, 教学有效性, 交互式评测, 数据污染鲁棒性, 能力分解

一句话总结¶

Teach2Eval 把「评测一个 LLM」重新定义为「让它去教更弱的学生模型」——候选模型不直接答题，而是在不看选项和答案的前提下给学生反馈、纠错、多轮引导，用学生答对率的提升量作为分数；在 33 个模型、60 个数据集上与 Chatbot Arena / LiveBench 的 Spearman 相关性高达 0.94–0.975，且天然抗数据污染、能拆出四个正交的细粒度能力维度。

研究背景与动机¶

领域现状：当前 LLM 评测主要分两派。一派是静态、任务特定的基准（GSM8K、MATH、MMLU、BIG-bench 等），直接给模型在固定题目上的答题正确率打分；另一派是定制化的 agent 环境（代码沙盒、社会模拟）。两者本质都是「直接评分模型在某些任务/环境上的解题表现」。

现有痛点：因为分数与测试内容强耦合，这些方法对数据污染（题目泄漏进训练集导致背答案）、饱和（强模型都刷到天花板，区分不开）和过拟合特别脆弱。选择题这种「选项匹配」的评测通道尤其容易被记忆刷分。更关键的是，它们只能测「会不会做题」，测不出现代 LLM 作为 agent 的交互式推理能力。

核心矛盾：评测的可靠性依赖题目本身的「不可见性」，但题目总会被刷、被泄漏、被刷饱和——只要评测还盯着「模型自己答对了没有」，就永远在跟数据污染和饱和做军备竞赛，不断刷新数据集或工程化新环境。

本文目标：找到一种不依赖具体题目（item-independent）、又契合 LLM 交互/agentic 本质的评测范式，让评测信号不来自「模型自己答对没」。

切入角度：受费曼学习法（能教明白才是真懂）启发，作者换了个问题——不问「模型自己解题有多好」，而问「模型能多好地教别人解题」。教学这件事天然是交互的、需要诊断错误、给出可泛化的修正，而且老师如果只是背了答案，是教不出会推理的学生的。

核心 idea：用候选模型作为「老师」去引导一批弱「学生」模型，学生在老师指导下的答对率提升量就是老师的能力分数；老师全程看不到选项和标准答案，只能靠诊断学生自由形式推理里的错误来教，这就把「记忆答案」这条作弊通道彻底堵死。

方法详解¶

整体框架¶

Teach2Eval 是一个间接的、交互驱动的评测协议：输入是一个待评的候选 LLM（老师 \(\mathcal{T}\)）、一池固定的弱学生模型 \(\{S_m\}\)、以及一批标准化成选择题的数据；输出是老师的「综合能力」分数 CA 以及四个细粒度能力维度。整条管线分三步走：先把 60 个数据集的题目统一转成「带强干扰项的选择题」并按难度分层；然后进入「盲选教学」循环——学生先盲答，老师在看不到选项的情况下读学生的解题过程、给判断 + 引导，学生据此修订答案，多轮迭代；最后把学生跨轮次、跨多个学生的答对率累计提升量聚合成分数，并按布鲁姆认知层级拆成 Application / Judgment / Guidance / Reflection 四个能力。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["60 个数据集原始题目"] --> B["数据集构建：MCQ 化<br/>弱模型造干扰项 + GPT-4o 改写审校 + 难度分层"]
    B --> C["盲选教学循环：学生盲答<br/>老师不看选项给判断+引导，多轮修订"]
    C --> D["教学增益度量：学生答对率累计提升<br/>聚合为综合能力 CA"]
    D --> E["能力分解：按布鲁姆层级拆成<br/>应用/判断/引导/反思四维度"]
    E --> F["模型排名 + 细粒度能力画像"]

关键设计¶

1. 数据集构建：用弱模型的真实错误造选择题，既可自动评分又保住难度

直接拿开放式问答让学生答，评分要么靠人工要么靠 judge，贵且不稳定；但简单地转成选择题又会因为干扰项太弱而降低难度、被秒选。本文的做法是：对每道题，从弱模型的真实答案里收集干扰项（这些是模型真会犯的错，天然有迷惑性），和标准答案拼成选择题，再用 GPT-4o 当 rewriter + reviewer 规范化格式和一致性，并把正确选项位置随机化以消除位置偏差。学生只在最终的选择题上被评分，从而能一致、可扩展地自动打分；而老师全程看不到这些选项，只看题目和学生的解题过程。这样既保住了「用真实模型错误」带来的难度，又避免了选项泄漏。最后用 Qwen 系列不同规模模型的实测正确率把所有题目分成五个难度带，支持跨难度分析。

2. 盲选教学循环：老师不看答案做诊断—引导，学生多轮修订

这是整套方法的核心机制，直接针对「直接评分易被记忆刷分」这个痛点。对每道题 \(d_n\)（标准答案 \(y_n\)），学生 \(S_m\) 先只用题目和选项盲答得到 \(a_{m,n,0}\)；老师 \(\mathcal{T}\) 随后只看题目和不含选项的完整对话历史 \(H_{m,n,t-1}\)，输出一个判断 \(j_{m,n,t}\) 和一段引导 \(g_{m,n,t}\)：

\[j_{m,n,t},\, g_{m,n,t} = \mathcal{T}\big(d_n,\, H_{m,n,t-1}\big),\qquad H_{m,n,t-1} = \{a_{m,n,0}, j_{m,n,1}, g_{m,n,1}, \dots, a_{m,n,t-1}\}\]

学生据此更新答案 \(a_{m,n,t} = S_m(d_n, a_{m,n,t-1}, g_{m,n,t})\)。这种「盲选」设置保留了开放式推理、又杜绝了选项级别的泄漏——老师无法靠选项匹配作弊，只能真去诊断学生自由形式推理里的错误并给出可泛化的修正。再叠加多个失败模式各异的弱学生、被打乱的干扰项、被扰动的题面，整体构成一个「移动靶」，很难被某个老师过拟合。论文还专门做了消融（Ablation 5）验证：即使老师直接把答案说出来（answer revelation），与 Teach2Eval 的相关性（Spearman 0.921–0.947）仍显著高于与直接评测的相关性，说明该信号奖励的是「诊断—引导—反思」而非单纯报答案。

3. 教学增益度量：把学生提升量聚合成综合能力 CA

老师教得好不好，落到一个可度量的标量上。定义第 \(t\) 轮学生 \(S_m\) 的答对率提升为

\[\Delta P_t(S_m) = \frac{1}{|D|}\sum_{n=1}^{|D|}\Big(\mathbb{I}[a_{m,n,t}=y_n] - \mathbb{I}[a_{m,n,t-1}=y_n]\Big)\]

在 \(T\) 轮预算下，对 \(M\) 个学生取平均累计提升，得到综合能力（Comprehensive Ability）：

\[\mathrm{CA} = \frac{1}{M}\sum_{m=1}^{M}\sum_{t=1}^{T}\Delta P_t(S_m)\]

CA 衡量的是「老师把一池弱学生整体抬升了多少」，这个信号正交于题目本身——它不奖励老师自己会不会做题，而奖励老师能不能把别人教会，这正是它对污染鲁棒的根源（背答案的老师抬不动学生）。主实验中作者取三轮引导后的表现作为最终指标，因为消融显示多数模型在三轮后已基本收敛。

4. 能力分解：按布鲁姆认知层级拆出四个正交维度

只有一个 CA 分数信息量不够，作者基于布鲁姆认知分类法把老师能力分解成四个层层递进的维度，且实验证明它们能共同解释 CA。应用能力 (AA) 就是老师自己零样本直接答题的正确率 \(\mathrm{AA}=\frac{1}{|D|}\sum_n \mathbb{I}[\mathcal{T}(d_n)=y_n]\)，相当于传统直接评测。判断能力 (JA) 衡量老师在只看题目和解题过程（不看选项）时，能否正确判断学生首轮答案对错，即第一轮判断 \(J_{m,n,1}\) 与真实对错 \(\mathbb{I}[a_{m,n,0}=y_n]\) 是否一致。引导能力 (GA) 衡量首轮引导修复初始答错题目的有效率，仅在初始答错集合 \(D_m^{inc}\) 上统计修对比例。反思能力 (RA) 衡量第二轮起的多轮持续修复，用一个乘性修复率刻画：设 \(C_{m,t-1}\) 为第 \(t\) 轮前已答对题数、\(\mathrm{Fix}_{m,t}\) 为本轮新修对题数、\(\mathrm{Reg}_{m,t}\) 为本轮从对退化成错的题数，则每轮反思乘子

\[r_{m,t} = \frac{C_{m,t-1} + \mathrm{Fix}_{m,t} - \mathrm{Reg}_{m,t}}{C_{m,t-1}} = 1 + \frac{\mathrm{Fix}_{m,t} - \mathrm{Reg}_{m,t}}{C_{m,t-1}}\]

（\(C_{m,t-1}=0\) 时取 \(r_{m,t}=1\) 防止除零），再跨后续轮次连乘聚合 \(\mathrm{RA}_m=\prod_{t=2}^{T} r_{m,t}-1\)。实验发现：AA（传统直接评测得到的能力）与 CA 相关性最低（0.849），而越高阶的能力（JA 0.873、RA 0.905、GA 0.936）与 CA 相关性越高——说明真正决定「教学有效性」的是高阶能力，传统直接评测恰恰抓不住这部分。

一个完整示例¶

以图 3 中「Suzanne 每三天走四英里，二月最少走多少」为例走一遍流程。学生第 0 轮盲答：「二月共 30 天 → 有十个 3 天周期 → 走 10×4=40 英里，选 A」（错）。老师判断「错误」，引导「二月天数算错了，请重新考虑」（不告诉答案）。学生第 1 轮：「二月至少 31 天 → 十个 3 天 → 仍 40，选 A」（还是错）。老师再引导「天数说太多了，二月是特殊月份」。学生第 2 轮：「二月至少 28 天 → 九个 3 天 → 走 9×4=36 英里，选 B」（对）。老师第 3 轮判断「无误，可以简化步骤」。这一过程里，学生从答错经两轮诊断—引导被修正到答对，老师全程不知道选项是「A.40 B.36 C.44 D.28」，只能靠诊断学生推理链里的具体错误（二月天数）来教——这正是 CA / GA / RA 想捕捉的能力。

实验关键数据¶

主实验¶

评测 33 个领先 LLM、60 个数据集（涵盖知识、推理、理解、多语言四类域），学生池为 4 个弱模型（LLaMA3.2-1B、Qwen2.5-1.5B、MiniCPM-2B、InternLM2.5-1.8B），vLLM 推理，temperature=0、max_tokens=8k、4×H100。

评测方法	vs Chatbot Arena (Spearman)	vs Chatbot Arena (Kendall)	vs LiveBench (Spearman)	vs LiveBench (Kendall)
直接评测	0.734	0.558	0.861	0.695
Teach2Eval	0.944	0.853	0.975	0.886

Teach2Eval 与两大人类偏好榜单的相关性全面碾压直接评测，且成本更低。综合能力排行上，Claude-Sonnet-4-thinking、o4-mini、Gemini-2.5-pro 居前三；值得注意的是仅 14B 的 DeepSeek-R1-Distill-Qwen-14B 表现接近 70B 级别，而在直接评测里 Application Ability 虚高的 Qwen2.5-32B-Instruct 被本方法揭示出其真实能力并没那么强。图 5 还显示 Teach2Eval 在高能力区不饱和、散点更紧密单调，而直接评测在高端出现明显的分数压缩。

消融实验¶

配置	关键指标	说明
完整方法	Arena 0.944 / LiveBench 0.975	4 学生、3 轮引导
随机去掉 1 个学生（4 组 3 学生）	Arena 0.926–0.936；LiveBench >0.94	学生选择无显著偏置，结论稳健
累计采样收敛性	Arena Spearman >0.92 / Tau >0.8	比直接评测收敛更快更稳
引导轮数 6 轮	三轮后基本收敛	故主实验取 3 轮为最终指标
老师泄漏答案 (Answer Revealed)	vs Teach2Eval 0.921 > vs Direct 0.815	即使报答案，仍奖励诊断—引导—反思

关键发现¶

高阶能力才是关键：四个维度与综合能力 CA 的相关性递增（AA 0.849 < JA 0.873 < RA 0.905 < GA 0.936），传统直接评测只对应最低阶的 AA，抓不住决定教学有效性的高阶能力。
抗污染（Insight 1）：在蒸馏污染子集上微调的 6 个模型，多数 Application Ability 升高但 Comprehensive Ability 反而下降；说明 CA 不像直接评分那样被污染监督「注水」，可用来早期发现过拟合。
判断能力是基础线：所有模型 JA 都超过 50%，但在引导（GA）和反思（RA）上差异巨大；Yi-1.5-6B、InternLM2.5-7B 反思最差，多轮引导反而不稳定。
缩放律在高阶能力上仍成立但更微妙（Insight 2）：同族内模型越大 CA 越高，但 DeepSeek-Distill 系列因基座不同会出现高阶能力波动；Application Ability 看似遵循缩放律，真实能力却可能不同。

亮点与洞察¶

把「评测」重构成「教学」是真正的范式转换：用学生提升量当信号，从根上绕开了「盯着模型自己答对没」带来的污染/饱和困境，而不是再刷新一版数据集——这是「换问题」而非「换题目」。
盲选 + 弱模型造干扰项 + 异构学生三件套共同构成「移动靶」，让评测难以被过拟合，这个组合很巧：弱模型的错误既是难度来源，又是规模化的标注来源，免去人工。
用弱模型评强模型：本方法把「教学有效性」翻译成「学生提升量」这个可测信号，实现了长期被认为困难的「以弱评强」，思路可迁移到其他难以直接打分的能力（如 agent 协作、长程规划）的评测。
细粒度能力分解给训练提供可执行信号：AA/JA/GA/RA 四维能在训练轨迹上提前预警过拟合（AA 升而 CA 降），把静态评测变成动态的能力诊断。

局限与展望¶

学生池固定为四个小模型，能力天花板有限——当被评老师远强于学生、或题目对学生过难/过易时，提升量信号可能压缩，方法对「学生池如何选」的依赖仍需更系统的研究。
整套依赖把任务统一成选择题（MCQ），对本身难以 MCQ 化的开放生成、长文写作、多模态任务覆盖有限；干扰项质量也依赖 GPT-4o 改写，引入了对单一闭源模型的依赖。
多轮交互 + 多学生 + 多数据集虽号称低成本，但相比单次直接评测，单个老师要跑大量教学交互，绝对推理量并不小；论文的「低成本」主要是相对于人工榜单而言。
缓存中 Ablation 4 与 Ablation 3 文字几乎重复（疑似排版重复），具体收敛轮数结论以原文为准 ⚠️。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把评测重构为教学、用学生增益作信号，是真正的范式级创新
实验充分度: ⭐⭐⭐⭐⭐ 33 模型×60 数据集，5 组消融 + 4 个 Insight，与两大榜单交叉验证
写作质量: ⭐⭐⭐⭐ 思路清晰、公式完整，但消融存在重复段落、部分图依赖附录
价值: ⭐⭐⭐⭐⭐ 抗污染 + 细粒度能力诊断 + 可指导训练，对评测社区实用价值高