EIP: Weighted Ranking of LLMs by Quantifying Question Difficulty¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=jnX5GJIoYt
代码: https://github.com/Leozz04/EIP
领域: LLM 评测 / Benchmarking
关键词: 题目难度建模, 双向传播, 模型能力排序, 人类一致性, 非参数评测

一句话总结¶

这篇论文提出 EIP（Empirical Interaction Propagation），把“模型答对/答错题目”的二值交互建成双向图传播系统，联合估计题目难度和模型能力，从而实现比纯准确率更细粒度、且与人类难度判断高度一致（90%）的 LLM 排名。

研究背景与动机¶

领域现状：当前主流 LLM 榜单大多使用总体准确率或按子任务平均准确率来排序，默认每道题的信息量近似相同。这种做法在“题目难度分布变化”时很脆弱，因为模型在易题和难题上的能力结构可能完全不同。

现有痛点：当两模型总体准确率接近时，单一准确率无法区分“谁在难题上更强”。论文给出的例子很直观：某些模型总体正确率不占优，但在 hard 子集正确率明显更高，传统排名会把这部分能力直接抹平。

核心矛盾：评测系统要同时满足两件事：一是可解释地刻画“题有多难、模有多强”；二是在大规模数据上计算可承受。IRT 一类方法可以做难度-能力联合建模，但在实际 LLM 大规模评测中常面临参数拟合重、样本需求高和部署成本高的问题。

本文目标：作者希望构建一个不依赖复杂参数假设、能在大规模模型-题目交互矩阵上快速收敛、并且与人类难度判断对齐的评测框架。

切入角度：EIP 的关键观察是“难度”和“能力”天然是互相定义的：强模型都做不出来的题更难；能做出高难题的模型更强。于是作者把这个互相定义过程直接写成图上的双向传播迭代，而不是先固定一方再估另一方。

核心 idea：将模型与题目构造成有向二分图，通过“答对边”与“答错边”进行阻尼传播，最终用唯一稳态分布同时得到题目难度分数和模型能力分数。

方法详解¶

整体框架¶

EIP 先收集模型在题目上的正确/错误结果，形成二值矩阵 \(A \in \{0,1\}^{Q\times M}\)。其中 \(A_{q,m}=1\) 表示模型 \(m\) 做对题目 \(q\)。随后构造互补失败矩阵 \(\hat{A}=(\mathbf{1}-A)^\top\)，并在“题目节点”和“模型节点”之间建立双向传播：题目难度向做对它的模型传递，模型能力向难倒它的题目传递。

为避免二分图随机游走中的周期性问题，EIP 在每轮更新中加入阻尼项（类似 PageRank 的 teleport），确保整个过程是遍历且非周期的，从而收敛到唯一稳态分布。最终输出两组分数：\(\pi_Q\)（题目难度）与 \(\pi_M\)（模型能力）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A[模型-题目答题结果] --> B[构建正确矩阵 A]
    A --> C[构建失败矩阵 A_hat]
    B --> D[题目到模型转移 P_Q→M]
    C --> E[模型到题目转移 P_M→Q]
    D --> F[阻尼双向迭代传播]
    E --> F
    F --> G[题目难度分数 pi_Q]
    F --> H[模型能力分数 pi_M]
    G --> I[难度感知模型排名]
    H --> I

关键设计¶

1. 二分图双边语义建模：把“做对”和“做错”分开编码

很多评测只保留“正确率”，但 EIP 显式区分两种边：\(q \rightarrow m\)（做对）和 \(m \rightarrow q\)（做错）。这让传播过程更有语义：做对高难题会给模型更多能力增益，而被强模型做错会抬高题目难度。形式上，EIP 定义了相互依赖关系：

\[ \pi_m \propto \sum_{q \in Success(m)} \frac{\pi_q}{S(q)},\qquad \pi_q \propto \sum_{m \in Fail(q)} \frac{\pi_m}{F(m)} \]

其中 \(S(q)\) 是做对题目 \(q\) 的模型数，\(F(m)\) 是模型 \(m\) 做错题目数。这个归一化避免了“热门易题”或“普遍失误模型”对传播造成无控制放大。

2. 行随机转移矩阵 + 阻尼迭代：保证稳定可解的全局排序

论文将传播写成两个行随机矩阵： \(P_{Q\to M}=\mathrm{diag}(A\mathbf{1}_M)^{-1}A\)， \(P_{M\to Q}=\mathrm{diag}(\hat{A}\mathbf{1}_Q)^{-1}\hat{A}\)。然后交替更新：

\[ \pi_Q^{(t+1)}=\alpha P_{M\to Q}^{\top}\pi_M^{(t)}+(1-\alpha)\frac{\mathbf{1}_Q}{Q} \]

\[ \pi_M^{(t+1)}=\alpha P_{Q\to M}^{\top}\pi_Q^{(t+1)}+(1-\alpha)\frac{\mathbf{1}_M}{M} \]

阻尼参数 \(\alpha \in (0,1)\) 让系统避免纯二分图来回振荡，并在理论上满足唯一稳态存在。作者强调这是 EIP 能在大规模评测里既稳又快的关键。

3. 预过滤极端题目：减少死节点并提升传播有效性

如果某题被所有模型都做对或都做错，那么它对区分模型能力几乎没有信息，且会在传播中形成边界节点。EIP 在构图前过滤这类极端题，确保保留题满足 \(0<\sum_j A_{ij}<M\)。论文在 35,550 题、30 模型设置下报告极端题约占 2%，过滤后既不影响总体结论，又显著提升传播可用信号密度。

4. 连续分数扩展：从二值判分推广到部分得分任务

EIP 不只支持对错判分。对于开放式题目可用连续得分矩阵 \(A^c \in [0,1]^{Q\times M}\)，并用同样形式更新转移矩阵： \(P_{Q\to M}=\mathrm{diag}(S)^{-1}A^c\)， \(P_{M\to Q}=\mathrm{diag}(F)^{-1}\hat{A}^c\)。这意味着 EIP 可平滑迁移到 free-form generation 等“部分正确”的评测场景，而不必重造一套新排名方法。

一个完整示例¶

假设有 3 个模型（A、B、C）和 4 道题（q1, q2, q3, q4）。其中 q1、q2 比较容易，q3、q4 更难。答题结果如下：

题目	A	B	C
q1（易）	1	1	1
q2（易）	1	1	0
q3（中）	1	0	0
q4（难）	0	0	0

直觉上，A 应该最强，因为它能做出 q3；B 次之；C 最弱。纯准确率会得到 A=75%、B=50%、C=25%，看起来也能区分，但它无法回答“B 与 C 差异主要来自哪类题”。EIP 的传播会把 q3 的权重放大（因为它只被强者解出），从而进一步拉开 A 与 B/C 的能力分数；同时 q4 因无人解出会被预过滤或置于极端难度端点，不进入核心传播主体。

这个例子体现了 EIP 的核心价值：不是只统计“做对了几道”，而是统计“做对了什么难度结构的题”。

损失函数 / 训练策略¶

EIP 本质上不是神经网络训练框架，没有传统意义上的损失函数反向传播。它依赖迭代更新直到收敛，常用 \(L_1\) 变化量作为停止准则：

\[ \delta_Q=\|\pi_Q^{(t+1)}-\pi_Q^{(t)}\|_1,\qquad \delta_M=\|\pi_M^{(t+1)}-\pi_M^{(t)}\|_1 \]

当 \(\delta_Q\) 与 \(\delta_M\) 同时小于阈值 \(\epsilon\) 时停止。论文实验显示在大规模设置下迭代次数基本恒定（约 9 轮），这也是其工程可部署性的关键。

实验关键数据¶

主实验¶

论文在 30 个模型、35,550 道题上验证 EIP，覆盖 BBH、GPQA、GSM8k、HellaSwag、MATH、MMLU-Pro 六个 benchmark。核心结论是：EIP 与准确率总体正相关，但会在相邻模型间产生有意义重排，尤其偏向奖励“在难题上更稳定”的模型。

指标维度	EIP 结果	对比结论
与人类难度判断一致性	90% 共识一致	明显优于 Simple Rank 与多种 IRT 变体
与准确率相关性	Kendall's \(\tau=0.8492\)	与传统指标同向，但更细粒度
稳定性（移除模型）	移除 15/30 模型时题目难度相关仍为 0.9382	排名对模型池变化鲁棒
计算效率	30 模型 × 35,550 题收敛约 0.00597s	显著快于 1PL/2PL/Multi-IRT

消融与分析实验¶

作者重点分析了模型池组成对难度估计质量的影响，结论是“异质模型混合”明显优于“同尺度模型池”。同时在可扩展性实验中，EIP 在不同 \(Q\times M\) 规模上都保持近线性增长与固定迭代数。

配置	观察指标	结果与解读
同尺度模型池（small/medium/large）	与人工一致性	仅 38.6% 到 64.3%，偏低
混合尺度模型池（whole）	与人工一致性	90.0%，说明互补偏差能提升难度估计
大规模合成矩阵	收敛轮次	基本固定为 9 轮
\(Q\times M\) 增大	单轮耗时	近线性上升，符合 \(O(QM)\)

关键发现¶

EIP 不是否定准确率，而是在准确率框架上加一层“难度加权的结构信息”，因此能解释很多“准确率接近但能力不同”的排序现象。
开源模型池对难度分布估计非常有潜力：与全模型池难度排序相关性很高（文中给出 Spearman 0.96）。
模型族在不同参数规模下常保持相似的“难度响应形状”，提示我们评测时要关注能力结构，而不仅是绝对分数。

亮点与洞察¶

这篇工作的最大亮点是把“题目难度”从口头概念变成可计算、可验证、可规模化的对象。很多评测论文提出 difficulty-aware 口号，但真正能落地到统一公式并跑大规模实验的并不多。
EIP 在工程上很克制：核心是矩阵构建 + 迭代传播，没有复杂参数拟合。对评测系统来说，这种“可复现 + 低维护”特性比追求更复杂模型更实用。
人类一致性 90% 很关键，它说明 EIP 的难度定义不是纯数学产物，而与人类直觉有较强耦合。对构建可信 leaderboard 尤其重要。
论文揭示了一个常被忽视的事实：评测结果高度依赖模型池构成。若只用单一规模模型给题目标难度，容易出现系统性偏差；混合模型池更像“集体判题”。

局限与展望¶

EIP 仍依赖观测到的答题矩阵质量。如果数据采集流程中存在提示词泄漏、评测协议不统一或判分噪声，传播结果会继承这些偏差。
该方法目前更像“后验评测框架”，并不直接解释模型为何在某类难题上失败。也就是说它擅长排序，不直接给出机制归因。
论文虽给出连续分数扩展，但主实验仍以二值正确率为主。对于主观性较强的生成任务，连续评分可靠性与标注一致性会成为下一步瓶颈。
一个可行扩展方向是把题目元信息（知识点、推理链长度、领域标签）引入传播后分析，形成“难度分数 + 难度来源”的联合解释。

评分¶

新颖性: ⭐⭐⭐⭐☆ （将难度-能力联合估计以非参数传播形式系统化，思路简洁且实用）
实验充分度: ⭐⭐⭐⭐⭐ （30 模型、35,550 题，并覆盖人类评测、鲁棒性、扩展性与仿真验证）
写作质量: ⭐⭐⭐⭐☆ （主线清晰，实验信息密集；部分符号与附录细节需要来回对照）
价值: ⭐⭐⭐⭐⭐ （对 LLM 排行榜与基准构建有直接方法价值，可低成本落地）