CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density¶

会议: ICLR2026
arXiv: 无（OpenReview 录用，未挂 arXiv）
OpenReview: 0Sex2H5Jnn
代码: https://cogniload.dk.fo （项目主页，含生成代码）
领域: LLM评测 / 长上下文推理 / 合成 benchmark
关键词: 认知负载理论, 长上下文推理, 逻辑谜题, 可控合成数据, 失败归因

一句话总结¶

CogniLoad 是一个基于认知负载理论（Cognitive Load Theory, CLT）构建的合成自然语言推理 benchmark，用三个相互独立、可任意调节的参数——内在难度 \(d\)、干扰项密度 \(\rho\)、任务长度 \(N\)——分别操控推理任务的内在负载、外在负载和与"专注负载"对应的持续维护负担，从而把长上下文推理失败精确归因到具体维度；作者用它评测了 22 个 SotA 推理大模型，发现任务长度是最主导的瓶颈，模型对干扰项呈现 U 型响应。

研究背景与动机¶

领域现状：长上下文推理是当前评测大模型的核心战场，已经有 LongBench、L-Eval、BABILong、RULER、Needle-in-a-Haystack（NIAH）、LogicBench 等一大批 benchmark。这些工作各自从某个角度施压：一类把文档拉长（context length），一类把逻辑加深（reasoning depth），一类往海量无关文本里塞"针"（distractor）。

现有痛点：问题在于这些维度被混在一起。当一个模型在某个长上下文任务上掉点时，你无法判断它到底是因为"上下文太长撑爆了处理能力"、"单步推理太难"、还是"被干扰项带偏了"。比如 LongBench/L-Eval 改变长度却不一定改变内在推理深度；LogicBench 只考内在难度却几乎没有干扰；BABILong 把多步推理和固定干扰比例耦在一起，失败原因无从拆解。换句话说，现有 benchmark 给出的是一个聚合分数，而不是诊断信号。

核心矛盾：长上下文推理失败可能源于多个本质不同的认知机制，但现有评测把这些机制纠缠在一个维度里，导致无法做精确的失败归因（failure attribution）。要解耦，就需要一个能正交地、独立地调节每个维度的可控生成器。

本文目标：构造一个 benchmark，能独立控制三类负载、可扩展到任意长上下文、抗数据污染（可程序化随机生成），并能给出每个模型在每个维度上的可解释容量阈值。

切入角度：作者从人类认知科学的 认知负载理论（CLT, Sweller 1988） 出发。CLT 把工作记忆承受的负载分成三类：内在负载（ICL，来自任务本身的元素交互复杂度）、外在负载（ECL，来自不相关元素/糟糕呈现方式带来的额外处理）、专注负载（GCL，把工作记忆资源真正用于构建和维护任务相关 schema 的部分）。作者主张大模型在解推理题时承受的"计算资源压力"与这三类负载一一对应，于是可以把 CLT 当作一张设计蓝图。

核心 idea：把 CLT 的三个负载维度翻译成逻辑网格谜题里三个相互独立可调的生成参数——用内在难度 \(d\) 操控 ICL、用 needle-to-hay 比例 \(\rho\) 操控 ECL、用任务长度 \(N\) 作为 GCL 的操作代理，从而把"长上下文推理为什么失败"这个模糊问题变成一个可做因子分析（factorial control）的诊断框架。

方法详解¶

整体框架¶

CogniLoad 是一族自然语言逻辑网格谜题（logic-grid puzzles）。每道题描述若干"人"，每个人有一组可变属性（如袜子颜色、手套颜色、最近听的音乐），题目先给一段初始状态，再给一串严格按顺序执行的更新语句（"穿绿袜子的人改听电子乐"这类条件触发的状态转移），最后就某个被随机选中的"目标人物"（Person of Interest, PoI）的某个属性提问。模型必须像跑一个小状态机一样，按顺序逐条应用规则，追踪 PoI 的状态向量，最后报出答案。

整道题的难度由三个参数刻画：内在难度 \(d\)、语句总数 \(N\)、needle-to-hay 比例 \(\rho\)。这三者分别对应 CLT 的三类负载，且生成时被设计成相互正交——改一个不影响另外两个的"单位强度"。谜题的语句由确定性字符串模板从逻辑形式转写成自然语言（不依赖 LLM 生成文本），因此完全可复现、可程序化大规模采样、天然抗训练集污染。

整个生成流程是一条清晰的流水线：选属性与人物 → 初始化保证两两可区分 → 逐步生成语句（按 \(\rho\) 概率决定这一步是 needle 还是 hay）→ 每生成一句做合法性校验（不通过就重抽）→ 全部 \(N\) 句生成完后随机就 PoI 的某属性出题。下面分四个关键设计讲清它怎么把 CLT 落地成可控参数。

关键设计¶

1. CLT 三维解耦：把"长上下文推理为什么失败"拆成三种独立负载

这是全文的灵魂设计，直接针对"现有 benchmark 把维度纠缠在一起、无法归因"的痛点。作者把认知负载理论的三类负载逐一映射到谜题的可控属性上：内在负载 ICL 对应推理链本身的元素交互复杂度，用内在难度 \(d\) 控制；外在负载 ECL 对应需要被过滤掉的无关元素，用 needle-to-hay 比例 \(\rho\)（相关语句 needle 占比，剩下是干扰语句 hay）控制；专注负载 GCL 对应"在长推理过程中持续维护一个相关 schema"的努力，由于 GCL 是学习者如何分配资源、无法直接当成题面属性来设，作者用任务长度 \(N\) 作为它的操作代理（operational proxy）——\(N\) 越长，需要对 PoI 状态向量做的连续更新次数越多，但每步的元素交互复杂度（\(d\)）和干扰密度（\(\rho\)）都不变，于是 \(N\) 单独隔离出了"持续、建设性地维护 schema"这一需求。

这个设计的价值在于它把一个聚合分数变成了因子化的诊断坐标系：同一道题可以固定 \(d,\rho\) 只扫 \(N\)，从而看出某模型到底是栽在长度上还是难度上。这正是 NIAH、LogicBench 这些只动一个维度的 benchmark 给不出来的。

2. 随机化逻辑谜题生成算法：needle/hay 语句 + 严格合法性校验

要让 \(d,\rho,N\) 真正可控且每道题都"非平凡可解"，生成过程必须很讲究。每道题先定一组人 \(P\)（\(|P|=\max(d,2)\)）、随机抽 \(d\) 个属性类别 \(A\)（每类的取值域基数 \(|V_c|=\max(d+1,3)\)）、随机选一个 PoI \(p^*\)。初始化时强制任意两人至少在一个属性上不同，避免一开局就退化。

随后对每一步 \(t=1\dots N\) 生成一条语句：以概率 \(P(T_t=\text{needle})=n^t_{\text{needle}}/(N-t)\) 决定这一步更新的是 PoI（needle）还是非 PoI（hay），其中目标 needle 总数 \(n^0_{\text{needle}}=\max(1,\min(N,\mathrm{round}(N\cdot\rho/100)))\)。每条语句的逻辑形式是一个条件触发的状态转移：

\[\forall p \in P:\ \Big(\bigwedge_{c\in C_t} S_{t-1}(p,c)=v_{c,t}\Big)\ \Rightarrow\ \Big(\bigwedge_{c\in U_t} S_t(p,c)=u_{c,t}\Big),\]

条件类别数 \(k_t\) 和更新类别数 \(m_t\) 都从 \(\mathrm{Uniform}\{1,\dots,d\}\) 采样，未被更新的属性保持不变。关键的校验约束保证了每句话都"名副其实"：hay 语句必须真正不影响 PoI、且不能把所有非 PoI 都坍缩成和 PoI 一样（否则后面没法再生成 hay）；needle 语句不能一次影响所有人、也不能让全体非 PoI 与 PoI 状态一致。每生成一句就跑这套校验，不过就重抽。正是这套约束让"干扰项"始终是结构上与 needle 高度相似、合法的状态更新，而不是一眼能认出的无关闲文——这让 ECL 比传统 NIAH 那种"明显是废话"的干扰更难对付。

3. 三个相互独立的可调参数：\(d\)、\(N\)、\(\rho\) 各管一类负载

把抽象的"三维解耦"落到具体旋钮上，是这个 benchmark 能做因子实验的前提。内在难度 \(d\in\{1,3,5,7,10\}\) 同时放大状态空间（约 \((d+1)^d\) 的组合增长）、人-属性-取值之间的交互、以及每句话的规则复杂度（最多 \(d\) 个条件/更新），直接拉高 ICL。任务长度 \(N\in\{20,50,100,250\}\) 只增加连续状态转移的步数，不改变每步的交互复杂度或干扰密度，因此干净地放大了"持续维护 schema"的需求，作为 GCL 代理。needle-to-hay 比例 \(\rho\in\{5,\dots,95\}\%\) 调节相关语句占比：\(\rho\) 越小、干扰越多、ECL 越高。这三个参数被刻意设计成正交——改任一个，另外两个施加的"单位负载"不变——这是 CogniLoad 区别于 GSM-\(\infty\) 等"参数耦合"benchmark 的核心。

4. 负载敏感度回归与容量阈值：把曲线变成可解释的单数字能力指标

光有准确率曲线还不够，作者想给每个模型一个可比较的容量数字。他们对每个模型拟合一个二项 GLM（logit 链接）：

\[\Pr(Y=1)=\sigma\big(\beta_0+\beta_d\,d+\beta_N\log_{10}N+\beta_\rho\,\rho+\beta_{\rho^2}\,\rho^2\big),\]

其中 \(Y\) 是该题是否精确匹配答对，\(\beta_d,\beta_N,\beta_\rho\) 分别量化对 ICL/GCL/ECL 的敏感度；\(\rho\) 加二次项是为了拟合实验里观察到的 U 型响应（对 22 个模型中的 18 个，加二次项改善了 AIC）。在此基础上令 logit 等于 0（即 \(\Pr=0.5\)）反解，得到三个可解释阈值：ECL50（在保持 50% 准确率前提下能处理的最大语句数，越大越能扛长上下文）、NT50（维持 50% 所需的最小相关信息占比，越小越抗干扰）、ID50（维持 50% 能扛的最大内在难度，负值表示连最低难度都到不了 50%）。例如 \(\mathrm{ECL50}=10^{-(\beta_0+\beta_d\bar d+\beta_\rho\bar\rho+\beta_{\rho^2}\bar\rho^2)/\beta_N}\)。这套阈值把一堆曲线压成三个能横向排序模型的数字，是 CogniLoad 作为"诊断工具"而非"打分榜"的体现。

一个完整示例¶

以 \(d=3,\ N=20,\ \rho=50\%\) 的一道题为例（论文 Figure 2）：题面先给初始状态——"Brent 穿绿袜子、紫手套，最近听古典乐；Anthony 穿紫袜子、黄手套，最近听 disco……"；接着是 20 条按序执行的更新语句——"① 穿绿袜子的人改听电子乐；② 既听古典乐又戴紫手套的人换上黄手套；……"；最后提问"Brent 现在穿什么颜色的袜子？"。模型必须从初始态出发，逐条判断每条规则的条件是否对当前状态成立、命中就更新，一路把 Brent（这里 PoI 是 Brent）的属性向量维护到第 20 步，最后报答案。其中约一半语句真正触及 PoI（needle），另一半是结构相似但只改别人的 hay。评测时用渐进式精确匹配：接受"最后一句点名 PoI 且带类别限定的金值""最后一句点名 PoI 的金值""输出最后一句的金值"三种情形为正确，以容忍轻微措辞漂移而仍保持确定性、可复现。

实验关键数据¶

主实验¶

作者评测了 22 个 SotA 推理大模型。13 个开源权重模型在每个 \((d,N,\rho)\) 配置上跑 100 道随机题（每模型共 14,000 道），专有的 Gemini-2.5、gpt-5 系列与 DeepSeek-R1-0528 因成本每配置跑 10 道（每模型 1,400 道）。最大上下文（输入+输出）设为 32K token。

三个维度的整体趋势（随各维度增大，准确率从高到低）：

负载维度	现象	代表数据
内在难度 \(d\)（ICL）	多数模型随 \(d\) 单调下降，\(d=5\) 时 22 个模型有 12 个跌破 50%	gpt-5: \(d{=}1\)→\(d{=}10\) 由 1.00→0.82；o3: 0.96→0.80；弱模型趋近 0.10
任务长度 \(N\)（GCL 代理）	最主导的瓶颈，多数模型在 \(N{=}20\)→\(50\) 跌得最陡	DS-Llama-70B: 0.89→0.66；Qwen3-8B: 0.71→0.40；\(N{=}250\) 时仅 gpt-5(0.76)、o3(0.68) 过 50%
needle-to-hay \(\rho\)（ECL）	呈 U 型，在 \(\rho\in[25,50]\%\) 最低、两端回升	gemini-2.5-flash-lite: 0.38→0.53；gpt-5 平缓 0.97→0.89→0.91

U 型的成因是两个相反效应叠加：增大 \(\rho\) 一方面减少干扰语句、让过滤更容易，另一方面增加 PoI 的状态转移数、让顺序追踪更难。作者用 \(\Delta_\rho=\mathrm{Acc}(\text{low }\rho)-\mathrm{Acc}(\text{high }\rho)\) 区分模型：\(\Delta_\rho\approx0\)（DeepSeek-R1、gpt-5-mini）表示两效应平衡，\(\Delta_\rho>0\)（gpt-5、o3）表示抗噪，\(\Delta_\rho<0\)（Gemini-2.5-flash）表示对干扰更敏感。

容量阈值与回归分析¶

GLM 拟合给出每个模型的容量分层（基于 ECL50/NT50/ID50）：

容量层	代表模型	特征
前沿/高容量	gpt-5、o3（ECL50 > 300），gemini-2.5-pro、gpt-5-mini、o4-mini、DS-R1-0528	长上下文处理能力远超其余
中容量	DS-Llama-70B、Qwen3-32B、DS-Qwen-32B、QwQ-32B、Phi-4-reasoning(-plus)、Qwen3-30B-A3B、gpt-5-nano、Qwen3-8B	中等 \(N,d\) 下表现良好
低容量	DS-Qwen-7B、Phi-4-mini-reasoning、DS-Qwen-1.5B、Qwen3-1.7B	均值条件下都到不了 50%，负载稍增就崩

回归的关键发现： - \(\beta_d\)、\(\beta_N\) 在所有模型上都显著为负，确认 ICL/GCL 增大必然掉点；\(\rho\) 二次项在多数模型显著，确认 U 型。 - 超可加的"难度×长度"耦合：负的 \(d\times N\) 交互在 17/22 模型显著，说明又长又难时掉点比单因子叠加更狠；前沿模型（gpt-5、o3）反而检测不到该交互，说明当前负载下它们的响应近乎可分离。 - 难度放大干扰伤害：负的 \(d\times\rho\) 在 13/22 模型显著，内在越复杂、越易被干扰带偏。

关键发现¶

任务长度是头号杀手：\(N\) 是三个维度里最具区分度的压力源，\(N{=}250\) 时绝大多数模型只剩 0.20–0.30 准确率，仅两个前沿模型过半。
状态追踪错误主导失败：错误分析显示最常见的非上下文失败是"最后一句对 PoI 属性归因错误"（valid-logic），即跟丢了顺序更新，而非格式问题；这类逻辑错误几乎对所有模型都随 \(d\) 单调增长（如 \(N{=}250\) 时 Qwen3-32B 有 2541 例）。
长上下文溢出是模型特异问题：Gemini-2.5 在 \(N{=}250\) 因输出过于冗长频繁撞 32K 预算（flash 280/350、pro 268/350），而 gpt-5(32/350)、o3(24/348) 很少；说明 Gemini 在该条件下的准确率应解读为推理能力的下界。
格式漂移集中在小模型：last-logic 错误在紧凑模型上随 \(N,d\) 明显上升（Phi-4-mini-reasoning 在 \(N{=}250\) 达 400 例）。

亮点与洞察¶

把认知科学理论当 benchmark 设计蓝图：直接拿 CLT 的三类负载当坐标轴，这个跨学科映射既给了 benchmark 清晰的理论依据，又自然导出"三个正交参数"的设计——是从"测什么"反推"怎么造题"的范例，可迁移到任何想做精确失败归因的能力评测。
正交可调 + 程序化生成的组合拳：三个参数相互独立、谜题由确定性模板生成，既能做干净的因子实验，又天然抗数据污染、可无限扩展长度——解决了"长上下文 benchmark 容易被训练集污染、且难以控制变量"两大老问题。
从曲线到单数字容量阈值：ECL50/NT50/ID50 这套"反解 GLM"的做法把一堆准确率曲线压成可横向排序、有明确语义的能力指标，比单纯报平均分信息量大得多；这种"拟合参数化模型再求阈值"的范式可复用到其他 scaling/压力测试。
U 型响应的机制拆解：用 \(\Delta_\rho\) 把"减少干扰"和"增加 PoI 步数"两个相反效应分离，给出每个模型是抗噪型还是敏感型——这种对单一现象做双因素归因的分析手法很值得学。

局限与展望¶

GCL 只是代理而非直接度量：作者自己承认 GCL（专注负载）无法直接施加，只能用任务长度 \(N\) 当操作代理。\(N\) 同时也可能引入纯粹的"上下文长度"压力（如 Gemini 的输出溢出），二者在该 benchmark 里并未完全分离，使得"长度掉点"到底有多少是 GCL、多少是 serving 限制存在解释空间。
谜题类型单一：所有任务都是同一种逻辑网格状态机谜题，结论是否推广到数学推理、代码、多跳问答等其他推理形态需进一步验证；"内在难度"也被狭义地操作化为属性/规则数，与真实任务的难度不一定对齐。
专有模型采样稀疏：Gemini、gpt-5 系列每配置仅 10 题，置信区间较宽，跨层比较时需谨慎。
评测靠精确匹配：虽然用了渐进式匹配容忍措辞漂移，但仍可能对"推理正确但表述特殊"的输出误判，对小模型的格式漂移尤其敏感。
改进方向：可把 needle/hay 之外引入更丰富的干扰结构、把谜题骨架推广到其他推理范式，并补充"长度"与"GCL"的进一步解耦实验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用认知负载理论把长上下文推理解耦成三个正交可调维度，是 benchmark 设计上少见的跨学科原创视角。
实验充分度: ⭐⭐⭐⭐⭐ 22 个 SotA 模型、上万道题、外加 GLM 回归与容量阈值、交互效应、失败模式拆解，分析深入。
写作质量: ⭐⭐⭐⭐ 理论动机与方法清晰、公式完整；CLT 术语密集、附录依赖较多，初读门槛偏高。
价值: ⭐⭐⭐⭐⭐ 提供可复现、抗污染、可扩展且能做精确失败归因的诊断工具，对评测和指导模型改进都很实用。