ICLR 2026 预训练 Energy-Based Models Transformer 推理时计算 System 2 Thinking 无监督学习可扩展性

Energy-Based Transformers are Scalable Learners and Thinkers¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZBj3Qp1bYg
代码: github.com/alexiglad/EBT（项目页 energy-based-transformers.github.io）
领域: LLM 预训练 / 能量模型 / System 2 推理
关键词: Energy-Based Models, Transformer, 推理时计算, System 2 Thinking, 无监督学习, 可扩展性

一句话总结¶

本文把"预测"重新表述为"对一个学到的验证器（能量函数）做梯度下降优化"，提出一类可扩展的能量模型 Energy-Based Transformers (EBTs)，让模型仅靠无监督预训练就涌现出跨模态、跨任务的 System 2 思考能力（动态分配算力 + 自我验证），在语言与图像上同时超越 Transformer++ 和 DiT。

研究背景与动机¶

领域现状: 推理时计算（inference-time computation，类比人类 System 2 慢思考）正成为提升模型能力的主流手段，O1、R1、Claude 等"推理模型"靠延长思考时间在数学/代码上大幅提分。
现有痛点: 主流 System 2 方法有三重局限——模态绑定（只在文本上有效）、问题绑定（只在数学/代码这类可验证域有效）、依赖额外监督（需要 verifier 或可验证奖励 RL）。而 RL 路线只在规则奖励能轻易判对的领域奏效，对写作等任务反而有害，且可能无法培养出新的推理模式。
核心矛盾: 现有前馈 Transformer / RNN 每个预测的算力是固定的、无法逐 token 动态分配，也没有显式的"预测验证"能力（即 Generative AI Paradox：会生成却不会判断自己生成得对不对）。DiT 虽能通过多步去噪动态分配算力，但并非作为显式验证器训练。能量模型（EBM）天然兼具"动态算力（Facet 1）+ 预测验证（Facet 2）"两大认知要素，却长期受困于训练不稳定、训练耗时、无法规模化，至今没有一个基础规模的 EBM。
本文目标: 回答"能否完全依赖无监督学习培养出通用的 System 2 思考？"——做一个可扩展、可并行、跨模态的能量模型基础架构。
核心 idea: 【验证比生成更容易】 学一个能量函数 \(E_\theta(x,\hat y)\) 给"输入-候选预测"打兼容性分（能量越低越兼容），【预测即优化】 把预测重构为"从随机初值出发沿能量景观梯度下降直到收敛"，从而把验证器与生成器统一进同一个模型——生成器隐式地由验证器的梯度定义。

方法详解¶

整体框架¶

EBT 不直接输出预测，而是维护一个能量标量 \(E_\theta(x,\hat y)\) 表示上下文 \(x\) 与候选预测 \(\hat y\) 的兼容度（未归一化似然）。每次预测时，从随机初值 \(\hat y_0\sim\mathcal N(0,I)\) 出发，反复对 \(\hat y\) 做梯度下降以最小化能量，直到能量收敛——这个迭代过程就是"思考"：能量收敛得快说明问题简单（少算力），收敛得慢说明问题难（多算力），自然实现动态算力分配；而最终能量值本身就是对预测好坏的验证。训练时整条优化轨迹都参与反向传播（需要二阶导数，靠 Hessian-向量积高效计算）。架构上提供两个变体：GPT 式因果解码器 EBT（自回归）和全序列注意力的双向 EBT（图像）。

flowchart LR
    A[上下文 x] --> E[EBT 能量函数 E_θ x,ŷ]
    R[随机初值 ŷ_0] --> E
    E --> G[计算 ∇_ŷ E]
    G --> U[ŷ_i+1 = ŷ_i − α∇E + 噪声]
    U -->|未收敛, 回填新预测| E
    U -->|能量收敛| O[输出 ŷ*]
    E -. 多采样取最低能量 .-> V[自我验证 BoN]
    V --> O

关键设计¶

1. 预测即对验证器的优化（统一 verifier 与 generator）： EBM 用 Boltzmann 分布 \(p_\theta(x)=e^{-E_\theta(x)}/Z(\theta)\) 建模，但配分函数 \(Z\) 不可解，因此采用未归一化形式 \(p_\theta(x,\hat y)\propto e^{-E_\theta(x,\hat y)}\)，只需让真实数据流形能量低、其它地方能量高。预测就是在能量景观上找最低点，用梯度下降迭代 \(\hat y_{i+1}=\hat y_i-\alpha\nabla_{\hat y_i}E_\theta(x,\hat y_i)\)。这一步把"判别"与"生成"合二为一：前向传播时 EBM 像 GAN 判别器给出能量"验证"，反向传播时像 GAN 生成器通过最小化能量去"骗过"判别器。相比把 verifier 和 generator 拆开的方案（树搜索 + LLM 需要成千上万次采样、且存在对抗动态与扩展性问题），这种耦合天然缓解了对抗与可扩展性难题。

2. 可扩展的 EBM 学习——优化式训练绕开维度灾难： 传统对比式 EBM 训练要同时压低正样本、抬高负样本能量，但高维空间里负样本数量随维度指数爆炸，无法规模化。本文改用优化式（regularized）训练：直接把初始预测优化到真值，反向传播穿过整条优化过程，从而在真值附近隐式塑造出一个局部极小，隐式地正则化能量景观只在真实数据流形上取低能量，避开了显式枚举负样本的维度灾难。这是 EBM 能首次扩展到基础模型规模的关键。

3. 三招能量景观正则化让"思考"涌现： 高维真值景观很难天然平滑、只有单一极小，作者引入三项技术保证景观良好从而思考能力可涌现——回放缓冲（replay buffer） 复用更长的优化轨迹，让极小点附近的景观被充分定义；Langevin 动力学 在更新中加噪声 \(\hat y_{i+1}=\hat y_i-\alpha\nabla_{\hat y_i}E_\theta(x,\hat y_i)+\eta_i,\ \eta_i\sim\mathcal N(0,\sigma)\) 鼓励对景观的探索（否则只会探索通往极小的单一路径，其它区域定义不良）；随机化优化路径（随机步长 \(\alpha\) 与优化步数）显著提升泛化。消融显示随机步长尤其关键，去掉它思考收益几乎消失。

4. 两种 System 2 思考方式： 训练好后有两条对应两大认知要素的思考路线——对应 Facet 1 的 "思考更久"（Thinking Longer），即对单个预测做更多优化步；对应 Facet 2 的 "自我验证"（Self-Verification / BoN），即对同一预测采样 \(N\) 个候选、取能量最低者 \(\hat y^*=\arg\min_j E_\theta(x,\hat y_{M,j})\)。后者类似语言模型的 Best-of-N，但 EBM 把它推广到离散+连续两种模态，并且作用于每一个预测而非整条序列。

实验关键数据¶

主实验：学习与思考可扩展性¶

预训练扩展性（语言，RedPajamaV2 100B + GPT-NeoX 分词）：在数据、batch size、深度、参数量、FLOPs、嵌入维度六个轴上，EBT 的扩展率全面高于 Transformer++ 配方；FLOP 与参数扩展率高出约 8.97%，整体最高可达 35% 更快的扩展。
下游任务泛化（同数据同参数，越靠右越 OOD）：尽管 EBT 预训练困惑度略差，下游多数任务反而更好——

模型	Pretrain ↓	GSM8K ↓	SQuAD ↓	BB Math QA ↓	BB Dyck ↓
Transformer++	31.36	49.6	52.3	79.8	131.5
EBT	33.43	43.3	53.1	72.6	125.3

图像去噪与表征（双向 EBT vs DiT，且仅用 1% 的前向次数）：

模型	PSNR↑(ID)	MSE↓(ID)	PSNR↑(OOD)	MSE↓(OOD)	Top-1 Acc↑	Top-5 Acc↑
DiT	26.58	142.98	19.56	718.7	0.31%	1.36%
EBT	27.25	122.55	23.29	305.2	5.32%	13.2%

EBT 在去噪上用 99% 更少的前向次数仍全面超过 DiT，线性探测分类准确率约高出 10×，说明学到的图像表征更好。

消融实验（System 2 思考，以困惑度改善百分比衡量）¶

配置	思考更久 ↑	思考更久 + 自我验证 ↑
无随机步长	-1.47	0.19
无随机步数	0.00	9.65
无 Langevin 动力学	17.2	17.0
无回放缓冲	14.8	17.8
完整 System 2 配置	7.19	18.7

去掉随机步长几乎抹掉思考收益；去掉 Langevin 在"无验证"时反而单路径更好，体现性能-算力权衡；完整配置在"思考更久 + 自我验证"组合下最优。

关键发现¶

思考收益随 OOD 程度线性上升：数据越偏离分布，思考带来的提升越大，呼应人类靠 System 2 应对陌生情境。
思考能力随训练规模增长：训练越久，自我验证收益从 4%–8% 升到 12%–14%，暗示在 Llama3 量级（≈1000× 当前规模）上自我验证潜力更大。
预训练差但下游好：EBT 困惑度略高却下游更优，说明验证器路线泛化更强（验证比生成在 OOD 上更容易）。
通过延长思考，语言模型性能比 Transformer++ 多提升 29%，而 Transformer++ 无法逐 token 改善。

亮点与洞察¶

把"思考"形式化为"对学到的验证器做优化"，统一了动态算力分配与预测验证两大要素，且完全来自无监督预训练，不依赖 verifier/可验证奖励，天然跨模态、跨任务。
首次把 EBM 扩展到 Transformer 规模：用优化式训练绕开对比式的维度灾难，配合三招景观正则化，让长期"不可扩展"的 EBM 真正可并行、可规模化。
验证器视角解释泛化：因为验证通常比生成容易，OOD 上验证更鲁棒，所以 EBT 在预训练略弱时下游/OOD 反而更强——这是对 Generative AI Paradox 的一个建设性回应。

局限与展望¶

规模受限：受算力约束，实验停在小模型 + 大数据，最大规模性能仍属推测；EBT 当前 FLOP 效率不如 Transformer++（下游对比中用了更多 FLOPs）。
无法复用现有基础模型：EBT 架构与现有预训练模型不兼容，只能从零训练，无法微调既有 LLM。
训练成本：需二阶导（Hessian-向量积）穿过整条优化轨迹，单步训练比标准前馈更重。
自回归实现需防信息泄漏，工程上比双向版本更需小心。
CoT 等技巧暂未见效：从零小模型规模下未观察到 Chain-of-Thought 收益，需更大规模验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把预测重构为"对学到能量验证器的优化"，并首次把 EBM 扩展到 Transformer 基础规模，跨模态实现无监督涌现的 System 2 思考，概念与工程都很新。
实验充分度: ⭐⭐⭐⭐ 六轴扩展性 + 语言/图像双模态 + OOD 泛化 + 消融齐全；但受算力限制只在小模型大数据上验证，大规模表现仍属推测。
写作质量: ⭐⭐⭐⭐⭐ 以"两大认知要素"为主线层层推进，图表（能量景观、扩展曲线）直观，动机—方法—证据闭环清晰。
价值: ⭐⭐⭐⭐⭐ 提供了一条不依赖可验证奖励、跨模态、随规模增益的 System 2 路线，对推理模型与基础架构研究都有较大启发潜力。