Expressive Power of Implicit Models: Rich Equilibria and Test-Time Scaling¶
会议: ICLR2026
OpenReview: Pwnf1vsucu
代码: https://github.com/liujl11git/IMP-Power
领域: 学习理论 / 隐式模型 / 表达能力
关键词: 隐式模型, 不动点迭代, 测试时缩放, 局部 Lipschitz, 表达能力
一句话总结¶
本文从函数空间的非参数角度严格刻画了隐式模型(fixed-point / DEQ 式模型)的表达能力,证明"一个简单(全局 Lipschitz)的更新算子 \(G\),通过不动点迭代可以表达任意局部 Lipschitz 的复杂映射",从而给出了"隐式模型靠增加测试时迭代就能匹配甚至超过更大显式网络"这一经验现象的理论解释,并在成像、科学计算、运筹、LLM 推理四个领域验证了"迭代次数↑ → 映射复杂度(经验 Lipschitz 常数)↑ 且精度同步提升"。
研究背景与动机¶
领域现状:隐式模型是一类新兴架构——它不像普通前馈网络那样一遍过算出结果,而是把一个共享参数块 \(G\) 反复迭代到不动点:训练时学一个算子 \(G\),使得目标满足 \(y^* = G(y^*, x)\),推理时用根求解器(最朴素的就是 Picard 迭代 \(y_{t}=G(y_{t-1},x)\))把这个不动点找出来。代表工作有 DEQ(Bai 等 2019)、隐式深度学习(El Ghaoui 等 2021),近来还延伸到 looped transformer 做 LLM 推理(Geiping 等 2025)。
现有痛点:隐式模型有三个公认优势——(i) 等价于一个无限深、权重共享的网络,却能用常数显存训练;(ii) 能"隐式地"把物理/几何/安全等约束烤进模型;(iii) 最令人惊讶的是,它常常只靠多迭代几步就在精度上匹配甚至超过参数更多的显式网络。前两点机理清楚,但第三点为什么成立,一直没有令人信服的理论解释。
核心矛盾:要回答第三点,本质上是在问隐式模型的"表达能力"——它能表示的输入→输出映射集合到底有多大。但已有研究要么只在特定设定下碰过万能逼近(Bai 等 2019、Marwah 等 2023),要么只给出相对显式模型的分离结果(Wu 等 2024),要么从无限宽/核极限切入(Gao 等 2022 等),始终缺一个对"可表示函数类"的完整刻画。
本文目标:把问题拆成两问。(Q1)隐式模型的表达能力至少能匹配显式模型吗?即对任意目标 \(F\),是否总存在 \(G\) 使迭代 \(y_t(x)\to F(x)\)?(Q2)隐式模型有没有"表达上的额外便宜"?即一个相对简单的 \(G\) 能否通过迭代表达一个复杂的 \(F\)?只要 Q2 为真,就直接解释了现象 (iii)。
切入角度:作者从一个朴素观察出发——很多带奇异性的复杂函数,其实是某个光滑方程的解。例如 \(F(x)=1/x\) 在 \(x\to 0\) 处爆炸、用显式网络逼近要不断加深加宽;但 \(1/x\) 不过是方程 \(xy-1=0\) 的解,而对应的迭代算子 \(G(y,x)=y-\eta(xy-1)\) 处处光滑、没有奇异。复杂可以藏在"解"里,而更新规则本身可以很简单。
核心 idea:把"简单"形式化为全局 Lipschitz、把"复杂"形式化为局部 Lipschitz,证明任意局部 Lipschitz 的 \(F\) 都能写成某个"规则(regular)"隐式算子 \(G\) 的不动点;于是隐式模型的表达能力不是靠堆参数、而是随测试时算力(迭代次数)逐步解锁。
方法详解¶
整体框架¶
这是一篇理论论文,没有"训练一个新模型"的 pipeline,核心贡献是两条定理把隐式模型的表达能力卡得严丝合缝,外加四个领域的数值验证。整条逻辑是:先用 \(1/x\) 例子建立"简单算子 → 复杂不动点"的直觉,再精确定义什么叫"简单的目标 / 复杂的目标"(全局 vs 局部 Lipschitz)、什么叫"规则的更新算子"(regular \(G\)),然后给出充分性定理(任意局部 Lipschitz 的 \(F\) 都能被某个 regular \(G\) 的不动点表示)和必要性定理(任何 regular \(G\) 的不动点映射必然局部 Lipschitz),两者合起来给出一个精确的表达能力刻画。最后把这套理论翻译成一句可验证的预言——"迭代次数增加时,当前迭代映射 \(y_t(\cdot)\) 的有效 Lipschitz 常数会随之增长"——并在四个领域逐一验证。
整体可以拆成三段:(A) 定义层(厘清"简单/复杂目标"和"regular 算子")→ (B) 定理层(充分性 + 必要性,给出精确边界)→ (C) 动力学诠释(表达能力随迭代逐步解锁)→ 落到 (D) 四个案例验证。
关键设计¶
1. 用"局部 Lipschitz vs 全局 Lipschitz"区分复杂目标与简单算子
要谈"简单算子表达复杂映射",首先得说清什么是简单、什么是复杂。本文的关键定义是:一个映射 \(Q\) 是 \(L\)-Lipschitz(全局) 如果存在 \(L\) 使 \(\|Q(x_1)-Q(x_2)\|\le L\|x_1-x_2\|\) 对所有点成立;若只在每个点的某个邻域内 Lipschitz、但常数可以随位置无界增大,则称 局部 Lipschitz。直觉上 Lipschitz 限制函数变化速度,可微时其模长由一阶导数刻画。
作者把全局 Lipschitz 叫"简单"算子,局部 Lipschitz 叫"复杂"目标。这个划分抓住了要害:局部 Lipschitz 类比全局 Lipschitz 类丰富得多,\(\log x\)(在 \((0,1]\))、\(\tan x\)、\(\sqrt{x}\)、\(\Gamma(x)\)、\(1/x\) 这些在奇异点附近斜率爆炸的函数都是局部 Lipschitz 但非全局 Lipschitz。关键的是假设非常宽松(Assumption 2.2):定义域 \(X\) 不要求有界、紧、闭或连通,允许像 \(X=\mathbb{R}\setminus\{0\}\) 这样在内部挖洞、让 \(F\) 在洞处爆炸——这恰好把 \(1/x\)、\(\tan x\) 这类真实的奇异目标纳入进来。
2. 用"regular implicit operator"精确定义"简单的更新规则"
光说目标复杂还不够,得说清承载它的算子 \(G\) "简单"在哪。本文定义 \(G:\mathbb{R}^n\times X\to\mathbb{R}^n\) 为 regular(规则) 需满足两条:(i) 固定 \(y\),映射 \(x\mapsto G(y,x)\) 关于 \(x\) 全局 Lipschitz,且 Lipschitz 常数关于 \(\|y\|\) 线性增长;(ii) 固定 \(x\),映射 \(y\mapsto G(\cdot,x)\) 是 \(\mu(x)\)-压缩的(\(\mu(x)\in(0,1)\) 且关于 \(x\) 连续)。
这两条各有用处:第一条保证 \(G\) 在 \(x\) 方向"简单"(光滑、无爆炸);第二条由 Banach 不动点定理立刻给出"每个 \(x\) 都有唯一不动点 \(y^*(x)\),且 Picard 迭代 \(y_t(x)\to y^*(x)\) 收敛"。值得强调的是 regular 不要求 \(G\) 关于 \((y,x)\) 联合 Lipschitz,只要分别满足上面两条即可。\(1/x\) 的构造 \(G(y,x)=y-\eta(xy-1)\)(在 \(x\in(0,1]\)、\(0<\eta<1\))就是一个 regular 算子——它关于 \(x\) 偏导 \(|\partial G/\partial x|=|\eta y|\)、关于 \(y\) 偏导 \(|\partial G/\partial y|=|1-\eta x|<1\),处处没有奇异。
3. 充分性 + 必要性:给出表达能力的精确边界
有了上面两个定义,两条主定理把边界卡死:
- Theorem 2.4(充分性):在 Assumption 2.2 下,对任意(局部 Lipschitz 的)目标 \(F\),都存在一个 regular 隐式算子 \(G\),其不动点映射就是 \(F\),即 \(\mathrm{Fix}(G(\cdot,x))=F(x)\) 对所有 \(x\) 成立。这直接对 (Q1) 和 (Q2) 给了肯定回答:隐式模型不仅能匹配显式模型,还有"额外便宜"——一个简单的 regular \(G\) 能产生复杂的不动点映射。
- Theorem 2.5(必要性):反过来,任何 regular \(G\)(在 \(X\) 上)每个 \(x\) 都有唯一不动点 \(y^*\),且不动点映射 \(x\mapsto y^*(x)\) 必然局部 Lipschitz。
两者合起来给出精确刻画:regular 隐式模型能表达的函数类 = 局部 Lipschitz 函数类,不多也不少。
至于充分性的证明思路(原文证明在附录 A,此处按正文给出的构造直觉描述,⚠️ 完整构造以原文为准):朴素构造 \(G(y,x)=(1-\eta)y+\eta F(x)\) 虽然 regular 不成立的反例——它关于 \(x\) 的部分是 \(\eta F\),直接继承了 \(F\) 的爆炸,不是全局 Lipschitz,所以这条路只是"学 \(F\) 本身"、没占到便宜。真正的构造灵感来自 \(1/x\):把目标写成某个隐式方程的解、再对该方程做带步长的不动点迭代,从而得到一个在 \(x\) 方向全局 Lipschitz、在 \(y\) 方向压缩的 \(G\)。本文证明这种"简单算子"的构造对整个局部 Lipschitz 类都成立。
4. 动力学诠释:表达能力随迭代"逐步解锁"
定理是静态的存在性,本文进一步把它和迭代求解器的动力学结合,得到一个可观测、可验证的预言。考虑从 \(y_0=0\) 出发的第一步 \(y_1(x)=G(0,x)\):由于 \(G\) regular(关于 \(x\) 全局 Lipschitz),\(y_1(\cdot)\) 只能表示"简单、全局光滑"的映射,其 Lipschitz 常数 \(\mathrm{Lip}(y_1)=\mathrm{Lip}(G(0,\cdot))\) 是有界的。但随着迭代推进 \(y_t\to F\),如果目标 \(F\) 在某处斜率很大甚至无界,当前迭代映射 \(y_t(\cdot)\) 的有效 Lipschitz 常数就会随 \(t\) 增长去匹配这种复杂度:
这就揭示了一个根本区别:显式网络靠扩大模型规模来逼近局部 Lipschitz 目标,隐式模型则靠测试时算力扩展表达能力——只增加推理迭代次数(运行时间),不增加参数。这正是现象 (iii) 的机理。作者同时澄清两点:(a) 大 Lipschitz 常数带来的输入敏感性是目标 \(F\) 固有的,任何忠实模型都得追上 \(F\) 的陡变,不是隐式表示的锅;(b) 给从业者的建议——不要像很多鲁棒性工作那样对不动点映射强加全局 Lipschitz 约束(那会削掉隐式模型的独特表达优势),而应逐案注入领域先验/约束来做正则。
一个完整示例¶
以 LLM 推理(案例四,looped transformer,复用 Geiping 等 2025 的预训练模型)走一遍"表达能力随迭代解锁":输入两个只差一个词的提示 \(x=\) "explain the difference between charge and voltage"(物理语境)与 \(x'=\) "explain the difference between charge and pay"(金融语境)。
- \(t=2\):两路输出都只是机械回显输入,完全没区分语境;
- \(t=4\):输出在重复输入基础上略有变化,但物理 vs 金融仍未分开;
- \(t=6\):开始分化——\(x\) 路进入物理解释(谈电位差 potential difference),\(x'\) 路还停在提示附近;
- \(t=8\):彻底分开——\(x\) 路给出"电荷是系统中的电荷量、电压是两点电位差"的物理定义,\(x'\) 路正确切到金融含义(charge=欠的钱、pay=收到的钱);
- \(t=32\):两个语境都给出稳定、简洁、精确的定义。
这条轨迹具象化了理论预言:输入差一个词(细微扰动)→ 输出走向天差地别(大斜率/高复杂度),而这种"语境分辨力"是随迭代次数逐步长出来的。作者另用基于 Levenshtein 距离的经验 Lipschitz 度量做了定量验证,其几何均值随 \(t\) 上升,与"语境分离越来越锐利"一致。
实验关键数据¶
四个案例的统一套路:(i) 验证目标满足 Assumption 2.2(局部 Lipschitz);(ii) 给一个领域定制的 \(G\) 参数化;(iii) 在标准训练(不显式强制 regular)下,经验上确认学到的 \(G\) 关于 \(x\) Lipschitz、迭代收敛;(iv) 展示"迭代次数↑ → 经验 Lipschitz \(L_t\)↑ + 精度同步提升并稳定"。
主实验:四案例的 \(L_t\) 与精度同步演化¶
| 案例 | \(G\) 的参数化 | \(L_1\)(首步) | 迭代后 \(L_t\) | 精度变化 |
|---|---|---|---|---|
| 图像去模糊(逆问题) | PGD / HQS 式去噪器 \(H_{\theta,\sigma}\) | 0.140 (PGD) / 0.436 (HQS) | 饱和到 ≈5.0 | PSNR 上升并稳定 |
| 稳态 Navier–Stokes(科学计算) | FNO 核 + MLP 编解码 | 23.1 | ≈367 (t=50) | 相对误差 1.1 → 0.078±0.028 |
| 线性规划(运筹) | 隐式 GNN(二部图) | 较小(各扰动模式) | 大幅增长 (t=8) | 相对误差 0.575 → 0.146±0.091 |
| LLM 推理 | looped transformer | — | 随 \(t\) 上升 | 语境分离越来越准 |
三个数学定义清晰的案例(成像/NS/LP)都精确印证理论:首步迭代的映射"简单"(\(L_1\) 小),随迭代逼近不动点,\(L_t\) 显著增长去匹配目标复杂度,同时精度单调改善并稳定——说明 \(L_t\) 增长不是发散/不稳定,而是"目标映射本身的复杂度被逐步表达出来"。
隐式 vs 显式:小隐式模型 ≥ 大显式模型(LP 任务,Table 1)¶
| 模型 | Emb=4 | Emb=8 | Emb=16 | Emb=32 |
|---|---|---|---|---|
| 显式 GNN 参数量 | 580 | 2,088 | 7,888 | 30,624 |
| 显式 训练误差 | 0.387 | 0.233 | 0.183 | 0.112 |
| 显式 测试误差 | 0.397 | 0.273 | 0.283 | 0.318 |
| 隐式 GNN 参数量 | 722 | 2,350 | 8,390 | 31,606 |
| 隐式 训练误差 | 0.203 | 0.162 | 0.131 | 0.118 |
| 隐式 测试误差 | 0.218 | 0.177 | 0.152 | 0.156 |
同等 embedding 尺寸下隐式 GNN 匹配或胜过显式(小/中尺寸最明显);更关键的是更小的隐式模型能赢更大的显式模型:隐式-4 (0.203) < 显式-8 (0.233),隐式-8 (0.162) < 显式-16 (0.183),直接坐实"迭代简单算子可换来强表达能力"。
关键发现¶
- \(L_t\) 增长 ↔ 精度提升是绑定出现的:在成像 PSNR、NS/LP 相对误差三处都是"复杂度涨、误差降"同步发生,强支撑"表达能力随测试时算力解锁"的核心论点。
- 泛化上隐式更抗过拟合:显式 GNN 从宽度 4→8 改善后在 16/32 明显过拟合(测试误差回升 0.273→0.283→0.318),隐式 GNN 一路改善到 16、32 才微升。作者归因于 LP 约束本身是"隐式"指定的、与隐式模型天然契合,且简单小算子 \(G\) 起到了隐式正则作用。
- 去模糊视觉对比:隐式(尤其 HQS)比同样用 DRUNet 的显式端到端基线纹理更锐、伪影更少,全测试集平均 PSNR 高出 2dB 以上。
亮点与洞察¶
- 把"测试时缩放为什么有用"变成一个干净的表达能力问题:现象 (iii)(小隐式模型靠多迭代赶超大显式网络)此前只有经验观察,本文用"全局 Lipschitz 算子 → 局部 Lipschitz 不动点"给出了机理级解释,且充分性+必要性刻画是紧的。
- \(1/x = (xy-1=0\) 的解\()\) 这个例子极具启发性:它把"复杂藏在解里、更新规则可以很光滑"讲得一目了然,是理解整篇论文的钥匙。
- "有效 Lipschitz 随迭代增长"是一个可直接测量的预言:作者把抽象定理落成一个跨四领域都能画出来的曲线(\(L_t\)-vs-\(t\)),理论与实验对得很死,可信度高。
- 对鲁棒性社区的"反向建议"很有价值:很多工作给不动点映射强加全局 Lipschitz 上界以求鲁棒,本文指出这恰恰阉割了隐式模型的表达优势,应改用逐案领域先验做正则——这是一条可迁移的设计原则。
局限与展望¶
- 是存在性而非构造性/可学习性结论:定理保证"存在 regular \(G\) 表达任意局部 Lipschitz \(F\)",但没回答标准训练能否稳定学到这样的 \(G\)、需要多少迭代/样本,案例里 \(G\) 的 regular 性是经验观察而非训练时强制保证。
- 理论建立在有界域 + 局部 Lipschitz 假设上:对非 Lipschitz、不连续或定义在离散结构上的目标,理论不直接适用;LLM 推理一案中"Lipschitz/光滑"在 token 离散空间里没有严格定义,只能做经验性 Levenshtein 代理度量。
- 没有刻画收敛速率与算力成本的权衡:理论说"迭代越多表达越复杂",但表达到位需要多少步、与显式模型扩参的算力账怎么比,缺乏定量分析;实践中迭代过多也可能遇到求解器稳定性问题。
- 可改进方向:把存在性升级为"可学习性 + 样本/迭代复杂度"界;研究如何在训练中显式诱导 regular 性以兼顾表达力与稳定;把 Lipschitz 框架推广到离散/序列空间,给 looped transformer 类 LLM 推理更严格的理论支撑。
相关工作与启发¶
- vs DEQ / 隐式深度学习(Bai 等 2019;El Ghaoui 等 2021):他们提出并实践了不动点式网络(常数显存、无限深),本文补上了缺失的表达能力完整刻画——不是"在某设定下能逼近",而是"可表示类 = 局部 Lipschitz"的精确边界。
- vs 隐式模型的万能逼近 / 分离结果(Marwah 等 2023;Wu 等 2024):前者只在特定情形碰过万能性、后者只证"隐式优于显式"的分离,本文从非参数函数空间视角给出充要刻画,并直接把它和"测试时迭代"挂钩。
- vs 无限宽 / 核极限分析(Gao 等 2022;Feng & Kolter 2023;Ling 等 2024):那条线从宽度趋于无穷、与核方法的联系切入,本文走的是有限维、函数空间路线,互补地填上"表达能力随测试时算力增长"这块空白。
- vs 对不动点映射强加全局 Lipschitz 的鲁棒性工作(Winston & Kolter 2020;Revay 等 2020 等):他们为鲁棒性把 \(y^*(x)\) 卡成全局 Lipschitz,本文证明这会限制表达力、抵消隐式模型独有优势,主张改用逐案领域先验正则。
- vs looped transformer 做 LLM 推理(Geiping 等 2025):本文借用其预训练模型作为案例四,用"语境随迭代逐步分离"为该类循环推理架构提供了表达能力层面的解释视角。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次给出隐式模型表达能力的充要刻画,并把它和测试时缩放现象严格对接。
- 实验充分度: ⭐⭐⭐⭐ 四个领域统一验证"复杂度↑+精度↑",但偏验证性、规模不大,LLM 一案只能做经验代理。
- 写作质量: ⭐⭐⭐⭐⭐ \(1/x\) 例子贯穿、定义—定理—动力学—验证层层推进,理论直觉讲得非常清楚。
- 价值: ⭐⭐⭐⭐⭐ 为"隐式模型 + 测试时算力"这条日益重要的路线提供了机理性理论基础与可迁移的设计原则。