Human-like Abstract Visual Reasoning via Understanding and Solving Reasoning Loop¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: LLM推理 / 抽象视觉推理
关键词: ARC-AGI, 抽象推理, 推理回环, 自适应停止, 小模型

一句话总结¶

把人类"理解—求解—再理解"的迭代认知拆成可循环交互的理解模块（UM）与求解模块（SM），辅以表征同构约束和自适应停止机制，让一个仅 7M 参数的小模型在 ARC-AGI-1 上达到 47.2% 准确率，超过 TRM 与一众通用大模型。

研究背景与动机¶

领域现状：ARC-AGI 这类抽象视觉推理基准，要求模型从 2-5 个输入-输出示范里归纳出可泛化的变换规则，再套到新的问题输入上。当前两条主流路线一是通用大模型（如 DeepSeek-R1、o3-mini-high），二是小型任务专用结构（如 Tiny Recursion Model, TRM）。

现有痛点：通用 LLM 在 ARC-AGI 上表现很差——DeepSeek-R1 仅 15.8%、o3-mini-high 也只有 34.5%，而且推理成本极高。小模型 TRM 虽然只有 7M 参数、效率友好，但它依赖训练任务 ID 构造的固定 puzzle-embedding 表，本质是静态查表，无法对未见任务做动态的示例编码与规则理解。

核心矛盾：现有模型都是"静态一次前向"地处理示例——把示例当成固定输入喂进去，一锤子算出答案。而人类解 ARC-AGI 时并不是单次前向：先对规则形成初步假设、生成试探解、检查它跟示例是否一致、再回头修正假设，理解与求解在循环中共同演化，直到二者自洽。现有架构恰恰缺这个"理解与求解动态对齐"的机制。

本文目标：让小模型也能像人一样，(1) 动态地从示例里抽取并细化规则表征，(2) 在理解和草稿解之间反复对齐，(3) 根据任务难度自适应地决定推理多少步。

切入角度：作者从神经认知学的"理解—求解回环"出发，假设把"理解"和"求解"显式拆成两个互相喂数据的模块、让它们循环交互，就能复刻人类的迭代推理，而参数靠跨步复用保持很小。

核心 idea：用一个 Understanding Module（理解规则）与 Solving Module（生成草稿解）之间的递归回环，替代固定 puzzle-embedding 的静态查表，并用"解与规则是否自洽"作为自适应停止信号。

方法详解¶

整体框架¶

USRL（Understanding and Solving Reasoning Loop）把每个 ARC-AGI 问题建模成一个动态递归过程。给定问题 \(i\) 的示例集 \(E_i=\{(x_{i,k},y_{i,k})\}\) 与问题输入 \(x_i\)，目标是预测 \(y_i\)。架构由两个显式交互的模块组成：理解模块 UM \(U_\theta\) 把示例集编码成问题级规则表征 \(e'_i\)；求解模块 SM \(S_\theta\)（一个 Recurrent Transformer）维护并迭代更新一个潜在解状态 \(z_i\)。两模块不是各算一次，而是在多步（以 \(t\) 索引）里循环交互：每一步 UM 产出（可缓存的）原始规则表征 \(e'_i\)，再由门控 \(g_\theta\) 用当前解状态 \(z_{i,t-1}\) 调制成 \(\tilde e_{i,t-1}=g_\theta(z_{i,t-1},e'_i)\)，SM 据此更新解状态 \(z_{i,t}=S_\theta(x_i,z_{i,t-1},\tilde e_{i,t-1})\)，再解码出草稿解 \(\hat y_{i,t}=f_\theta(z_{i,t})\)。每一步都把草稿解反馈回 UM 检查自洽性，决定继续回环还是停止。由于每个模块在所有推理步里复用同一套参数，总参数量保持 7M 的小规模。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["样例对 E_i + 问题输入 x_i"] --> B["UM·规则理解<br/>编码原始规则表征 e′_i"]
    B --> C["门控调制<br/>用解状态 z 重加权规则 → ẽ"]
    C --> D["SM·求解更新<br/>z_t = S(x_i, z_t-1, ẽ)"]
    D --> E["解码草稿解 ŷ_t"]
    E --> F{"自适应停止判断<br/>Cans > Cintra ?"}
    F -->|否·尚未自洽| C
    F -->|是·已自洽| G["输出最终解 ŷ_i"]

关键设计¶

1. UM–SM 推理回环与门控调制：把"理解"和"求解"拆成两个循环对齐的模块

针对"静态一次前向无法动态理解示例"这个痛点，USRL 把推理拆成两个角色：UM 负责"读懂示例的规则"，SM 负责"基于当前规则草拟答案"，二者在外层回环里反复交互，形成"理解—求解—再理解—求解"的多步过程。关键不在于简单地把规则表征 \(e'_i\) 直接灌给 SM，而是先经过一个学习到的门控 \(g_\theta\)，用当前解状态 \(z_{i,t-1}\) 去重加权原始规则表征：\(\tilde e_{i,t-1}=g_\theta(z_{i,t-1},e'_i)\)。直觉是：模型当前画了一半的草稿解，会反过来决定"此刻该重点看规则的哪一部分"——比如草稿在颜色上出错，就把规则表征里跟颜色相关的成分放大。被调制后的 \(\tilde e\) 再注入 SM 更新解状态。这一步把"理解服务于求解、求解又反哺理解"的双向依赖显式编码进了网络，是它区别于 TRM（只把自身潜状态递归喂回、没有独立的理解通道）的本质。消融显示：在只有 SM 的基线（36.5%）上加入 UM 就 +4.3%，再加门控又 +2.4%，印证了"解耦理解与求解"以及"按解状态动态调制规则"都各有实质贡献。

2. 规则表征同构与对比损失：让同一任务的示例规则表征聚到一起

ARC-AGI 训练任务只有约 1000 个，UM 极易过拟合，且光靠主损失，规则表征的判别性不够。作者提出"规则表征同构"假设：同一问题 \(i\) 内的不同示例对 \((x_{i,k},y_{i,k})\) 共享同一条潜在变换规则，因此它们的示例级表征 \(e_{i,k},e_{i,j}\) 在表征空间里应当彼此靠拢、与别的任务推远。实验观察到：即便只用主解损失 \(L_{CE}\)，同任务表征的相似度也会随训练自发上升（"隐式同构"），说明 UM-SM 的端到端交互本身就在鼓励模型抓取跨示例的共享规则。为强化这一性质，作者加了一个监督式 InfoNCE 对比损失 \(L_{contrast}\)：对每个表征 \(e_{i,k}\)，把同任务的其它表征当正样本、其余当负样本，\(L_{e_{i,k}}=-\frac{1}{N}\sum_{p\in P(e_{i,k})}\log\frac{\exp(s(e_{i,k},p)/\tau)}{\sum_{a\in A(e_{i,k})}\exp(s(e_{i,k},a)/\tau)}\)，其中 \(s\) 是余弦相似度、\(\tau\) 是温度。总目标为 \(L=L_{CE}(y,\hat y)+\lambda_c L_{contrast}\)。它把"隐式、缓慢"的同构变成"显式、快速"的收敛，直接拉低对比损失并构造出更可判别的规则空间，单独带来 +3.2% 的提升。这个同构性质同时也是下一个停止机制的几何基础。

3. 自适应推理停止：用"解与示例的自洽度"决定何时收手

回环不能无限转，但难易任务需要的推理深度不同。作者借助上面的同构几何设计了一个无需显式监督的停止判据：把当前草稿解 \((x_i,\hat y_{i,t})\) 当作一个"假想的新示例"喂回 UM，得到答案表征 \(e_{i,ans}=U_\theta(\{(x_i,\hat y_{i,t})\})\)，再算两个余弦相似度——示例内一致性 \(C_{intra}=\mathrm{avg}_{j\neq k}\,\mathrm{sim}(e_{i,j},e_{i,k})\)（已知示例之间的内部凝聚度，即推断出的规则空间有多紧）与答案-示例一致性 \(C_{ans}=\mathrm{avg}_k\,\mathrm{sim}(e_{i,ans},e_{i,k})\)（当前解跟规则的契合度）。停止条件是 \(C_{ans}>C_{intra}\)：当草稿解和示例的一致程度，已经达到示例彼此之间的一致程度，就认为"理解与求解自洽"、终止回环输出。这套基于内部表征收敛的判据，让模型按任务复杂度自适应分配算力（简单题早停、难题多想几步），在性能几乎不掉（固定步 47.2% → 自适应 47.0%，仅 −0.2%）的同时提供了计算弹性。训练侧还配了一个随机停止（stochastic halting）策略：以一定概率提前终止部分样本的推理并替换为新样本，避免一个 batch 内所有样本都被强制跑到同样深度，从而让模型见过多样的推理轨迹、缓解对固定推理长度的过拟合（额外 +0.8%）。

损失函数 / 训练策略¶

总损失为主解损失加对比项 \(L=L_{CE}(y,\hat y)+\lambda_c L_{contrast}\)（\(\lambda_c=0.5\)，\(\tau=0.07\)）。训练时对每个中间推理步的草稿解 \(\hat y_{i,t}\) 都立即计算并反传 \(L\)（而非只优化最终输出），让 UM/SM 在推理展开过程中逐步细化参数；配合随机停止维持推理深度分布的均衡。UM 与 SM 均为 2 个 block 的 Recurrent Transformer，嵌入维度 \(D=368\)、8 个注意力头，最大推理步 \(T_{max}=16\)，推理时每题生成 2 个答案（pass@2）。数据沿用 TRM 的颜色置换/几何变换增强，把 400 训练任务扩到约 876k。

实验关键数据¶

主实验¶

在 ARC-AGI-1 评测集（400 个未见任务，pass@2）上：

模型	参数量	准确率(%)
DeepSeek-R1	~671B	15.8
o3-mini-high	-	34.5
Gemini 2.5 Pro 32K	-	37.0
Omni-ARC (Qwen2.5-0.5B + TTT)	0.5B	40.0
HRM	27M	40.3
TRM	7M	44.6
USRL (本文)	7M	47.2

USRL 用 7M 参数拿到最高的 47.2%，同参数量下超过 TRM（44.6%），也胜过更大的 HRM（27M，40.3%）以及一众通用大模型——说明在 ARC 这类强归纳任务上，精心设计的紧凑架构能跑赢"靠规模"的路线。

消融实验¶

配置	参数量	Acc.(%)	∆
Base（仅 SM）	3.3M	36.5	-
+ UM（无门控）	6.7M	40.8	+4.3
+ UM（带门控）	7.0M	43.2	+2.4
+ 对比损失 \(L_{contrast}\)	7.0M	46.4	+3.2
+ 随机停止（训练）	7.0M	47.2	+0.8
+ 自适应停止（推理）	7.0M	47.0	−0.2

关键发现¶

解耦"理解/求解"贡献最大：单加 UM 就 +4.3%，再加门控 +2.4%，说明"独立的理解通道 + 按解状态动态调制规则"是性能主来源；对比损失的同构约束再补 +3.2%。
推理深度是硬门槛：固定 \(T_{max}\) 在 8 步及以下时准确率崩到 11.4%（\(T_{max}=8\)），12 步升到 25.1%，16 步才跳到 47.0%；继续加到 20 步只有 47.1%，几乎不再受益——因为训练就是 16 步，超出预算无额外收益。
自适应停止省算力：即便 \(T_{max}=16\)，自适应机制平均只用 12.4 步（\(T_{max}=20\) 时 13.2 步）就达到峰值精度，难题多想、简单题早停。

亮点与洞察¶

把"停止"建成几何自洽判据：不靠额外监督或单独的 halting 网络，而是复用 UM 学到的规则同构空间，用"答案表征与示例的相似度是否追平示例内部相似度（\(C_{ans}>C_{intra}\)）"来判停，优雅且与表征学习目标天然耦合。
门控调制是点睛之笔：让"当前画到一半的解"反过来决定"此刻重点看规则的哪部分"，把人类"边做边回看"的认知显式写进网络，是它比 TRM 单纯递归潜状态更进一步的关键。
小模型靠结构赢规模：7M 参数胜过 671B 的 DeepSeek-R1，提醒在强归纳/少样本规则推理场景下，递归式细化的架构设计比单纯堆参数更有效——这个"理解—求解回环 + 自洽停止"的范式有望迁移到其它基于示范/规则归纳的任务。

局限与展望¶

作者承认 47.2% 仍远低于人类水平，许多抽象推理模式对 USRL 依然困难。
适用范围受限：USRL 依赖"基于示例的规则归纳"，不适合固定规则问题（如数独），也不适合没有示范对的任务格式。
自适应停止依赖同构假设成立；当同一任务的示例规则表征本就难以聚类（噪声大、规则模糊）时，\(C_{intra}\) 这个阈值的可靠性如何、是否会误停/不停，文中未深入分析。
改进方向：把这套推理回环扩展到其它遵循规则归纳/示范范式的领域。

评分¶

新颖性: ⭐⭐⭐⭐ 把人类"理解—求解回环"显式建成 UM/SM 交互 + 自洽停止，思路清晰且与表征学习耦合得巧
实验充分度: ⭐⭐⭐⭐ 主结果 + 逐组件消融 + 推理步分析齐全，但只在 ARC-AGI-1 单一基准上验证
写作质量: ⭐⭐⭐⭐ 动机—方法—判据逻辑连贯，公式与算法表清楚
价值: ⭐⭐⭐⭐ 7M 小模型超大模型，为"结构胜规模"的归纳推理提供有力样本