Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking¶

会议: ACL 2025
arXiv: 2502.13842
代码: 无
领域: 其他
关键词: 动态深度, 自适应计算, Transformer架构, 隐式推理, token级路由

一句话总结¶

提出 Inner Thinking Transformer (ITT)，通过自适应 token 路由和残差思维连接，在不增加参数的情况下为关键 token 动态分配更多计算步骤，实现隐式深度推理，162M 参数即可达到 466M Transformer 96.5% 的性能。

研究背景与动机¶

大语言模型在参数受限条件下面临性能瓶颈，尤其是处理需要复杂推理的关键 token 时。现有方法如 Test-Time Scaling（慢思考）通过推理搜索分配更多计算，但受限于关键 token 的准确生成，在小模型中尤其容易出现灾难性推理失败。层共享、递归、隐式推理等方法也未能灵活提升模型对关键 token 的推理能力。

作者通过分析 GPT-2 在 AQuA 数据集上的梯度核范数（GNN）发现了两个关键现象： - 简单样本：GNN 在早期层（L0-L2）指数衰减，中间层（L3-L10）稳定低于 3 - 困难样本：GNN 在所有 12 层持续振荡，在 L3、L5、L7、L9 处出现突然尖峰

这表明困难 token 在模型各层面临架构或参数限制导致的优化困难，启发了"内在思考"（Inner Thinking）的概念——将每一层的变换视为一个隐式推理步骤。

方法详解¶

整体框架¶

ITT 将层计算重新定义为隐式思考步骤，核心包含三个组件： 1. 自适应 Token 路由（ATR）：动态选择需要深度思考的关键 token 2. 残差思维连接（RTC）：迭代累积各步骤结果以精炼表示 3. 思维步骤编码（TSE）：区分不同推理阶段

ITT 层以固定间隔插入在原始模型层之间，使用语言建模交叉熵损失统一优化所有参数。

关键设计¶

内在思考步骤（Inner Thinking Step）：将单个 token 的生成分解为一系列内部思考步骤 \(X^{(t)} = f^{(t)}(x^{(t-1)})\)，支持两种场景——提前退出（中间步骤已足够好）和性能不足（所有步骤后仍不够）
残差思维连接（RTC）：核心创新，通过累积残差连接迭代精炼表示。最终输出为所有步骤输出的加权累加：\(x^{(t)} = \sum_{i=1}^{t}(f(x^{(i-1)}) \odot \phi^{(i)})\)，其中 \(\phi^{(i)}\) 为可学习的思维位置编码。相比直接循环，RTC 不仅实现更深层思考，还能有效度量和组合各步骤结果
自适应 Token 路由（ATR）：通过线性权重预测器为每个 token 生成重要性分数，使用百分位阈值 \(P_\rho\) 选择最关键的 token 进行深度处理。被选中的 token 经过加权变换，未选中的保留原始表示。路由权重参与梯度传播
思维步骤编码（TSE）：可学习的位置编码 \(\phi^{(t)}\)，用于区分不同思考步骤并衡量各步骤的重要性

损失函数 / 训练策略¶

使用标准语言建模交叉熵损失 \(\mathbb{L} = \mathbb{L}_{\text{CE}}\)
ITT 层以固定间隔替换原始模型的每隔一层
训练 50B token（50000 步），学习率 3e-4
训练时使用固定路由模式（如 70% token 参与），推理时可弹性调整
理论证明：RTC 将单步优化扩展为多步优化，每步误差以因子 \(c\) 递减，确保稳定高效收敛，避免梯度消失或爆炸

实验关键数据¶

主实验¶

模型配置	参数量	FLOPs	平均准确率	对比
LLaMA2-162M	162M	1.88	40.4	基线
ITT ×4-162M	162M	3.29	42.1	+1.7%
LLaMA2-230M	230M	2.87	41.8	-
ITT ×4-230M	230M	3.41	43.9	+2.1%
LLaMA2-466M	466M	4.92	43.6	-
ITT ×4-466M	466M	5.84	45.3	+1.7%

ITT ×4-162M 在 11 个基准上超越 230M Transformer，达到 466M Transformer 96.5% 的性能。

消融实验¶

配置	Eval PPL	说明
ITT ×4 完整	10.25	基线
去掉 RTC	11.02 (+0.77)	最重要组件
去掉 ATR	10.44 (+0.19)	影响效率
去掉 TSE	10.56 (+0.22)	丢失步骤信息
LLaMA2-162M	11.13 (+1.36)	原始基线

弹性推理实验¶

选择比例	FLOPs	PPL
90%, 90%, 90%	4.42	10.27
70%, 70%, 90%	4.04	10.21 (最优)
70%, 70%, 70% (训练)	3.85	10.52
50%, 50%, 50%	3.29	10.47

关键发现¶

数据效率：ITT 仅用 56.8% 的训练数据即可匹配 LLaMA2-162M 的性能，节省 43.2% 训练预算
计算效率：3 步思考仅需 Loop 84% 的计算量，4 步时降至 70%
弹性思考：推理时可灵活调整 token 选择比例，实现性能-效率平衡
路由可视化：约 30%-50% token 接受迭代思考，任务关键 token（动词、语义关键点）更可能多步思考；连续步骤间展现互补思考模式

亮点与洞察¶

概念创新：将 Transformer 层计算重新解读为"内在思考步骤"，巧妙连接了隐式推理与动态计算分配
参数效率极高：不增加任何参数即可显著提升性能，162M 模型可达 466M 模型水平
弹性推理：训练完成后可灵活调整计算分配，适应不同部署场景
路由的互补性：模型自发学会了"深度思考"与"广度补偿"交替的策略
理论支撑：证明了多步优化相比单步映射更容易收敛

局限与展望¶

训练时使用固定路由模式，可能限制对多样 token 复杂度的动态适应
实验仅在 162M-466M 参数规模验证，大规模模型可能出现新的架构交互
RTC 在反向传播时引入额外内存开销，需要工业部署优化
思维步骤编码较简单，更复杂的时序建模可能进一步增强推理深度
与 CoT 等显式推理方法的结合尚未充分探索

评分¶

新颖性: ⭐⭐⭐⭐ 将层计算视为思考步骤的概念新颖，但动态路由思路借鉴了已有工作
实验充分度: ⭐⭐⭐⭐ 三个规模的全面评估、详细消融、弹性推理分析，但缺少大规模验证
写作质量: ⭐⭐⭐⭐ 动机清晰，叙事流畅，图表丰富直观
价值: ⭐⭐⭐⭐ 在参数受限场景下的实用性强，弹性推理特性对部署有价值