ConFu: Contemplate the Future for Better Speculative Sampling¶

会议: ICLR 2026
arXiv: 2603.08899
代码: 待确认
领域: 模型压缩
关键词: speculative decoding, contemplate tokens, future prediction, MoE, draft model, EAGLE

一句话总结¶

提出 ConFu，在推测解码的 draft model 中引入 contemplate tokens 让其预见 target model 的未来生成方向，结合 MoE 动态机制和锚点采样训练，在 EAGLE-3 基础上提升 8-11% 的接受率和生成速度。

推测解码范式：用轻量 draft model 提议候选 token 序列，由 target model 单次前向验证，通过批量接受加速推理。核心指标是 token 接受率和端到端加速比

EAGLE 系列是当前 SOTA：EAGLE-1/2/3 逐步改进 draft head 架构（单层 Transformer + target model 隐状态），设置了推测解码的最高基线

核心问题——误差累积：现有 draft model 仅基于当前前缀条件生成，随着 draft 步数增加，误差从上游 draft token 传播累积，draft 分布逐渐偏离 target 分布，接受率下降

关键 insight：如果 draft model 能获得 target model 当前的"思路方向"——即高层语义意图而非具体 token——就能生成更符合 target 轨迹的候选，减少验证拒绝

Latent reasoning 启发：COCONUT 等工作表明 LLM 可生成连续"思考 token"作为中间推理状态，但需多次前向传播代价高。Pause token (Goyal et al.) 可在并行计算中"免费"获得额外计算

在 target model 输入前插入可学习 soft prompt tokens（KV cache 维度），末尾附加 contemplate token
注意力掩码限制：仅 contemplate tokens 可 attend to soft prompts，不影响原始前缀表征
Contemplate token 的隐状态编码 target model 的"中间思想"→作为 future token \(\mathbf{f}\) 提供给 draft model
验证阶段：在 draft tree 每个节点插入一个 contemplate token，并行验证+生成未来预测。接受后选择对应的 future prediction 传递下一迭代
计算开销：验证时处理 \(2T\) 个 token（原 \(T\) 个 draft node + \(T\) 个 contemplate token），\(T\) 通常 30-60

静态 contemplate embedding 对多样化上下文不足。数学推理需"接下来的等式是"，创意写作需"这段讲的是"
用 MoE 参数化 contemplate token embedding：以最新接受 token 的隐状态为输入，线性 router 选择 top-K experts 的加权组合
[con]（target 端）和 [f]（draft 端）各有独立的 MoE 模块
首次在 pause token 设置中引入动态性

Anchor Token Sampling：随机采样 \(K_{train}\) 个锚点 token 插入 contemplate token，序列长度从 \(2N\) 降到 \(N + K_{train}\)
Future Prediction Replication：锚点的 future prediction 复用给临近 \(l\) 个 token，增强鲁棒性和样本效率
损失函数：KL 散度对齐 target 和 draft 的输出分布，无需额外辅助损失