CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration¶

会议: ICLR2026
OpenReview: YzZ4pSAwZy
代码: 待确认
领域: 图像生成 / 自回归图像 / 端云协同推理加速
关键词: 自回归图像生成, 推测解码, 端云协同, 不确定性量化, 概率区间

一句话总结¶

CIAR 把自回归图像生成的推测解码搬到端云协同框架里，用一个设备端的「区间头」(Inter-Head) 输出每个视觉 token 的连续概率区间来量化不确定性，让低不确定区域在设备本地直接生成、只把高不确定的边界细节 token 连同区间特征上传云端核验，配合 Inter-DRO 对齐训练，实现 2.18× 加速并把云端请求量砍掉 70%，同时几乎不掉画质。

研究背景与动机¶

领域现状：自回归 (AR) 图像生成模型（LlamaGen、Anole 等）把图像切成离散 token，用「下一个 token 预测」的方式逐个生成，画质已经能和扩散模型掰手腕。但它们靠越来越大的视觉码本 (codebook) 来保真，参数量和逐 token 串行的特性让它们在手机这类端侧设备上跑起来又慢又重。一个自然的思路是端云协同：设备上放一个轻量 AR 模型快速产 token，云端放一个大模型并行核验，本质就是把文本里的推测解码 (speculative decoding) 搬到视觉上。

现有痛点：把推测解码直接套到图像上有两个致命问题。第一是核验开销爆炸——图像 token 数随分辨率二次增长，逐 token 全量上传云端核验会让网络通信成为瓶颈，反而抵消了云端的算力优势，还烧通信和云端成本。第二是统一核验策略太蠢——传统做法对图像每个区域一视同仁地核验，但图像的不确定性在空间上极不均匀：背景、平滑表面这类低熵区域高度可预测、几乎都会被云端原样接受（作者实测约 70% 的 token 设备端贪心选的就是云端要的），而物体边界、复杂纹理这类区域才是错误高发地。统一核验把算力浪费在「本来就对」的 token 上，又没把火力集中到真正不确定的地方。

核心矛盾：要省云端请求就得让设备多本地决策，但设备自己怎么知道哪些 token 可以放心本地生成、哪些必须求助云端？现成的熵 (entropy) 度量在这里失灵：视觉码本巨大导致概率分布很平、熵区分度差，且熵是个标量、忽略空间上下文，掩盖了真正的歧义。另一边，设备一旦本地确定了一段前缀，它的条件分布会逐渐偏离云端模型的期望 (distribution drift)，越往后生成越跑偏。

本文目标：(1) 给设备一个对大视觉码本有效、又便宜的不确定性度量来做自验证；(2) 在设备大量本地生成时，把设备和云端的分布拉回一致，防止漂移损坏画质。

切入角度：作者观察到视觉 token 的不确定性是「连续」的——与其在离散解集上枚举可行解（代价随码本指数级膨胀），不如直接为每个 token 输出一个连续的概率上下界区间，用区间的「宽度」来刻画不确定性。

核心 idea：用一个轻量的区间头 (Inter-Head) 给每个 token 输出连续概率区间 \([p^l_t, p^u_t]\)，靠区间宽度算出不确定性分数来决定「本地接受 or 上传云端」，并把区间特征注入云端核验、用 Inter-DRO 损失对齐两端分布。

方法详解¶

整体框架¶

CIAR 是一个端云协同的自回归视觉解码框架，目标是在设备本地尽可能多地生成 token、只把少数高不确定 token 交给云端。整条流水线是：云端 AR 大模型先根据文本 prompt 生成一小段图像 token 前缀 (Prefix Injection) 注入设备做锚点；设备上的轻量 AR 模型带一个 Inter-Head，逐 token 产出连续概率区间，并据此算出一个不确定性分数 \(U(P_t)\)；分数低于动态阈值的 token 被设备「自验证」通过、本地直接采纳，分数高的 token 则连同它的区间特征一起上传云端；云端在核验/重采样时把这个区间特征注入自己的解码器 (Interval-enhanced Decoding)，校正后回传，从而抑制分布漂移、守住边界细节画质。整套机制由 Inter-DRO 对齐训练支撑，让结构不同的 Inter-Head 输出能和云端分布对齐。最终落到 VQ 解码器还原图像。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["文本 prompt"] --> B["Prefix Injection<br/>云端预生成 token 前缀做锚点"]
    B --> C["Inter-Head 区间不确定性量化<br/>每个 token 输出概率上下界 [p^l,p^u]"]
    C --> D["不确定性分数 U(Pt) + 动态阈值<br/>总模糊体积 × 置信离散度"]
    D -->|分数低·本地接受| F["VQ 解码器还原图像"]
    D -->|分数高·上传区间特征| E["Interval-enhanced Decoding<br/>区间特征注入云端核验"]
    E --> F
    G["Inter-DRO 对齐训练<br/>区间感知 DRO 拉齐两端分布"] -.训练.-> C
    G -.训练.-> E

关键设计¶

1. Inter-Head：用连续概率区间替代离散解集来量化不确定性

针对「大视觉码本上熵度量失灵、且离散枚举代价随码本指数膨胀」这个痛点，Inter-Head 把标准 LM Head 的输出维度从 \(|V|\) 扩成 \(2\times|V|\)，对每个 token 的隐藏态 \(h_t\) 同时预测一个中心 logit 和一个半径：\(c_t = \text{Linear}_{center}(h_t)\)，\(r_t = \text{Softplus}(\text{Linear}_{radius}(h_t))\)。Softplus 保证半径 \(r_t\) 严格非负，于是得到一个 logit 区间 \([c_t - r_t,\, c_t + r_t]\)。再经过一个 InterFuse 算子映射成合法的概率区间 \(P_t = [p^l_t, p^u_t]\)，并保证它满足有效解集性质 \(\sum_i p^l_i \le 1 \le \sum_i p^u_i\)（即下界之和不超过 1、上界之和不小于 1）。这样做的妙处在于：它保留了视觉 token 分布的连续性、给出比标量熵更细的不确定性刻画，同时把原本需要在离散解集上枚举可行解的指数级开销，降成一次前向就能得到的区间估计——这正是后文实验里相对离散方法大幅降延迟的来源。

2. 不确定性分数 \(U(P_t)\)：总模糊体积 × 置信离散度，再配动态阈值做自验证

光有区间还不够，得把区间压成一个标量来决策。作者发现：token 的不确定性既随区间「总宽度」上升，也随各维区间宽度的「离散程度」上升——简单取平均会丢掉后者。于是设 \(\delta_t = p^u_t - p^l_t \in \mathbb{R}^{|V|}_{\ge 0}\) 为各维区间宽度向量，定义不确定性分数为「总模糊体积」(Total Ambiguity Volume) 和「置信离散度」(Confidence Disparity) 的乘积：

\[U(P_t) = \underbrace{\lVert \delta_t \rVert_1}_{\Omega_t:\,总模糊体积} \cdot \underbrace{\sqrt{\frac{1}{|V|}\sum_{i=1}^{|V|}\left(\delta_{t,i} - \bar{\delta}_t\right)^2}}_{\Sigma_t:\,置信离散度}\]

其中 \(\bar{\delta}_t\) 是宽度均值，前一项是宽度的 L1 范数、后一项是宽度的标准差。用乘积而非加和，意味着只有当「总模糊量大」且「各维宽度差异也大」时分数才高，对真正歧义的 token 更敏感、对均匀平铺的低熵区域不敏感。这个分数再喂给一个动态阈值策略做最终的接受判定：分数低于阈值的 token 设备本地自验证通过（实验里阈值 0.30 是速度/画质的最优点），高于阈值的才上传云端。这一设计把「该不该信任本地预测」从拍脑袋变成了可量化、可调的旋钮。

3. Cloud-Enhanced Decoding：前缀注入打底 + 区间特征注入云端核验

这个模块专治分布漂移，由两部分组成。前缀注入 (Prefix Injection)：生成早期设备上下文太少容易偏离目标分布，于是云端先预生成长度 \(m = \lfloor \rho \cdot T \rfloor\) 的短前缀（\(\rho\) 为前缀率）注入设备做高质量锚点，约束本地生成。\(\rho\) 是个 trade-off——大了对齐更好但云端延迟高，小了更快但引导弱，实验里 \(\rho \approx 0.06\) 最平衡。区间特征注入 (Interval Feature Injection)：对每个本地接受的 token \(x_{t+i}\)，把它的隐藏态 \(f_{t+i}\) 和区间 \(P_{t+i}\) 拼起来过一个轻量投影网络 \(\phi\)，得到紧凑的区间特征 \(f^I_{t+i} = \phi(\text{Concat}(f_{t+i}, P_{t+i})) \in \mathbb{R}^d\)。云端核验/重采样时把这个特征加进解码器输入：\(h^C_{t+i+1} = \text{Decoder}^C\big(E(x_{t+i}) + f^I_{t+i}\big)\)。也就是说，云端不只看 token embedding，还看到了设备对这个 token 「有多大把握」的结构化信息，从而把设备的置信度作为「可执行情报」来主动引导云端生成、防止误差累积、维持视觉连续性。

4. Inter-DRO Loss：区间感知的分布鲁棒优化对齐两端分布

Inter-Head 的结构和云端输出层不同、没法直接共享参数，所以需要一个训练策略同时保证「区间估计准确」和「与云端分布对齐」。作者注意到：同时优化一个乐观上界和一个悲观下界，本质上很像「在最坏情况下也要表现好」的分布鲁棒优化 (DRO) 哲学，于是把下界 \(q^L\) 当作最坏情况来处理。损失由三部分拼成。先是把上/下界 logits 都往云端输出 \(p_{cloud}\) 拉的锚定损失 \(\mathcal{L}_{anchor} = \lambda_v \lVert p - p_{cloud}\rVert_1 + \lambda_p \text{CE}(p_{cloud}, p)\)。对代表最坏情况的下界，再叠一个 DRO 的对抗重加权：batch 里越难预测（损失越大）的样本权重越大，\(\mathcal{L}^{DRO}_{lo} = \max_{w}\sum_n w_n \text{CE}(p^{(n)}_{cloud}, p^{(n)}_{lo})\)，权重 \(w_n \propto \exp(\alpha\,\text{CE})\) 由每样本风险算出。对中心预测 \(p_{mid}\) 则额外加一个 KL 散度项强约束分布对齐：\(\mathcal{L}_{align} = \lambda_\beta D_{KL}(p_{cloud}\Vert p_{mid})\)。完整损失为 \(\mathcal{L}_{\text{Inter-DRO}} = \big[\mathcal{L}_{anchor}(p_{mid}) + \mathcal{L}_{align}\big] + \mathcal{L}_{anchor}(p_{up}) + \big[\mathcal{L}_{anchor}(p_{lo}) + \mathcal{L}^{DRO}_{lo}\big]\)，分别对应中心、上界、下界 DRO 三块。整个训练还兼容 Classifier-Free Guidance (CFG) 来提升多样性。

损失函数 / 训练策略¶

核心训练目标即上面的 Inter-DRO 损失，三段式地约束区间中心（KL + 锚定）、上界（锚定）、下界（锚定 + 对抗重加权 DRO）。设备端模型用与云端相同的架构但只保留单个自回归层以省算力；训练兼容 CFG。

实验关键数据¶

主实验¶

在 LlamaGen-XL (Stage I / II) 和 Anole 三个云端模型上、用 MS-COCO 验证集 caption 生成图像评测，设备端为单层 AR。对比 EAGLE-2、Lantern、Entropy-Lens、CoDe 等推测解码/协同加速基线。

云端模型	方法	CLIP↑	FID↓	F1↑	HPSv2↑	Latency↓	Cloud Call↓
LlamaGen(I)	Base	0.3161	23.69	0.6097	22.74	×1.00	100%
LlamaGen(I)	Lantern	0.3159	25.55	0.5834	21.29	×1.66	50.11%
LlamaGen(I)	CoDe(N=0.3)	0.2827	35.67	0.4625	18.08	×2.04	30.00%
LlamaGen(I)	CIAR	0.3159	24.25	0.5997	22.48	×2.53	30.44%
LlamaGen(II)	Base	0.2822	40.07	0.5350	23.84	×1.00	100%
LlamaGen(II)	CIAR	0.2927	39.31	0.5458	23.26	×2.13	34.46%
Anole	Base	0.3215	19.95	0.6544	23.52	×1.00	100%
Anole	CIAR	0.3171	23.86	0.5970	23.14	×1.87	29.88%

注：摘要给出的 2.18× 加速 / 砍 70% 云端请求是相对 SOTA 推测解码方法的综合结论；表中 Latency 列在不同骨干上加速比有差异（LlamaGen Stage I 上达 ×2.53）。CIAR 在大幅降延迟、把云端请求压到 ~30% 的同时，CLIP/FID/F1 仍与 Base 持平甚至更优，而 CoDe 这类纯靠小模型续写的方法画质明显塌（FID 升到 35+、CLIP 掉到 0.28）。

消融实验¶

不确定性度量方式对比（LlamaGen Stage I）：

方法	CLIP↑	FID↓	F1↑	HPSv2↑	Speedup	Cloud Call
Random	0.3142	30.19	0.5369	18.16	×2.28	36.46%
Entropy-Lens	0.3132	24.58	0.5796	22.03	×1.70	52.34%
SoftmaxCorr	0.3149	31.10	0.5130	19.11	×2.27	36.49%
Inter-Head(Ours)	0.3159	24.25	0.5997	22.48	×2.53	30.44%

连续 vs 离散不确定性估计（LlamaGen Stage I）：

方法	设置	CLIP↑	FID↓
Discrete	k=100	0.3081	26.04
Discrete	k=300	0.3123	24.82
Continuous(Ours)	—	0.3176	24.25

关键发现¶

Inter-Head 是核心增益来源：换成 Random / Entropy-Lens / SoftmaxCorr，要么 FID 大幅恶化（Random/SoftmaxCorr 把质量打到 30+ FID、HPSv2 掉到 18-19），要么云端请求降不下来（Entropy-Lens 还要 52% 云端调用）。标量熵或单 token 最大概率都不足以刻画视觉 token 的空间异质不确定性，而 Inter-Head 从整个分布评估，质量/效率双赢。
连续区间显著优于离散枚举：离散方法随码本 \(k\) 增大延迟指数级膨胀（图 5），质量却只有边际提升；连续区间在 \(k=100\) 处就比离散大幅降延迟，且 CLIP/FID 更好。
前缀率非单调：前缀率越高画质越好、云端核验越少，但云端预生成本身的开销会抵消收益，加速比呈非单调，\(\rho=0.06\) 最优；不确定性阈值 0.30 是速度/画质最优工作点。
文本推测解码搬到图像几乎无效：图像 token 分布一致性强、信息多样性远低于文本，直接套 EAGLE-2 几乎不加速还掉画质。

亮点与洞察¶

「连续概率区间」替代「离散解集枚举」：这是最巧的一刀——把不确定性量化从「在大码本上枚举可行解（指数级）」变成「一次前向出上下界区间」，既保留视觉分布的连续性，又把开销压到可端侧部署，是全文加速的根。
不确定性分数用乘积而非加和：总模糊体积 × 置信离散度，强制「量大且分散」才算高不确定，巧妙避开了熵在平坦大码本上区分度差的老问题，这个 metric 设计可迁移到任何「大词表 + 空间冗余」的离散生成任务（如视频 token、点云 token）。
把设备置信度做成「可注入的特征」：区间特征注入让云端不只看 token、还看到设备「有多大把握」，相当于给云端核验加了一路旁路情报，这种「轻端把结构化不确定性回传重端」的协同范式很有迁移价值。
用 DRO 视角统一上下界训练：把「同时优化乐观上界 + 悲观下界」类比成 DRO 的最坏情况鲁棒优化，给了一个干净的训练目标，下界对抗重加权让难样本得到更多关注。

局限与展望¶

强依赖端云连接：框架本质是云端兜底高不确定 token，离线或弱网场景下无法享受云端核验，可能退化为纯设备贪心（论文里已显示纯本地贪心细节会糊）。
超参敏感：前缀率 \(\rho\)、不确定性阈值都需调到甜点（0.06 / 0.30），且加速比对 \(\rho\) 非单调，换骨干/分辨率可能要重调。
评测局限：实验集中在 MS-COCO caption + LlamaGen/Anole，分辨率和码本规模有限；更高分辨率下「token 二次增长」带来的通信瓶颈是否仍被有效缓解，缺更大规模验证。
InterFuse 与有效性证明依赖附录：InterFuse 算子的具体形式、概率区间合法性证明放在附录，正文对「区间如何精确映射成合法概率」交代偏简（⚠️ 细节以原文附录 A.4 为准）。
可改进方向：把动态阈值/前缀率做成随生成进度或区域语义自适应的策略，可能进一步逼近 speed–quality 前沿。

评分¶

新颖性: ⭐⭐⭐⭐ 「连续概率区间量化视觉 token 不确定性 + 端云协同自验证」是个干净且少见的组合，区间分数与 Inter-DRO 都有巧思。
实验充分度: ⭐⭐⭐⭐ 三骨干 + 多基线 + 度量/连续离散/前缀率/阈值多组消融较扎实，但仅限 MS-COCO、未上更高分辨率/更大码本。
写作质量: ⭐⭐⭐⭐ 动机链条清晰、图 2 总览到位；个别记号（InterFuse、\(\mathcal{L}_c\) 与各损失下标）需对照附录才完全自洽。
价值: ⭐⭐⭐⭐ 端侧自回归图像生成加速是真实需求，2.18× 加速 + 砍 70% 云端请求且不掉画质，落地价值明确。