DSSD: Efficient Edge-Device LLM Deployment and Collaborative Inference via Distributed Split Speculative Decoding¶
会议: ICML2025
arXiv: 2507.12000
作者: Jiahong Ning, Ce Zheng, Tingting Yang
代码: JasonNing96/DSSD-Efficient-Edge-Computing
领域: LLM效率
关键词: 推测解码, 边缘计算, LLM部署, 设备-边缘协作, 通信优化, 分布式推理
一句话总结¶
提出分布式拆分推测解码(DSSD)框架,将推测解码的验证阶段拆分到设备端和边缘端,用一次下行传输(LLM的单个词表分布)替代多次上行传输(SLM的\(\gamma\)个词表分布),在保持推理质量不变的前提下大幅降低通信延迟。
研究背景与动机¶
问题背景¶
大语言模型(LLM)在对话代理、机器翻译、代码生成等领域表现出色,但在实际部署中面临两难困境: - 设备端:内存、电量和算力严重受限,无法运行完整LLM - 云端:网络延迟不可预测,用户移动性导致连接中断,影响服务连续性 - 设备-边缘协作:在设备部署小语言模型(SLM),在基站/边缘服务器部署LLM,通过推测解码实现高效协作推理
已有工作的不足¶
Ding et al. (2024):基于查询难度路由的方案,通过将简单查询分配给SLM来降低成本,但牺牲了LLM推理精度
Hao et al. (2024):基于token概率阈值的草稿-验证方法,在性能和成本间做权衡,同样无法保证LLM级别的推理质量
Zhao et al. (2024) 的分布式推测解码(DSD):首次提出将草稿模型放设备端、目标模型放边缘端的分布式架构,但每个token都需要上行传输完整的词表概率分布给基站验证,通信载荷与词表大小\(|\mathcal{V}|\)线性相关,成为严重瓶颈
Oh et al. (2024):提出跳过高接受概率token的上行传输和LLM推理,提升token吞吐量,但依然牺牲推理精度
核心动机¶
现有分布式推测解码的根本问题在于:验证阶段完全在边缘端执行,设备必须将SLM生成的所有\(\gamma\)个词表分布(每个维度\(|\mathcal{V}|\))通过上行链路传输到基站。上行带宽通常远小于下行带宽,这成为延迟的主要来源。能否重新设计验证阶段的计算分配,将通信从"多次上行"转为"单次下行"?
方法详解¶
整体框架¶
DSSD延续设备端部署SLM(\(M_q\))、边缘端部署LLM(\(M_p\))的基本架构,但对推测解码的验证阶段进行了关键性的拆分重构。整个流程分为以下几个阶段:
- 草稿阶段(设备端):SLM自回归生成\(\gamma\)个候选token \(x_1, x_2, \ldots, x_\gamma\),同时保留每个token对应的词表概率分布\(Q_i(x)\)
- 上行传输(精简版):设备仅向基站发送\(\gamma\)个token的词表索引(而非完整概率分布),通信载荷从\(\gamma \times |\mathcal{V}|\)降至\(\gamma \times \lceil\log_2|\mathcal{V}|\rceil\)
- 边缘端部分验证:LLM根据前缀和接收到的token计算\(\gamma+1\)个分布\(P_1(x), \ldots, P_{\gamma+1}(x)\),但不执行完整验证
- 下行传输:边缘端仅需向设备发送一个关键的词表分布
- 设备端完成验证:设备端利用本地保留的SLM分布\(Q_i(x)\)和接收到的LLM分布,在本地完成token的接受/拒绝判断和重采样
关键设计:验证阶段的拆分¶
在标准推测解码中,验证过程需要同时访问SLM分布\(Q_i(x)\)和LLM分布\(P_i(x)\)来进行接受-拒绝采样: - 对每个草稿token \(x_i\),以概率\(\min\left(1, \frac{P_i(x_i)}{Q_i(x_i)}\right)\)接受 - 若被拒绝,从修正分布\(\text{norm}\left(\max(0, P_i(x) - Q_i(x))\right)\)重采样
在DSD中,\(Q_i(x)\)在设备端生成,\(P_i(x)\)在边缘端生成,因此必须将\(Q_i(x)\)上传,导致巨大的上行通信开销。
DSSD的核心创新在于重新分配验证计算: - SLM分布\(Q_i(x)\)始终留在设备端,不需要上传 - 仅需从边缘端下行传输LLM的分布信息到设备端 - 设备端利用本地的\(Q_i(x)\)和接收到的\(P_i(x)\)在本地完成验证
这一设计利用了一个关键的不对称性:上行带宽远小于下行带宽。DSSD将通信方向从上行反转为下行,并将传输量从\(\gamma\)个分布减少为1个分布,实现了双重优化。
通信开销分析¶
| 方案 | 上行传输量 | 下行传输量 | 总传输量级 |
|---|---|---|---|
| DSD (Zhao et al.) | \(\gamma \times \|\mathcal{V}\|\) (SLM分布) + token索引 | 验证结果 | \(O(\gamma \cdot \|\mathcal{V}\|)\) |
| Oh et al. (2024) | 部分SLM分布(跳过部分传输) | 验证结果 | \(O(k \cdot \|\mathcal{V}\|), k \leq \gamma\) |
| DSSD(本文) | 仅token索引 \(\gamma \times \lceil\log_2\|\mathcal{V}\|\rceil\) | 单个LLM分布 \(\|\mathcal{V}\|\) | \(O(\|\mathcal{V}\|)\) |
DSSD将通信复杂度从\(O(\gamma \cdot |\mathcal{V}|)\)降低到\(O(|\mathcal{V}|)\),减少了\(\gamma\)倍(\(\gamma\)为草稿长度,通常为3-10)。
推理质量保证¶
DSSD的输出分布与标准推测解码完全一致,即与直接使用LLM自回归解码等价。这是因为验证阶段的接受-拒绝机制在数学上保持不变,只是计算位置从边缘端移到了设备端。因此,DSSD在降低通信成本的同时不牺牲任何推理精度。
与草稿长度优化的结合¶
DSSD与草稿长度\(\gamma\)的优化是正交的。可以进一步结合Zhao et al. (2024)提出的自适应\(\gamma\)优化策略,在最小化端到端延迟的同时适配不同的网络条件和任务场景。
实验关键数据¶
端到端延迟对比¶
| 方法 | 推理质量 | 上行通信开销 | 端到端延迟 | 关键特点 |
|---|---|---|---|---|
| DSD (Zhao et al., 2024) | 保持LLM质量 | 高(\(\gamma\)个词表分布) | 基线 | 完整SD验证在边缘端 |
| Oh et al. (2024) | 有损 | 中(跳过部分传输) | 较低 | 牺牲精度换延迟 |
| Ding et al. (2024) | 有损 | 低 | 低 | 查询路由,部分用SLM |
| DSSD(本文) | 保持LLM质量 | 极低(仅token索引) | 最低 | 验证拆分,下行替代上行 |
通信效率提升分析¶
| 词表大小 | 草稿长度 \(\gamma\) | DSD上行载荷 | DSSD上行载荷 | DSSD下行载荷 | 通信减少比 |
|---|---|---|---|---|---|
| 32,000 | 3 | 96,000 floats | 3 indices | 32,000 floats | ~3x |
| 32,000 | 5 | 160,000 floats | 5 indices | 32,000 floats | ~5x |
| 32,000 | 10 | 320,000 floats | 10 indices | 32,000 floats | ~10x |
| 128,000 | 5 | 640,000 floats | 5 indices | 128,000 floats | ~5x |
当考虑上下行带宽不对称(上行通常为下行的1/3到1/10)时,实际延迟减少更为显著。
亮点与洞察¶
- 通信方向反转的巧妙设计:将验证所需的信息流从"上行发送SLM分布"反转为"下行接收LLM分布",巧妙利用了移动通信网络上下行带宽不对称的物理特性
- 无损推理质量:与其他追求低延迟的方案(如跳过验证、查询路由)不同,DSSD严格保持推测解码的数学等价性,输出分布与LLM自回归解码完全一致
- 传输量从线性到常数:将传输次数从\(\gamma\)次降为1次,通信复杂度与草稿长度解耦,使得更长的草稿序列成为可能而不增加通信负担
- 框架的通用性:DSSD可以与现有的草稿长度优化、自适应推测解码等策略正交组合使用
- 实用性强:方案不需要修改SLM或LLM的模型结构,仅改变通信协议和验证计算的分配
局限与展望¶
- 设备端验证计算开销:将部分验证移到设备端增加了设备的计算负担,对于极度资源受限的终端设备(如IoT传感器)可能不适用
- 单次下行传输的假设:论文假设仅需传输一个LLM分布即可完成验证,实际上对于某些验证策略可能需要额外信息交换
- 词表压缩未探索:下行传输的\(|\mathcal{V}|\)维分布仍然较大,可以结合词表剪枝或Top-K稀疏化进一步压缩
- 多轮通信未考虑:仅分析单轮推测解码的通信效率,未考虑多轮对话场景下的KV Cache同步和状态管理
- 实验规模有限:论文中模型规模和场景覆盖有待扩展,缺乏真实移动网络环境下的部署验证
- 安全性与隐私:设备端保留SLM分布可能涉及模型知识产权保护问题,需要进一步分析
相关工作与启发¶
- Leviathan et al. (2023), Chen et al. (2023):推测解码的奠基工作,提出草稿-验证范式,本文在分布式场景下继承其核心接受-拒绝机制
- Zhao et al. (2024) DSD:首个分布式推测解码架构,将草稿模型和目标模型分别部署在设备和边缘端,但通信瓶颈未解决
- Oh et al. (2024):通过跳过高概率token的传输来降低通信开销,但牺牲推理精度
- Ding et al. (2024):基于查询路由的协作推理,简单查询交给SLM处理,复杂查询交给LLM,不保证LLM级推理质量
- Hao et al. (2024):引入成本感知的草稿-验证方法,但性能-成本权衡不可避免
- Shao & Li (2025):设备-边缘协作推理的通信优化,与本文均关注通信效率但技术路线不同
对后续研究的启发¶
- 验证阶段的拆分思想可推广到其他分布式推理场景(如联邦推理、多设备协同)
- 上下行带宽不对称性是移动场景设计的重要考量,未来工作可结合5G/6G网络特性进一步优化
- 推测解码与边缘计算的结合是LLM普适化部署的重要方向
评分¶
- 新颖性: ⭐⭐⭐⭐ — 验证阶段拆分和通信方向反转的设计思路新颖实用
- 实验充分度: ⭐⭐⭐ — 实验验证了核心主张,但缺乏大规模真实部署验证
- 写作质量: ⭐⭐⭐⭐ — 问题建模清晰,系统架构描述详尽,动机阐述到位
- 价值: ⭐⭐⭐⭐ — 解决了分布式LLM推理中的实际通信瓶颈,对边缘AI部署有直接参考价值