跳转至

DiSCo: Device-Server Collaborative LLM-Based Text Streaming Services

会议: ACL 2025
arXiv: 2502.11417
代码: 未开源
领域: LLM 推理系统 / 端云协同
关键词: Device-Server Collaboration, QoE, TTFT, TBT, Token Migration, LLM Serving

一句话总结

提出 DiSCo,一个端-云协同的 LLM 推理调度器,通过成本感知的请求分发和 token 级迁移机制,在成本约束下优化用户的首 token 延迟 (TTFT) 和 token 间延迟 (TBT)。

研究背景与动机

研究问题: LLM 文本流式服务面临严峻的服务质量 (QoE) 和成本挑战。TTFT(首 token 延迟)和 TBT(token 间延迟)是实时交互的关键指标,但现有部署方式难以同时满足。

现有方法的不足: (1) 云端部署成本高昂,受请求排队、批处理竞争和网络延迟影响,TTFT 抖动严重(GPT-4-mini 在高负载时从 0.3s 飙升到数秒);(2) 端侧部署受限于设备资源,长 prompt 的 prefill 慢且能耗高(iPhone 运行 7B 模型仅能持续不到 2 小时)。

核心动机: 观察到云端 TTFT 不可预测但与 prompt 长度弱相关,而端侧 TTFT 可预测且与 prompt 长度线性相关;两种部署的 token 生成速度均超过人类消费速率。利用这种互补特性进行端云协同调度。

方法详解

整体框架

DiSCo 作为中间件,包含两个核心控制器:分发控制器 (Dispatch Controller) 决定请求初始执行端点,迁移控制器 (Migration Controller) 在生成过程中动态切换执行端点。两者共同在成本约束下优化 TTFT 和 TBT。

关键设计

  1. 统一成本模型与感知分发策略: 通过动态汇率 \(\lambda\) 统一云端货币成本和端侧能耗成本。在设备受限场景下,采用等待时间策略:先尝试云端执行,等待 \(w(l)\) 后再启动端侧推理,分两阶段分配预算(尾部保护 + 平均优化)。在服务器受限场景下,根据 prompt 长度阈值 \(l_{th}\) 路由——短 prompt 发送到端侧节省服务器预算,长 prompt 双端并行取最快结果。

  2. Token 级迁移框架: 利用 token 生成速度 \(r_g\) 与人类消费速率 \(r_c\) 之间的差值构建 token 缓冲区 \(B = r_c \times t_m\)。当缓冲区积累足够 token 以覆盖迁移开销时触发迁移,源端点停止生成,目标端点无缝接管。迁移仅在预期成本节省超过迁移开销时执行:\(C_{migration} = \Delta c_{decode} \cdot l_{remaining} > \text{Overhead}_{migration}\)

  3. 高效 Token 传输: 当端点共享词表时传输 token ID 而非完整文本,数据量减少 35-54%;不同词表时先转文本再重新 tokenize。避免传输中间状态(如 KV cache),因端点常使用不同架构。

损失函数/优化目标

优化目标为在成本约束 \(\mathbb{E}[I_d(l)l] \leq b \cdot \mathbb{E}[l]\)\(\mathbb{E}[I_s(l)l] \leq b \cdot \mathbb{E}[l]\) 下,最小化均值和尾部 TTFT,同时维持稳定的 TBT。

实验

主实验结果

在四种商业 LLM 服务(GPT-4o-mini、DeepSeek-V2.5、Cohere Command、LLaMA-3-70b)和三种端侧配置上评估:

平台/模型 约束 尾部 TTFT 降低 (Pixel 7 Pro B-1.1B) 尾部 TTFT 降低 (Xiaomi 14 Q-0.5B)
GPT Server 23.85% 44.04%
GPT Device 26.39% 16.32%
LLaMA Server 11.08% 26.29%
LLaMA Device 35.67% 21.29%
Command Server 47.93% 52.23%
Command Device 34.78% 24.42%

消融实验

维度 结论
迁移机制 设备受限场景成本降低最高 72.7%,服务器受限最高 83.6%
请求到达间隔 在 DiffusionDB 真实工作负载模式下优势持续
迁移对生成质量 三个 LLM 评委 (GPT-4o, Gemini, Qwen) 评估显示质量一致保持
可扩展性 DiSCo-S 在 100K 样本上仅需 9.08ms,DiSCo-D 需 14.86ms

关键发现

  • DiSCo 将均值 TTFT 降低 6-78%,尾部 TTFT 降低 11-52%;迁移机制在保持可比 QoE 的同时最多节省 84% 服务成本。
  • 迁移过程中仅延迟少量 token(平均 3-17 个),相比数百上千的生成长度可忽略不计,TBT P99 不受影响。
  • 端侧 TTFT 和 TBT 的稳定性显著优于云端,为协同策略提供了可靠的预测基础。

亮点

  • 首次提出端-云协同的 LLM 推理调度范式,而非简单的路由分流。
  • Token 级迁移机制利用生成-消费速度差实现无感知切换,设计巧妙。
  • 基于真实商业 LLM 服务(GPT、DeepSeek 等)的大量实测数据支撑结论。

局限性

  • 聚焦于端侧 LLM 已达到足够精度的应用场景(如聊天、翻译),不适用于复杂推理任务。
  • 设备能耗使用基于 FLOPs 的线性模型,实际能耗受电池状态、温度等因素影响更复杂。
  • 仅考虑单设备场景,多设备协同带来的协调开销和资源分配问题未探讨。
  • 未考虑隐私保护问题,假设用户接受数据在端云之间传输。

相关工作

  • LLM 端云协同: EdgeShard (Zhang et al., 2024) 和 WDMoE (Xue et al., 2024) 将模型分片跨端点部署;LLMCad (Xu et al., 2023) 用端侧模型降低服务器成本。
  • LLM 路由: Ong et al. (2024) 和 Ding et al. (2024) 基于请求复杂度路由到不同模型,但不优化 token 交付指标。
  • LLM 推理优化: vLLM (Kwon et al., 2023) 和 Sarathi-Serve (Agrawal et al., 2024) 优化服务端吞吐-延迟权衡。

评分

维度 分数 (1-10)
创新性 8
实用性 9
实验充分度 8
写作质量 7
总体评分 8