WarmServe:一次加载多模型的 GPU 预热机制¶
会议: ICML 2026
arXiv: 2512.09472
代码: https://github.com/LLMServe/WarmServe
领域: LLM 效率 / 多模型服务
关键词: GPU 预热, 多 LLM 服务, 工作负载预测, 冷启动, 资源效率
一句话总结¶
WarmServe 通过分析 LLM 服务工作负载的长期周期性规律,主动将多个模型参数预加载到 GPU,配合优化的放置算法和动态 KV 缓存预留策略,使系统能在请求突发时快速启动新实例——尾部 TTFT 相比现有系统降低 50.8 倍。
研究背景与动机¶
领域现状:多 LLM 服务系统需在共享 GPU 集群中并发部署多模型以提高资源利用率。主流方案有两类——(1)自动扩展:根据当前负载动态创建实例但冷启动延迟大;(2)GPU 共享:在同一 GPU 上并置多模型但严重受限 KV 缓存容量。
现有痛点:自动扩展在请求突发时需现场加载模型参数,导致严重 TTFT;GPU 共享虽避免初始化延迟,但每个模型分到的 KV 缓存极少。
核心矛盾:现有系统缺乏对未来工作负载特征的感知——自动扩展只能被动响应,GPU 共享的放置策略必须随时间保持稳定。
关键观察:虽然短期请求到达具有随机性,但实际生产环境中 LLM 服务的长期统计特性表现出强周期性——峰值负载在 5 分钟窗口内可以以平均 7.3% 相对误差精度预测。
切入角度:充分利用这种可预测性,采用主动式预热策略——在预测到未来负载突增前主动将备用模型副本加载到空闲 GPU 上。
核心 idea:引入"一次加载多模型"机制——将多个模型参数同时加载到单个 GPU 内存中;某模型遇请求突发时立即利用已预热参数启动活跃实例,然后快速驱逐其他模型参数。驱逐权重比按需加载快得多。
方法详解¶
整体框架¶
GPU 集群工作节点分三类——空闲(idle)、通用(universal)、专用(dedicated)。系统在空闲节点上预热多 LLM 转为通用节点;某预热模型收突发请求时该节点升级为专用节点同时驱逐其他模型;也允许在专用节点的未用 KV 缓存空间预热。
关键设计¶
-
工作负载预测(Corrective Seasonal Predictor, CSP):
- 功能:基于历史数据预测下个时间窗口内各模型的平均/峰值负载。
- 核心思路:结合季节性模式 \(P_{k,i} = \frac{1}{D}\sum_{d=1}^{D}L_{k-d,i}\) 和修正项 \(\Delta_{k,i} = \frac{\sum_{w=1}^{\min(i,N)}(L_{k,i-w}-P_{k,i-w})\cdot 2^{w-1}}{2^{\min(i,N)}-1}\),最终预测 \(\hat{L}_{k,i} = P_{k,i} + \Delta_{k,i}\)。修正项对最近误差给予更高权重。
- 设计动机:LLM 工作负载虽短期不可预测但长期呈现周期性;加入修正项能快速适应当前趋势,达到 92.7% 预测精度。
-
模型放置算法:
- 功能:决定哪些模型副本需预热及放置在哪些 GPU,最小化跨模型预热干扰。
- 核心思路:为每个待预热副本计算优先级分数(基于预期负载与当前实例数差距、冷启动延迟等),按分数降序排列。对每个副本贪心选择最优 GPU 组——优先选高分数副本能被保护(不被低分数副本驱逐)的 GPU 组。
- 设计动机:LLM 跨多 GPU 分布(张量并行),单 GPU 释放会连锁驱逐多模型形成"跨模型干扰";放置算法通过优先级隔离确保重要模型不被次要模型破坏。
-
主动预热 + KV 缓存预留:
- 功能:在负载下降、模型实例即将释放前,利用该实例未用 KV 缓存空间提前加载新模型参数。
- 核心思路:自动扩展器检测到负载下降要关闭某些实例时,这些实例通常还有充足未用 KV 缓存;系统计算所需保留的 KV 缓存为 \(R = \max(C \cdot Q/B, T + C/B)\),超出部分可用于预热,空间不足时动态驱逐预热权重。
- 设计动机:LLM 检查点超大(128GB+),传统预热在短暂窗口内常失败;通过在即将释放的 GPU 上"潜伏式"预加载,将 I/O 拉长到 GPU 仍在运行时的闲置期。
实验关键数据¶
主实验¶
| 系统 | P95 TTFT(s) | P99 TTFT(s) | 相对改进 | 最大 RPS |
|---|---|---|---|---|
| SLLM-GPU | 1.23 | 3.45 | - | 10 |
| MuxServe | 0.89 | 2.34 | - | 6 |
| WarmServe(无主动预热) | 0.18 | 0.31 | 6.8×-11.1× vs SLLM | 20 |
| WarmServe(完整) | 0.17 | 0.29 | 7.2×-11.9× vs SLLM / 5.2× vs MuxServe | 25 |
在 15 RPS、\(\alpha\)=0.5 设置下,WarmServe 相比 SLLM-GPU 实现 1.53-50.79× P99 TTFT 降低。
消融实验¶
| 配置 | 100ms 内 TTFT 比例 | 说明 |
|---|---|---|
| 完整模型 | 100% | baseline |
| 去掉模型预热 | 15% | 性能崩溃 |
| 去掉放置算法 | 29% | 干扰剧增 |
| 去掉主动预热 | 88% | 仍改进但比完整差 32.87× |
| 预热窗口 3 分钟 | 46% | 窗口过小预测不稳定 |
| 预热窗口 40 分钟 | 30% | 窗口过大无法捕捉短期变化 |
关键发现¶
- 模型预热提供数十倍 TTFT 改进。
- 主动预热策略带来改进最显著(高达 32 倍)。
- 放置算法在高负载下防止模型干扰雪崩。
- 5 分钟预热窗口最优。
- 工作负载预测:5 分钟窗口下平均负载预测精度 94.7%,峰值 92.7%。
亮点与洞察¶
- 发现 LLM 工作负载的长期周期性:打破"LLM 请求完全不可预测"的认知。
- 一次加载多模型的创新:完美结合资源效率与性能优势。
- KV 缓存的双重用途:将 KV 缓存从单纯激活值存储拓展为预热的临时存储。
- 贪心放置算法的优先级隔离思想:简单高效,运行时无需求解复杂整数规划。
局限与展望¶
- 工作负载预测的适用边界——对完全新模型或特殊业务事件可能失效。
- 多数据中心/多租户场景缺失。
- 模型尺寸差异的处理不足——并置 7B + 70B 时效果有限。
- 改进:融合在线学习;多模型集成预测;详细分析预热失败率和能耗影响。
相关工作与启发¶
- vs ServerlessLLM/MuxServe:WarmServe 通过预热中间层在两者之间找到新的设计空间。
- vs serverless 预热:WarmServe 特化于 LLM 的三大挑战(跨多 GPU 依赖、极端模型尺寸、KV 缓存)。
- vs KV 缓存优化:利用缓存未用空间作为预热临时存储,体现"充分利用系统资源"哲学。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 识别 LLM 工作负载长期可预测性,创新的一次加载多模型机制。
- 实验充分度: ⭐⭐⭐⭐ 单机 + 大规模模拟 + 消融 + 预测精度验证。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,动机递进自然。
- 价值: ⭐⭐⭐⭐⭐ 50× TTFT 改进具实际部署价值。