跳转至

Randomization Boosts KV Caching, Learning Balances Query Load: A Joint Perspective

会议: ICLR 2026
arXiv: 2601.18999
代码: GitHub
领域: LLM Serving / KV Cache / Load Balancing
关键词: KV缓存淘汰策略, 随机化算法, 负载均衡路由, 多LLM服务, 竞争比分析

一句话总结

提出首个KV缓存感知负载均衡统一数学模型,设计随机化叶节点淘汰算法RLT(O(log n)竞争比)和基于学习的贪心路由LBGR,在多LLM服务场景下将延迟降低最高11.96×、TTFT降低14.06×。

研究背景与动机

KV缓存是LLM推理加速的核心技术:通过复用先前查询的key-value对避免重复计算,但在内存受限时其效果高度依赖淘汰策略

LRU淘汰策略存在根本缺陷:传统最近最少使用(LRU)策略在动态查询到达模式下表现脆弱,最坏情况下恰好淘汰下一个查询需要的token,导致缓存命中率骤降

多LLM服务场景的固有矛盾:最大化单个LLM的缓存命中率(将相似查询发往同一LLM)与全局负载均衡(避免队列延迟)是相互冲突的目标

现有方法依赖启发式:SGLang用固定阈值切换路由策略,NVIDIA/llm-d用静态线性评分,缺乏形式化建模,无法适应动态查询模式

缺乏理论分析:实际系统设计和理论理解之间存在显著差距,没有统一模型捕捉缓存淘汰与负载均衡之间的耦合关系

队列负载建模过于粗糙:现有方法仅用待处理查询数量衡量拥塞,未考虑各查询实际服务时间的差异

方法详解

统一形式化模型

  • M个worker(LLM)各配备大小为B_i的KV缓存,在线处理N个查询序列Q={q_j}
  • 服务时间Cost_{ij} = α_CACHED·h_{ij} + α_MISS·(|q_j| - h_{ij}) + O_{ij},其中h_{ij}为缓存命中token数
  • 路由决策x_{ij}∈{0,1}决定查询分配,目标:最小化所有worker的makespan(最大累计负载)
  • 缓存状态通过UpdateCache函数更新,队列负载P_i按服务时间累加
  • 形式化揭示了LRU的理论局限:L-LRU(SGLang的叶节点LRU)竞争比为O(n),当查询长度高度不平衡时退化严重

RLT:随机化叶节点淘汰

  • 维护标记集合T,记录已访问token;当标记数达B_i+1时清除(仅保留最新token)
  • 当缓存满且需要加载新token时,从未标记的叶节点均匀随机选择一个淘汰
  • 理论保证:竞争比Θ(log(B_i - L)),比L-LRU的O(n)指数级改进
  • 证明了这是所有随机化淘汰算法的最优下界(信息论最优)

LBGR:基于学习的贪心路由

  • 服务时间估计:利用全局Radix Tree追踪各worker缓存状态,估计缓存命中token数h̃_{ij}
  • 队列负载估计:维护P̃_i追踪每个worker负载,使用指数衰减(ρ)模拟负载随时间自然减少;查询完成后释放残余负载
  • 残差修正:在线线性回归模型θ_i捕获环境波动带来的延迟偏差,特征向量φ包含命中数、未命中数和当前负载
  • 贪心决策:Ê_{ij} = Cost_{ij} + P̃i + θ_i^T·φ,将查询路由到预测延迟最低的worker
  • 在线更新:观测实际延迟后最小化(E_{ij} - Ê_{ij})²持续更新回归模型
  • 后台衰减线程:每Δt时间单位对所有worker执行P̃_i ← ρ·P̃_i,避免负载估计累积失真

实验

主实验结果

对比方法 中位延迟降低 中位TTFT降低 缓存命中率提升 吞吐提升
vs Random+LRU 30.9× 44.49× - -
vs Cache-Aware+LRU (SOTA) 11.96× 14.06× 36.45% 36.51%
vs Cache-Aware+LRU (P95) 2.03× 2.62× - -

消融实验

方法 P50延迟(ms) P50 TTFT(ms) 命中率 额外开销
Cache-Aware+LRU 26680 25022 23.89% baseline
Cache-Aware+RLT 19191 14332 26.36% +0.58ms淘汰
LBGR+LRU 6025 2958 33.33% +0.56ms路由
LBGR+RLT 2263 1088 37.31% +2ms总开销

模型规模与架构泛化

模型 硬件 vs Cache-Aware+LRU 延迟降低 vs Cache-Aware+LRU TTFT降低
Llama-3.1-8B 10×L40 11.96× 14.06×
Llama-3.1-70B 4×H200 5.46× 7.19×
Mixtral-8×7B (MoE) 4×H200 显著优于所有baseline 显著优于所有baseline

关键发现

  • 在Llama-3.1-8B(L40 GPU)和70B(H200 GPU)、Mixtral-8×7B上均有效,跨稠密/稀疏架构泛化
  • 最坏情况轮询到达顺序下,LBGR+RLT依然大幅领先(22.8×延迟降低、15.5× TTFT降低)
  • 缓存大小从50%到90%、worker数从2到10、请求率4-20 req/s均鲁棒
  • 单worker实验也验证RLT优于L-LRU:缓存命中率最高提升6.92×,吞吐提升77.4%
  • 随着缓存容量增大,LBGR+RLT与baseline的性能差距进一步拉大
  • worker数≥6时各方法吞吐趋于饱和(请求率固定12 req/s时系统容量充足)

亮点

  • 首次为KV缓存感知负载均衡建立统一数学模型,填补了理论与实践的空白
  • RLT的O(log n)竞争比证明是信息论最优(不可再改进),这是经典在线算法理论在LLM系统中的优雅应用
  • 两个算法的额外运行时开销极低(每查询仅~2ms),高度实用,可即插即用到现有系统
  • LBGR的指数衰减+在线回归设计简洁有效,避免了复杂RL或预测模型的训练开销
  • 实验覆盖4种基准(GSP/ShareGPT/UltraChat/Loogle)、3种前缀共享场景、多种模型规模/架构,非常全面

局限性

  • 仅评估文本推理,未涉及多模态KV缓存(图像token的缓存特性可能不同)
  • 受限于10个worker的单域部署,未验证大规模或异地分布式场景下的网络延迟影响
  • 理论分析假设在线对抗到达,实际workload的分布特性(如Zipf分布)可进一步利用以获得更紧的界
  • LBGR的线性回归残差模型可能在高度非线性的延迟场景中不够表达力
  • 输出token长度实验仅测试到128,更长生成(如4K+)场景未探索

相关工作

  • KV缓存压缩:H2O(高注意力token保留)、StreamingLLM(注意力锚定token)——模型层面压缩,与本文系统层面淘汰策略互补
  • KV缓存系统:vLLM(分页虚拟内存减碎片)、SGLang RadixAttention(Radix树前缀共享)——本文在SGLang基础上替换淘汰与路由模块
  • 负载均衡路由:SGLang(阈值切换命中率/最少负载路由)、NVIDIA TensorRT-LLM/llm-d(静态线性评分)——均为启发式,缺乏理论保证
  • 在线算法理论:经典marking algorithm(Fiat et al., 1991)为RLT的理论基础;本文将其推广到Radix树结构的叶节点淘汰
  • 竞争比分析:连接了在线算法竞争分析与LLM系统优化,属于"理论指导系统"的研究范式
  • 本文首次将缓存淘汰与路由两条线统一建模,是理论驱动的系统优化典范

评分 ⭐⭐⭐⭐⭐

  • 新颖性: 5/5 — 首个统一形式化+最优竞争比证明,理论贡献扎实
  • 实验充分度: 5/5 — 4基准×3设置×多模型×多参数扫描,消融彻底
  • 写作质量: 5/5 — 理论与实验衔接清晰,问题动机阐述充分
  • 实用性: 5/5 — 额外开销仅2ms,可直接集成到SGLang等系统