CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation¶
会议: ICLR 2026
arXiv: 2601.19178
代码: 待确认
领域: 推荐系统 / 模型压缩
关键词: KV缓存压缩, 跨用户共享, 协同信号, 序列推荐, SVD分析
一句话总结¶
观察到序列推荐中不同用户的 KV cache 具有显著跨用户相似性(协同信号),提出 CollectiveKV 将 KV 分解为低维用户特有部分和从全局 KV 池检索的高维共享部分,实现 0.8% 的压缩率且性能不降。
研究背景与动机¶
领域现状:序列推荐模型(SIM、HSTU 等)采用 Transformer 注意力机制提升性能,为降低推理延迟引入了 KV cache 技术预计算并缓存 K/V。
现有痛点:推荐系统用户基数庞大(亿级),每个用户可能有很长的行为历史,KV cache 总量很快超过 GPU 显存容量,必须卸载到 CPU/外存,引入巨大传输延迟。
核心矛盾:LLM 的 KV 压缩方法(如 token 裁剪、MLA 降维)只压缩单用户序列,忽视了推荐场景独有的跨用户协同信号。
本文目标:利用跨用户 KV 相似性实现极致压缩——把大部分信息放入全局共享池,每用户只存极低维度的个性化 KV。
切入角度:通过 SVD 分解 K/V,发现主成分(>90% 信息)跨用户相关性强,残差(<10% 信息)是用户特有的——这给出了"什么可以共享"的定量依据。
核心 idea:用可学习的全局 KV 池存储跨用户共享信息,每用户仅缓存低维个性化 KV + 全局索引,实现 0.8% 极端压缩率。
方法详解¶
整体框架¶
分 prefill 和 decode 两阶段:prefill 阶段将用户序列线性投影为低维用户特有 KV(\(d_u\) 维度),同时通过 router 网络计算全局 KV 索引并缓存。decode 阶段从缓存取出索引,从 GPU 常驻的全局 KV 池检索高维共享 KV(\(d_g\) 维度),拼接后计算注意力。
关键设计¶
-
KV 分解:用户特有 + 集体共享:
- 功能:将 KV 分为低维 \(\mathbf{K}_u \in \mathbb{R}^{n \times d_u}\) 和高维 \(\mathbf{K}_c \in \mathbb{R}^{n \times d_g}\)
- 核心思路:\(\mathbf{K}_u = \mathbf{S} W_k + b_k\)(线性投影降维),\(\mathbf{K}_c[i] = P_k[\mathbf{I}_k[i]]\)(从全局池按索引检索),最终拼接 \(\mathbf{K} = \text{concat}(\mathbf{K}_u, \mathbf{K}_c)\)
- 设计动机:SVD 分析表明主成分可跨用户共享、残差是个性化的,故用共享池承载高维主信息,低维投影保留个性化
-
CollectiveKV Router:
- 功能:将序列 embedding 映射为每个 item 的全局 KV 池索引
- 核心思路:\(\mathbf{M} = \mathbf{S} W_r + b_r\),\(\mathbf{I}_k[i] = \arg\max_j \mathbf{M}_{ij}\)。训练时用 sigmoid 门控保证梯度可传播:\(\mathbf{K}_c[i] = \sigma(\mathbf{M}[i, \mathbf{I}_k[i]]) \cdot P_k[\mathbf{I}_k[i]]\)
- 设计动机:argmax 不可微,sigmoid 门控+peak loss 确保训练推理一致性
-
全局 KV 池:
- 功能:\(P_k, P_v \in \mathbb{R}^{m \times d_g}\) 常驻 GPU 显存,所有用户共享
- 设计动机:池大小 \(m\) 远小于用户数 × 序列长度,极大减少存储;高维 \(d_g\) 保证信息容量
损失函数 / 训练策略¶
- 原始推荐损失 + peak loss \(\mathcal{L}_{\text{peak}} = -\frac{1}{n}\sum_i \log\sigma(\mathbf{M}[i, \mathbf{I}_k[i]])\)(保证 sigmoid 输出接近 1)
- load balance loss(KL 散度使池中每个 key 被均匀选择)
- 端到端训练,pool/router/投影层联合优化
实验关键数据¶
主实验(5 模型 × 3 数据集)¶
| 模型 | 数据集 | GAUC(原始→+ours) | AUC(原始→+ours) | 压缩率 CR |
|---|---|---|---|---|
| SIM | MicroVideo | 0.6954→0.6973 | 0.6933→0.7057 | 1.6% |
| SDIM | MicroVideo | 0.6857→0.6883 | 0.6749→0.6871 | 1.2% |
| SIM | KuaiVideo | 0.6577→0.6604 | 0.6798→0.6900 | 1.2% |
| HSTU | MicroVideo | - | - | 0.8% |
消融实验¶
| 配置 | AUC | 说明 |
|---|---|---|
| 完整 CollectiveKV | 0.7057 | 最佳 |
| 仅用户特有 KV | ~0.69 | 缺少共享信息 |
| 仅集体 KV | ~0.69 | 缺少个性化 |
| 无 peak loss | ~0.70 | 训练推理不一致 |
| 无 balance loss | ~0.70 | 池利用率低 |
关键发现¶
- 0.8% 压缩率不降反升:5 个模型 × 3 个数据集上成绩持平或提升,说明共享 KV 起到了正则化/信息增强效果
- SVD 分析提供了可解释的压缩依据——主成分跨用户强相关、残差用户特有
- 推理延迟大幅降低——外存传输量缩小 50-100x,GPU 内索引操作延迟可忽略
亮点与洞察¶
- 跨用户 KV 共享是推荐系统独有的压缩维度:LLM 的 KV 压缩无此维度(每次推理只服务一个序列),但推荐系统天然具有协同信号——这是一个被忽视但潜力巨大的方向
- SVD 分解提供了"什么能共享"的理论分析工具:主成分 vs 残差的跨用户相似度对比非常直观有说服力
- router 设计的 sigmoid 门控+peak loss 优雅解决了离散索引不可微的问题
局限与展望¶
- 全局 KV 池常驻 GPU 显存,池大小 \(m\) 不能太大——大规模场景的 \(m\) 如何选择?
- 仅验证了 CTR 预测任务,未在排序/生成式推荐上验证
- router 采用简单线性层,更复杂的路由策略是否能进一步提升?
相关工作与启发¶
- vs MLA (DeepSeek):MLA 降维压缩单用户 KV;CollectiveKV 利用跨用户共享实现更极端压缩
- vs Token pruning (Loki/Quest):裁剪 token 丢弃信息;CollectiveKV 不丢弃,而是将信息转移到共享池
- vs HSTU:HSTU 引入 KV cache 到推荐但未压缩;CollectiveKV 在此基础上实现 0.8% 压缩
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 跨用户 KV 共享是全新视角,SVD 分析提供理论支撑
- 实验充分度: ⭐⭐⭐⭐ 5 模型 × 3 数据集覆盖广,但缺少更多消融细节
- 写作质量: ⭐⭐⭐⭐ SVD 分析可视化清晰,整体逻辑通顺
- 价值: ⭐⭐⭐⭐⭐ 0.8% 压缩率有巨大工业部署价值