CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation¶

会议: ICLR 2026
arXiv: 2601.19178
代码: 待确认
领域: 推荐系统 / 模型压缩
关键词: KV缓存压缩, 跨用户共享, 协同信号, 序列推荐, SVD分析

一句话总结¶

观察到序列推荐中不同用户的 KV cache 具有显著跨用户相似性（协同信号），提出 CollectiveKV 将 KV 分解为低维用户特有部分和从全局 KV 池检索的高维共享部分，实现 0.8% 的压缩率且性能不降。

研究背景与动机¶

领域现状：序列推荐模型（SIM、HSTU 等）采用 Transformer 注意力机制提升性能，为降低推理延迟引入了 KV cache 技术预计算并缓存 K/V。

现有痛点：推荐系统用户基数庞大（亿级），每个用户可能有很长的行为历史，KV cache 总量很快超过 GPU 显存容量，必须卸载到 CPU/外存，引入巨大传输延迟。

核心矛盾：LLM 的 KV 压缩方法（如 token 裁剪、MLA 降维）只压缩单用户序列，忽视了推荐场景独有的跨用户协同信号。

本文目标：利用跨用户 KV 相似性实现极致压缩——把大部分信息放入全局共享池，每用户只存极低维度的个性化 KV。

切入角度：通过 SVD 分解 K/V，发现主成分（>90% 信息）跨用户相关性强，残差（<10% 信息）是用户特有的——这给出了"什么可以共享"的定量依据。

核心 idea：用可学习的全局 KV 池存储跨用户共享信息，每用户仅缓存低维个性化 KV + 全局索引，实现 0.8% 极端压缩率。

方法详解¶

整体框架¶

分 prefill 和 decode 两阶段：prefill 阶段将用户序列线性投影为低维用户特有 KV（\(d_u\) 维度），同时通过 router 网络计算全局 KV 索引并缓存。decode 阶段从缓存取出索引，从 GPU 常驻的全局 KV 池检索高维共享 KV（\(d_g\) 维度），拼接后计算注意力。

关键设计¶

KV 分解：用户特有 + 集体共享:
- 功能：将 KV 分为低维 \(\mathbf{K}_u \in \mathbb{R}^{n \times d_u}\) 和高维 \(\mathbf{K}_c \in \mathbb{R}^{n \times d_g}\)
- 核心思路：\(\mathbf{K}_u = \mathbf{S} W_k + b_k\)（线性投影降维），\(\mathbf{K}_c[i] = P_k[\mathbf{I}_k[i]]\)（从全局池按索引检索），最终拼接 \(\mathbf{K} = \text{concat}(\mathbf{K}_u, \mathbf{K}_c)\)
- 设计动机：SVD 分析表明主成分可跨用户共享、残差是个性化的，故用共享池承载高维主信息，低维投影保留个性化
CollectiveKV Router:
- 功能：将序列 embedding 映射为每个 item 的全局 KV 池索引
- 核心思路：\(\mathbf{M} = \mathbf{S} W_r + b_r\)，\(\mathbf{I}_k[i] = \arg\max_j \mathbf{M}_{ij}\)。训练时用 sigmoid 门控保证梯度可传播：\(\mathbf{K}_c[i] = \sigma(\mathbf{M}[i, \mathbf{I}_k[i]]) \cdot P_k[\mathbf{I}_k[i]]\)
- 设计动机：argmax 不可微，sigmoid 门控+peak loss 确保训练推理一致性
全局 KV 池:
- 功能：\(P_k, P_v \in \mathbb{R}^{m \times d_g}\) 常驻 GPU 显存，所有用户共享
- 设计动机：池大小 \(m\) 远小于用户数 × 序列长度，极大减少存储；高维 \(d_g\) 保证信息容量

损失函数 / 训练策略¶

原始推荐损失 + peak loss \(\mathcal{L}_{\text{peak}} = -\frac{1}{n}\sum_i \log\sigma(\mathbf{M}[i, \mathbf{I}_k[i]])\)（保证 sigmoid 输出接近 1）
load balance loss（KL 散度使池中每个 key 被均匀选择）
端到端训练，pool/router/投影层联合优化

实验关键数据¶

主实验（5 模型 × 3 数据集）¶

模型	数据集	GAUC（原始→+ours）	AUC（原始→+ours）	压缩率 CR
SIM	MicroVideo	0.6954→0.6973	0.6933→0.7057	1.6%
SDIM	MicroVideo	0.6857→0.6883	0.6749→0.6871	1.2%
SIM	KuaiVideo	0.6577→0.6604	0.6798→0.6900	1.2%
HSTU	MicroVideo	-	-	0.8%

消融实验¶

配置	AUC	说明
完整 CollectiveKV	0.7057	最佳
仅用户特有 KV	~0.69	缺少共享信息
仅集体 KV	~0.69	缺少个性化
无 peak loss	~0.70	训练推理不一致
无 balance loss	~0.70	池利用率低

关键发现¶

0.8% 压缩率不降反升：5 个模型 × 3 个数据集上成绩持平或提升，说明共享 KV 起到了正则化/信息增强效果
SVD 分析提供了可解释的压缩依据——主成分跨用户强相关、残差用户特有
推理延迟大幅降低——外存传输量缩小 50-100x，GPU 内索引操作延迟可忽略

亮点与洞察¶

跨用户 KV 共享是推荐系统独有的压缩维度：LLM 的 KV 压缩无此维度（每次推理只服务一个序列），但推荐系统天然具有协同信号——这是一个被忽视但潜力巨大的方向
SVD 分解提供了"什么能共享"的理论分析工具：主成分 vs 残差的跨用户相似度对比非常直观有说服力
router 设计的 sigmoid 门控+peak loss 优雅解决了离散索引不可微的问题

局限与展望¶

全局 KV 池常驻 GPU 显存，池大小 \(m\) 不能太大——大规模场景的 \(m\) 如何选择？
仅验证了 CTR 预测任务，未在排序/生成式推荐上验证
router 采用简单线性层，更复杂的路由策略是否能进一步提升？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 跨用户 KV 共享是全新视角，SVD 分析提供理论支撑
实验充分度: ⭐⭐⭐⭐ 5 模型 × 3 数据集覆盖广，但缺少更多消融细节
写作质量: ⭐⭐⭐⭐ SVD 分析可视化清晰，整体逻辑通顺
价值: ⭐⭐⭐⭐⭐ 0.8% 压缩率有巨大工业部署价值