Token-Efficient Long-Term Interest Sketching and Internalized Reasoning for LLM-based Recommendation¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NVrXCKaEjM
代码: https://github.com/TommyDzh/SIREN
领域: 推荐系统 / LLM推理
关键词: LLM推荐, 评分预测, 长期兴趣压缩, 推理内化, GRPO

一句话总结¶

本文提出 SIREN，用「长期兴趣草图」把动辄上百条的用户历史压成一小串「喜欢/不喜欢的语义主题」喂给 LLM，再用「两阶段训练」先 RL 学会显式 CoT 推理、后把推理通过隐状态对齐内化进参数，从而在 answer-only 解码下保住 CoT 精度，输入 token 降 48.7%、推理延迟比 CoT 低 100×。

研究背景与动机¶

领域现状：把 LLM 用于推荐里的评分预测（rating prediction）正成为热点——给 LLM 喂一个用户的历史交互 + 候选物品描述，让它推断用户偏好并输出会打几分。相比传统 ID-centric 推荐器，LLM 能利用丰富的物品语义，缓解冷启动、提升泛化、还能给出可解释推荐。而 CoT（chain-of-thought）推理被证明能进一步提升这类预测的准确度。

现有痛点：把 LLM 真正部署到推荐系统里有两个卡脖子的问题。其一，真实用户的历史又长又脏——几天内就能产生上百条交互，充满冗余和噪声。直接把原始历史塞给 LLM，长上下文处理能力不足 + 累积噪声会淹没偏好信号，反而越喂越差（论文 Fig.1(a) 显示历史从 10 条涨到 50 条，MAE 不降反升）；而粗暴截断到最近几条又丢掉了长期兴趣。其二，CoT 虽然准，但 decoder-only 架构下要逐 token 自回归地吐出一长串推理 token，每多一个 token 就多一次前向，导致 per-sample 延迟比 answer-only 高 100× 以上，生产环境扛不住。

核心矛盾：「信息量 vs token 预算」和「精度 vs 延迟」两组 trade-off 同时存在。既想保留长期偏好又要省 token；既想要 CoT 的准确度又不想付 CoT 的解码延迟。已有工作要么靠 summarize 用户画像（仍要处理长历史、还加算力），要么靠蒸馏/投机解码/latent reasoning 提速（仍要生成中间推理 token），都没把两个问题一起解决干净。

本文目标：(1) 设计一种 token 高效、抗噪、又能保住长期信号的用户表示；(2) 让模型在 answer-only 解码（只吐最终评分、零推理 token）下，仍享有 CoT 级别的推理质量。

切入角度：作者两个关键观察。一是用户的稳定偏好可以用「语料级语义主题」高度压缩——把成百上千条历史聚成少数几个「喜欢/讨厌的主题」即可，噪声自然被滤掉。二是无论 answer-only 还是 CoT 解码，最终评分都取决于 <answer> token 处的隐状态——那么只要把 answer-only 的隐状态对齐到 CoT 的隐状态，预测就会一致，而完全不需要真的吐 CoT token。

核心 idea：用「语义主题草图」代替原始历史解决 token 与噪声问题，再用「隐状态对齐」把 CoT 推理内化进参数，让 answer-only 解码白嫖 CoT 的精度。

方法详解¶

整体框架¶

SIREN 要解决的是 LLM 评分预测的两个部署难题：长噪历史 + 显式推理延迟。整体上它把流程拆成两条线串起来：先做长期兴趣草图——把全语料的物品描述编码、聚类成固定的 \(K\) 个语义主题，再把每个用户的历史按主题聚合成一小串「喜欢/不喜欢」的主题列表，拼上最近 \(N\) 条交互和候选物品组成精简 prompt；然后做推理内化——第一阶段用规则奖励的 RL（GRPO）教模型在草图 prompt 上显式 CoT 推理打分，第二阶段用隐状态对齐把这套推理压进参数，使得推理时直接 answer-only 解码就能逼近 CoT 质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户长噪历史<br/>+候选物品"] --> B["长期兴趣草图<br/>聚类语义主题→喜欢/不喜欢列表"]
    B --> C["拼 prompt<br/>草图+最近N条+候选"]
    C --> D["显式推理 RL<br/>GRPO+格式/评分奖励"]
    D -->|得到 CoT 模型| E["推理内化<br/>隐状态对齐 answer-only↔CoT"]
    E --> F["推理时 answer-only<br/>直出评分·近CoT质量"]

关键设计¶

1. 长期兴趣草图：用语料级语义主题把长噪历史压成喜欢/不喜欢列表

这一步针对「原始历史又长又脏、截断又丢长期信号」的痛点。关键决策是主题在全语料层面只发现一次，而不是逐用户发现——因为用户历史长度差异极大，逐用户聚类对短历史很不稳定，且不同用户的主题之间不可比。具体做法：先用文本编码器把每个物品描述编码成嵌入 \(e(i)=\text{Enc}(d(i))\)，在整个物品集 \(I\) 上做 K-means 得到 \(K\) 个主题中心 \(\{\mu_k\}\)，每个物品按最近中心分配主题标签 \(c_i=\arg\min_k \|e(i)-\mu_k\|_2^2\)；对每个簇，取离中心最近的 \(M\) 个物品描述喂给 LLM，生成一个简洁的主题名 \(\tau_k\)。

有了主题后，把用户历史 \(H_u\) 按主题聚合成草图。对第 \(k\) 个主题，算该用户在此主题下的平均评分 \(\bar r_{u,k}=\frac{1}{|H_u(k)|}\sum r_{ui}\)，再用阈值 \(\theta\) 把主题切成喜欢集与不喜欢集：\(T_u^+=\{\tau_k:\bar r_{u,k}\ge\theta\}\)，\(T_u^-=\{\tau_k:0<\bar r_{u,k}<\theta\}\)，草图即 \(S_u=(T_u^+,T_u^-)\)。最后把草图、最近 \(N\) 条交互 \(H_u^{(N)}\)、候选描述 \(d(i)\) 线性化成 prompt \(\pi_u(i)=\Phi(S_u,H_u^{(N)},d(i))\) 交给 LLM 预测。这样草图扛长期偏好、最近交互扛短期上下文，整体在严格 token 预算下既精简又信息充分——既不像截断那样丢长期信号，也不像原始历史那样被噪声拖垮。

2. 显式推理 RL：用规则奖励在没有 CoT 标注的情况下学会打分推理

推荐里没有现成的 CoT 推理标注，没法直接监督学推理。本文用 GRPO（一种轻量、无 critic 的 RL）在草图 prompt 上优化推理质量，奖励完全由规则构造。奖励由两部分组成：一是格式奖励 \(s_{format}\)，强制模型把推理写在 <think>...</think> 里、最终评分写在 <answer>...</answer> 里，格式对给 \(+1\)、错给 \(-1\)；二是评分回归奖励 \(s_{rate}\)，把预测误差线性映射到 \([-2,2]\)。整体单样本奖励为

\[R(\hat r_{ui},r_{ui})=s_{format}+\underbrace{\left(2-\frac{4}{E_{max}}|\hat r_{ui}-r_{ui}|\right)}_{s_{rate}},\]

其中 \(E_{max}=b-a\) 是评分区间的最大可能误差。\(s_{rate}\) 随绝对误差线性递减，预测越接近真值奖励越高。这样不靠任何人工 CoT 标签，就能让模型自己摸索出能把分打准的推理路径，为下一步内化提供一个高质量的 CoT 教师。

3. 隐状态对齐内化：把 CoT 推理压进参数，让 answer-only 解码白嫖 CoT 精度

第二阶段要解决的是延迟问题：上一步训出来的模型靠 CoT 才准，但 CoT 要吐几百个 token。本文的核心观察是——无论 answer-only 还是 CoT 解码，最终评分都由 <answer> 查询 token \(q\) 处的隐状态决定。于是只要把 answer-only 解码下 \(q\) 的隐状态对齐到带 CoT 时的隐状态，两者预测就会一致，却不必真的生成 CoT。用 \(h^l_{AO}(q)\)、\(h^l_{CoT}(q)\) 分别表示第 \(l\) 层在「只有 prompt」与「prompt+CoT」时 \(q\) 的隐状态，对齐损失取逐层余弦距离：

\[\mathcal{L}_{align}=\frac{1}{L}\sum_{l=1}^{L}\Big(1-\cos\big(\text{sg}[h^l_{CoT}(q)],\,h^l_{AO}(q)\big)\Big),\]

其中 \(\text{sg}[\cdot]\) 是 stop-gradient（CoT 隐状态作为固定目标）。实现上只对每层注意力的 key/value 投影矩阵加 LoRA。这背后有理论支撑（Theorem 1，KV Adaptation Equivalence）：在对注意力与 FFN 做一阶线性化的近似下，存在对 \(W_K^l,W_V^l\) 的低秩更新 \((\Delta W_K^l,\Delta W_V^l)\)，使得更新后的 answer-only 隐状态恰好等于 CoT 隐状态——这正是「只调 KV 的低秩适配」策略的动机。推理时模型即便不生成任何 CoT token，也能在 <answer> 处算出与显式推理相近的隐状态，从而拿到 CoT 级精度却只付 answer-only 的延迟。

损失函数 / 训练策略¶

两阶段训练，均基于 Qwen3-4B：Stage 1 用 GRPO（VERL 框架）以式 (11) 的格式+回归奖励学显式 CoT 推理；Stage 2 冻结 CoT 教师隐状态，用式 (12) 的隐状态对齐损失 \(\mathcal{L}_{align}\) 训练 LoRA 适配 KV 投影。文本编码器用 BGE-M3，主题数 \(K=20\)，每主题取 \(M=100\) 条描述生成主题名，喜欢/不喜欢阈值 \(\theta=4\)；Books 取最近 \(N=30\) 条、Movies 取 \(N=10\) 条。

实验关键数据¶

主实验¶

数据集为 Amazon Reviews 2023 的 Books 与 Movies 两个类目，5-core 过滤 + leave-last-out 划分，指标用 MAE 和 RMSE（均越低越好），三个随机种子取均值。

数据集	指标	SIREN	之前最强(Exp3RT/MF)	提升
Books	MAE	0.3510	0.4001 (Exp3RT)	-12.45%
Books	RMSE	0.6887	0.7259 (MF)	-8.99% vs Exp3RT
Movies	MAE	0.7603	0.7995 (LLM4Rate-Qwen3)	显著降低
Movies	RMSE	1.2924	1.3060 (MF)	最优

SIREN 在两个数据集、两个指标上全部第一（平均排名 1，runner-up Exp3RT 为 4）。论文还观察到：LLM 类方法在 MAE 上普遍胜过传统/统计基线（受益于物品语义），但 RMSE 偶尔输给 MF——原因是数据偏正样本，LLM 倾向高估高分、放大大误差惩罚；SIREN 靠 GRPO 的 RL-CoT 训练 + 内化，在少数低分样本上更稳健。

推理效率（Fig.3）：SIREN-AO（answer-only）每样本只生成 1 个 token、延迟约 0.013 s；SIREN-CoT 要 238 个 token / 2.22 s；EXP3RT 160 token / 1.26 s；LLM4Rate 524 token / 4.84 s。SIREN-AO 相对 CoT 类方法有 100× 以上加速。

消融实验¶

用户建模策略对比（RQ3，answer-only 微调，Books MAE）：

配置	Books MAE	Books RMSE	说明
Recent History	0.3547	0.7131	只用最近 N 条
+Sketch (ours)	0.3536	0.7114	加长期兴趣草图，最优/次优
+More History	0.3535	0.7153	加更多原始历史：MAE 略降但 RMSE 变差(噪声放大大误差)
+Profile	0.3563	0.7244	LLM 生成画像，反而不如 Recent History

推理内化策略对比（RQ4，均从 Stage-1 GRPO-CoT checkpoint 初始化，Books MAE，红线 GRPO-CoT=0.3521）：

配置	Books MAE	Movies MAE	说明
CE	0.3521	0.7832	交叉熵微调
KD	0.3530	0.7995	logits 知识蒸馏
KD+CE	0.3527	0.7653	联合蒸馏
HA+CE	0.3525	0.7767	隐对齐+CE
HA (ours)	0.3503	0.7603	隐状态对齐，最低且贴近/超过教师

LoRA 目标模块（Table 4）：KV、all-linear、QKV、QV、FFN 五组里，KV 在 Books 上 MAE 0.3503 最优，印证 Theorem 1 的「只调 KV」动机。

关键发现¶

长期兴趣草图的增益在「省 token」和「抗噪」两面：单加更多原始历史会降 MAE 却升 RMSE（噪声放大大误差），而草图能同时改善两者；LLM 生成的用户画像反而拖后腿，说明现成 summarization 抓不住关键偏好。
HA（隐状态对齐）在 Books 上甚至反超 GRPO-CoT 教师——作者推测对齐隐状态传递了推理结构，却避开了显式生成 CoT token 时的噪声与方差；而 HA+CE 反而更差，token 级 CE 会把模型拉向只拟合标签、与 CoT 诱导的潜结构冲突。
只对 KV 投影做 LoRA 即最优，和理论的 KV 等价性结论一致——不需要动 all-linear。

亮点与洞察¶

「全语料聚主题、再按主题聚合用户」这套两段压缩很巧：把不可比、不稳定的逐用户聚类，换成一次性的语料级主题，天然抗短历史噪声，还顺带产出可解释的「喜欢/讨厌主题」列表。
隐状态对齐 = answer-only 白嫖 CoT 是最 aha 的点：抓住「最终预测只由 <answer> 隐状态决定」这个观察，把「要不要吐推理 token」从推理时决策变成训练时一次性内化，绕开了所有需要生成中间 token 的提速方案。
Theorem 1 把「调哪些权重」落到 KV 给了工程上很实用的指导——不是盲调 LoRA，而是有理论依据地只动 key/value 投影。
草图 + 最近历史的「长期 + 短期」拼接思路可迁移到任何长序列建模任务（如长文档问答、长会话推荐），用聚类主题做长期记忆、原始窗口做短期上下文。

局限与展望¶

评测只在 Amazon Reviews 的 Books/Movies 两个类目、规模偏小（Movies 测试集仅 2629），跨域/工业级长尾场景的泛化未验证。
隐状态对齐的理论保证建立在「注意力+FFN 一阶线性化」近似上，真实非线性网络下等价性只是近似，对齐质量可能随层数/任务波动。
草图依赖固定主题数 \(K=20\) 和阈值 \(\theta=4\)，主题粒度与喜欢/不喜欢划分对这些超参敏感，换数据集可能需要重新调；冷主题（语料里稀少的兴趣）可能被聚类淹没。
任务限定在 rating prediction（回归打分），能否迁到 next-item / ranking 等需要生成式输出的推荐任务尚不清楚。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「隐状态对齐内化 CoT」+「语料级主题草图」两个点都直击 LLM 推荐的真实部署痛点，且有理论支撑
实验充分度: ⭐⭐⭐⭐ 主实验+四个 RQ 消融到位，但只两个类目、规模偏小，缺工业级/跨域验证
写作质量: ⭐⭐⭐⭐⭐ 动机—方法—理论—实验链条清晰，Fig.1/Fig.2 把问题和框架讲得很直观
价值: ⭐⭐⭐⭐⭐ 同时砍 token（-48.7%）和延迟（100×）还涨精度，对 LLM 推荐落地有直接工程价值