NextQuill: Causal Preference Modeling for Enhancing LLM Personalization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=xYpVlKMFqv
代码: https://github.com/juntaoyou/NextQuill
领域: 因果推断 / LLM 个性化对齐
关键词: LLM 个性化, 因果偏好建模, 因果效应, do-calculus, 偏好对齐, 监督微调

一句话总结¶

NextQuill 把 LLM 个性化重新看作一个因果问题——模型预测和用户真实回复都是「用户历史/特征 × 上下文」共同作用的结果，用因果效应（do-calculus）把其中真正由偏好驱动的部分分离出来，并设计两个对齐损失只学这部分，从而做出比无差别对齐更深的个性化。

研究背景与动机¶

领域现状：LLM 个性化主要有两条路线。一是「记忆-检索」范式，把用户历史存进外部 memory，生成时检索相关片段塞进 prompt 引导生成；二是「微调」范式，直接拿用户历史数据 fine-tune 模型参数，让模型从过去行为预测后续行为，从而把偏好刻进权重。后者通常对齐效果更显式。

现有痛点：作者指出微调类方法的对齐其实很「浅」，问题出在两处对「用户数据的无差别使用」。① 模型侧：现有方法把「从整个输入生成的全部预测」都当成模型推断出的偏好，与 ground-truth 无差别对齐。但真正反映模型内部偏好建模的，是那些由历史行为数据驱动的推断，而非由通用上下文（query、任务 prompt）驱动的部分。② 数据侧：现有方法把 ground-truth 回复里的所有 token 一视同仁地学，忽略了不同 token 对偏好表达的贡献天差地别——比如某用户的口头禅 token 强烈反映偏好，而「这部电影的主演是 XX」这类 token 不管谁来写都会出现。

核心矛盾：模型预测和用户回复都是「偏好因素」和「非偏好因素（主要是上下文）」共同作用的产物，但只有偏好因素驱动的那一部分才真正代表用户偏好。无差别对齐 = 把噪声和信号一起学，对齐自然浅。

本文目标：从因果视角找出「偏好建模里到底什么才重要」，把模型侧和数据侧各自由偏好驱动的成分隔离出来，并在训练时显式强调学习这些成分。

核心 idea：因果偏好建模（Causal Preference Modeling）——把响应生成画成因果图，用「用户历史/特征对输出的因果效应」定义偏好信号，再用两个损失分别在模型侧（对齐因果效应）和数据侧（加权偏好 token）上做对齐。

方法详解¶

整体框架¶

NextQuill 先做因果分析：用两张因果图分别刻画「模型如何预测回复」和「用户如何写出真实回复」，在两侧各定义一个因果偏好效应（model-side 的 MCE、data-side 的 DCE），即历史/用户特征在剔除参考值后对输出 token 概率的干预差。然后基于这两个效应做偏好对齐：数据侧用 DCE 给每个 ground-truth token 算权重，区分偏好驱动 token；模型侧用 MCE 隔离预测中的偏好成分并与 ground-truth 对齐。最终把两个损失合成一个目标，像 SFT 一样微调模型。

flowchart TD
    A["用户样本 (x, h, y)"] --> B["模型侧因果建模<br/>MCE = f(x,h,y<t) − f(x,∅,y<t)"]
    A --> C["数据侧因果建模<br/>DCE ≈ fθD(yt|x,h,..) − fθD(yt|x,∅,..)"]
    C --> D["阈值 δ 分类 → token 权重 ωt (λ 或 ε)"]
    D --> E["偏好加权 NTP 损失 Ln"]
    B --> F["因果偏好对齐损失 Lp<br/>(对齐 MCE 与 DCE)"]
    D --> F
    E --> G["θ* = argmin Ln + α·Lp"]
    F --> G
    G --> H["个性化 LLM"]

关键设计¶

1. 模型侧因果偏好效应（MCE）：用「去掉历史」做反事实，隔离模型预测里真正由偏好驱动的部分。 在模型侧因果图里，预测 \(\hat{Y}\) 同时受用户历史 \(H\)、上下文 \(X\) 以及二者交互 \(E_M\) 的影响，但只有 \(H\) 这条路径携带偏好信号。作者用 do-calculus 定义 \(t\) 时刻 token 的因果效应 \(\text{MCE}(\hat{Y}_t|h,x) = P(\hat{Y}_t|H{=}do(h),x) - P(\hat{Y}_t|H{=}do(0),x)\)，由于因果图结构使干预概率等于观测概率，落到实践里就是一个反事实差分：\(f_\theta(x,h,y_{<t}) - f_\theta(x,\emptyset,y_{<t})\)，即「带历史的预测」减去「抹掉历史的预测」。这个差分度量的正是预测中被用户历史真正改变的那一块，代表 LLM 内部捕获到的真实偏好。

2. 数据侧因果偏好效应（DCE）：给每个 ground-truth token 算「有多少是偏好写出来的」，再二值化成权重。 数据侧因果图描述用户如何生成真实回复 \(Y\)：受用户特征 \(U\)、上下文 \(X\) 及交互 \(E_D\) 影响。同理定义 \(\text{DCE}(Y_t|u,x) = P(Y_t|U{=}do(u),x) - P(Y_t|U{=}do(0),x)\)，量化 token \(y_t\) 在多大程度上由偏好驱动。由于用户特征 \(u\) 不可直接获取，用历史数据 \(h\) 近似，并用一个见过数据集 \(\mathbb{D}\) 的 LLM \(\theta_\mathbb{D}\) 来估计：\(\text{DCE}(Y_t{=}y_t|u,x) \approx f_{\theta_\mathbb{D}}(y_t|x,h,y_{<t}) - f_{\theta_\mathbb{D}}(y_t|x,\emptyset,y_{<t})\)。然后用阈值 \(\delta\) 把 token 二分为偏好驱动（权重 \(\lambda\)）和非偏好驱动（权重 \(\epsilon\)），得到 token 权重 \(\omega_t\)（附录给出动态/固定两种 DCE 估计实现）。

3. 偏好加权 NTP 损失：把对齐重心压到偏好 token 上。 标准 next-token 预测损失保证文本连贯，但作者用 DCE 得到的权重 \(\omega_t\) 给它重加权，让模型更使劲学偏好驱动 token：\(L_n = \frac{1}{|\mathbb{D}|}\sum_{(x,h,y)}\sum_{t=1}^{|y|}\omega_t\cdot\ell(f_\theta(x,h,y_{<t}), y_t)\)，其中 \(\ell\) 是交叉熵。这样非偏好 token（如人人都写的客观描述）权重低，不会稀释偏好信号。

4. 因果偏好对齐损失：直接把模型侧的 MCE 对齐到数据侧偏好。 仅加权还不够，作者进一步让 LLM 内部的因果偏好效应（MCE）去拟合 ground-truth 中的偏好成分。把设计 1 的反事实差分 \(f_\theta(x,h,y_{<t}) - f_\theta(x,\emptyset,y_{<t})\) 作为「模型隔离出的偏好预测」，用同样的 \(\omega_t\) 加权后与真实 token 对齐：\(L_p = \frac{1}{|\mathbb{D}|}\sum_{(x,h,y)}\sum_{t=1}^{|y|}\omega_t\cdot\ell\big(f_\theta(x,h,y_{<t}) - f_\theta(x,\emptyset,y_{<t});\, y_t\big)\)。这一项强制「模型靠历史多预测出来的那部分」直接对准用户真实偏好，而不是无差别对齐全部预测。最终目标 \(\theta^\star = \arg\min_\theta\, L_n + \alpha\cdot L_p\)，用超参 \(\alpha\) 平衡二者，整体像 SFT 一样训练。

实验关键数据¶

主实验表格¶

在 Amazon 的 Book/Movie/CD Review 三个评论生成数据集 + Topic Writing（个性化 Reddit 长帖）上，以 Qwen 为 backbone，对比检索类（Contriever / LatestK / CoS / LLM-TRSR）和 PEFT 类（SFT / OPPU / ContextSFT）方法：

数据集	指标	Base(Qwen)	ContextSFT(次优)	NextQuill
Book Review	ROUGE-1	0.0519	0.1661	0.2318
	ROUGE-L	0.0267	0.0836	0.1270
	BERTScore	0.7385	0.8013	0.8182
Movie Review	ROUGE-1	0.0470	0.1573	0.2015
	BLEU	0.0402	1.7151	2.3845
CD Review	ROUGE-1	0.0438	0.1505	0.1976
Topic Writing	ROUGE-1	0.0684	0.0934	0.1510

NextQuill 在四个数据集几乎所有指标上都拿到最优，相比最强 baseline ContextSFT 普遍有显著提升（如 Book Review ROUGE-1 从 0.166 → 0.232）。

消融实验表格¶

以 SFT 为 Base，逐步加入各组件，报告相对 Base 的提升 RI(%)：

变体	Book R-1 (RI)	Movie R-1 (RI)	CD R-1 (RI)
Base Model (SFT)	0.0752 (-)	0.0620 (-)	0.0668 (-)
+ MCE Only	0.1827 (+142.9%)	0.1629 (+162.7%)	0.1552 (+132.3%)
+ MCE-DCE Alignment	0.1876 (+149.5%)	0.1671 (+169.5%)	0.1672 (+150.3%)
+ DCE Only	0.1958 (+160.4%)	0.1865 (+200.8%)	0.1805 (+170.2%)
+ Full (NextQuill)	0.2318 (+208.2%)	0.2015 (+225.0%)	0.1976 (+195.8%)

关键发现¶

单独用模型侧 MCE 对齐或数据侧 DCE 加权都能比 SFT 大幅提升（+130%~+200%），说明两侧因果信号各自有效。
DCE Only 略强于 MCE Only，说明「区分偏好 token 加权」这一数据侧策略贡献更大。
两侧组合（Full）在所有数据集上进一步明显超过任一单组件，两个因果对齐策略互补而非冗余。

亮点与洞察¶

重新框定问题：把「个性化对齐为什么浅」归因到「无差别使用用户数据」，并用因果语言（偏好因素 vs 上下文因素）把模糊直觉变成可计算的因果效应，视角清晰且可操作。
反事实差分的巧妙落地：MCE/DCE 表面是 do-calculus，实际实现就是「带历史 vs 抹掉历史」的两次前向差分，几乎零额外建模成本就把偏好成分抠出来，工程上很轻。
模型侧 + 数据侧双管齐下：一个改 token 权重（学什么）、一个改对齐目标（对齐哪部分预测），分别作用于损失的两个维度，消融证明二者互补。
即插即用：本质是对 SFT 损失的重加权 + 增项，不改架构、不需额外标注，可直接套在现有微调 pipeline 上。

局限与展望¶

DCE 估计依赖一个「见过 D 的 LLM」：数据侧因果效应用 \(\theta_\mathbb{D}\) 近似，引入额外训练/推理成本，且近似质量直接影响 token 权重的可靠性，论文把动态/固定估计放在附录，主文对这部分敏感性讨论较少。
阈值 δ 与权重 λ/ε 是手工设定：偏好 token 的二值化划分依赖人工超参，不同数据集的最优值可能差异大，缺乏自适应机制。
反事实「抹掉历史」是否真无偏：用 \(H=\emptyset\) 作参考值假设了观测概率等于干预概率（由因果图结构保证），但真实 LLM 是否严格满足这一结构、是否存在未观测混杂，实践中难验证。
评测局限于评论/长帖生成：任务集中在 Amazon 评论与 Reddit 帖，是否能推广到对话、代码、决策类个性化场景待验证；指标也以 ROUGE/BLEU/BERTScore 为主，与真实用户偏好满意度的关联有限。

评分¶

新颖性: ⭐⭐⭐⭐ 把 LLM 个性化对齐重新表述为因果效应隔离问题，MCE/DCE 双侧定义清晰，反事实差分落地巧妙；扣分在因果工具本身成熟，主要是组合式创新。
实验充分度: ⭐⭐⭐⭐ 四数据集、三类强 baseline、清晰的逐组件消融（含 MCE/DCE 各自与组合），相对提升幅度可观；扣分在评测域较窄、缺人类评估与对阈值/α 的敏感性分析。
写作质量: ⭐⭐⭐⭐ 动机—因果图—效应定义—损失推导层层递进，公式与图配合好，问题框定有说服力。
价值: ⭐⭐⭐⭐ 即插即用、可套现有 SFT pipeline，对个性化生成有实用价值，且「用因果隔离偏好信号」的思路可迁移到其他对齐场景。