iFusion: Integrating Dynamic Interest Streams via Diffusion Model for Click-Through Rate Prediction¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=iYQgXETC1D
代码: 待确认
领域: 推荐系统 / CTR 预测 / 生成式用户兴趣建模
关键词: CTR 预测、长短期兴趣融合、扩散模型、分类器无关引导、自回归去噪

一句话总结¶

iFusion 把"长短期用户兴趣融合"重新表述为一个条件生成问题——以短期兴趣为引导，对长期兴趣表示做扩散去噪，从而摆脱传统线性融合（拼接/注意力/门控）的假设，在公开数据集、工业数据集和线上 A/B 上都拿到 CTR 提升。

研究背景与动机¶

领域现状：CTR 预测是推荐和广告的核心，几乎都建立在用户行为建模之上。主流做法把行为切成长期序列（稳定偏好，常用历史点击日志建模）和短期序列（易变兴趣，常用近期购买/会话），分别精细建模后再融合。长期建模（SIM、ETA、TWIN 系列）和短期建模各自都有大量进展。

现有痛点：相比之下，"如何融合"这一步长期被忽视，而现有融合手段（拼接、注意力、门控）本质都依赖线性假设，作者指出三个硬伤：

特征空间错位：长短期分别用不同的特征和编码器（点击 vs 购买），两套表示天然异构，线性算子预设了空间已对齐，根本对不上；
后融合的割裂建模：late-fusion 把"行为建模"和"兴趣融合"拆成两条独立流水线，归纳偏置不利于跨序列整合；
扰动-兴趣纠缠：线性融合没有机制把短期里有意义的兴趣信号和随机波动分开，噪声会不受控地传播，污染稳定的长期表示。

此外，HSTU 类生成式排序方案把所有行为拼成一条统一序列，在行为稀疏时反而建模不足——判别式排序无法从有限证据里"推断并融合"兴趣。

核心矛盾：长短期兴趣是异构、非平稳、甚至相互矛盾的演化模式，而线性融合算子无力刻画这种非线性交互，又无法把噪声从信号里剥离。

本文目标：设计一个能容忍扰动、联合建模与融合、且满足线上低延迟的融合机制。

核心 idea（生成式重述）：不再把融合当成确定性算子，而是当成条件生成——把长期兴趣 \(h_L\) 当扩散初态 \(x_0\)，前向加噪到高斯，反向去噪时以短期会话兴趣 \(\{h_i^S\}\) 为条件，生成同时保留长期偏好、吸收短期动态的融合表示 \(\hat{x}_0\)。

方法详解¶

整体框架¶

iFusion 把长期兴趣 \(h_L\) 作为扩散的起点 \(x_0\)，前向过程按方差表 \(\{\beta_t\}\) 逐步加噪 \(q(x_t|x_0)=\mathcal{N}(\sqrt{\bar\alpha_t}x_0,(1-\bar\alpha_t)I)\) 直到收敛为标准高斯；反向过程则在短期会话兴趣引导下逐步去噪，最终得到"生成式融合兴趣 GFI"，再与其它特征拼接送入最终层预测 pCTR。两个核心组件支撑反向过程：DCFG 负责在扰动下提供鲁棒引导，MARN 负责在去噪链上做多会话的混合引导与兴趣演化建模。

flowchart LR
    A[长期兴趣 h_L] -->|x_0 前向加噪| B[噪声态 x_T]
    C[短期会话兴趣 h_i^S] --> D[DCFG 解耦引导]
    D -->|核心偏好 g_cp / 瞬态波动 g_tf| E[MARN 自回归去噪]
    B --> E
    E --> F[生成式融合兴趣 GFI x_0]
    G[其它特征] --> H[Final Layer]
    F --> H --> I[pCTR]

关键设计¶

1. DCFG：把引导拆成"核心偏好"和"瞬态波动"两路，对症下药。 标准的分类器无关引导（CFG）用单一缩放因子 \(\gamma\) 混合有条件和无条件预测 \(\hat f_\theta=f_\theta(x_t,t)+\gamma(f_\theta(x_t,t,g)-f_\theta(x_t,t))\)，它假设引导信号质量均匀；但兴趣表示的信噪比远低于图像生成里的引导，稳定偏好和瞬时波动同时混在一起，统一缩放会被噪声拖累。作者借随机热力学视角，把用户兴趣动态看成在复合势场 \(V(x_t|g)=V(x_t|g_{cp})+V(x_t|g_{tf})\) 里运动的粒子——核心偏好 \(g_{cp}\) 造出深势阱（稳定吸引子），瞬态波动 \(g_{tf}\) 只造浅扰动。据此用两条专门结构做功能解耦：核心偏好走"低通"路径 \(h_{cp}=\text{AvgPool}(\text{Encoder}(g))\)（强正则 + 全局池化求稳），瞬态波动走"高通"路径 \(h_{tf}=\text{Attention}(\text{Encoder}(g))\)（注意力抓变化）。Theorem 1 证明：只要两路能量函数的 Hessian 主特征空间近似正交，条件 score 就能精确分解 \(\nabla_{x_t}\log p=\gamma_{cp}(-\nabla E_{cp})+\gamma_{tf}(-\nabla E_{tf})\)，从而把"功能解耦"建立在架构约束上而非苛刻的条件独立假设上，最终引导写成 \(\hat f_\theta=f_\theta(x_t,t)+\sum_{j\in\{cp,tf\}}\gamma_j(f_\theta(x_t,t,g_j)-f_\theta(x_t,t))\)。

2. MARN：用自回归去噪把多会话引导串成链，而非并行平均。 当前扩散推荐多用单向量引导 + 非自回归（NAR）结构（MLP/Transformer 并行注入），并行生成抓不住细粒度的会话依赖，遇到强时序耦合或非线性引导关系就力不从心。MARN 改成沿会话链做条件——把 \(K\) 个短期会话兴趣按链式法则顺序处理，前一个会话的去噪输出充当后一个会话生成的"含噪表示"，相当于把复杂的联合分布分解成条件链。Theorem 2 给出"AR 在多会话扩散里严格优于 NAR"的三点保证：当会话间存在依赖 \(I(s_i;s_j)>0\) 时 AR 有更紧的 KL 上界、\(O(K)\) 更低的梯度方差、以及随梯度自适应的会话权重 \(\alpha_k\propto\exp(-\|\nabla_{s_k}L\|/\sigma_t)\)；只有当会话独立或延迟卡得极死时 NAR 才打平。这一优势随会话数 \(K\) 超线性增长。

3. 一致性约束：用噪声不变表示换"一步推断"，满足线上低延迟。 扩散迭代去噪太慢，工业 CTR 服务扛不住。作者加一项一致性损失 \(L_{cons}=\mathbb{E}_{t_1,t_2}\|f_\theta(x_{t_1},t_1)-f_\theta(x_{t_2},t_2)\|^2\)，强迫不同噪声水平下生成的兴趣表示彼此一致，从而学到噪声不变表示，可用极少采样步（实验里 cosine 调度 + 单步推断即最优）拿到高质量生成，把扩散模型真正落到实时系统。

4. 多目标训练与零数据兜底。 总损失 \(L=L_{CE}+\lambda_1 L_{Evol}+\lambda_2 L_{Dist}+\lambda_3 L_{cons}+\beta\|\Theta\|^2\)：交叉熵管 CTR 主任务，\(L_{Evol}\)（下一会话兴趣的余弦距离）管兴趣演化，\(L_{Dist}=\|g_{cp}^\top g_{tf}\|_2^2\) 强制两路引导解耦，\(L_{cons}\) 管效率。理论上还证明（Theorem 3/4）在行为数据完全缺失时，去噪过程会沿兴趣流形回退到群体级统计先验 \(\epsilon_\theta(z_t,t)=\mathbb{E}_{z_0\sim p_{data}}[\epsilon|z_t]\)，给冷启动/稀疏场景一个合理兜底。

实验关键数据¶

主实验（AUC / RelaImpr，四数据集）¶

方法	Amazon AUC	Taobao AUC	Ali Ads AUC	Industrial AUC
AvgPooling DNN	0.7689	0.8539	0.6352	0.7512
DIN	0.8162	0.8995	0.6422	0.7564
DIEN	0.8377	0.9222	0.6431	0.7611
SIM / ETA / SDIM	0.842x	0.927x	0.659x	0.7625~0.7628
TWIN / TWIN-V2	0.8431/0.8433	0.9288/0.9289	0.6601/0.6607	0.7630/0.7634
MTGR	0.8440	0.9296	0.6615	0.7648
DiffuRec / DreamRec / DiffuMIN	0.8395~0.8427	0.9258~0.9288	0.6584~0.6595	0.7607~0.7623
iFusion (Ours)	0.8512	0.9347	0.6652	0.7685

iFusion 在四个数据集上全面领先，工业集相对 AvgPooling 的 RelaImpr 达 +6.89%（vs 最强基线 MTGR 的 +5.41%）。在 CTR 场景下 0.001 的 AUC 提升即被视为有实际意义。值得注意的是，现有扩散方法（DiffuRec/DreamRec/DiffuMIN）反而不如 MTGR，作者归因于它们的引导机制无法解耦核心偏好与瞬态波动。

消融实验（工业数据集 AUC）¶

维度	配置	AUC
DCFG	w/o guidance / w/ CFG / Ours	0.7607 / 0.7663 / 0.7685
MARN	NAR-MLP / NAR-Att / AR-Att / Ours	0.7644 / 0.7650 / 0.7689 / 0.7685
一致性	w/o cons (12.9 b/s) / Ours (16.2 b/s)	0.7686 / 0.7685

DCFG 相对纯 CFG 再提 ~0.0022 AUC，验证"解耦引导"必要性；naively 灌入全部引导反而掉点。
MARN 的增益来自跨会话的层次化处理而非网络容量——加深内部网络不再提升，说明效果源于"兴趣空间融合"范式。
一致性损失几乎不损 AUC（0.7686→0.7685），却把推断速度提 +25.6%（12.9→16.2 batches/sec）。

关键发现¶

噪声调度 + 采样步：cosine 调度配合一致性损失，单步推断即达最优；步数增加反而因误差累积掉点（图 4a，各调度 r≈−0.95~−0.97）。
会话数 scaling：会话越多，AR(MARN) 相对 NAR 优势越明显，印证 Theorem 2 的超线性结论。
效率：离线推断耗时仅 +0.3%，线上 TP99 延迟仅 +0.302%。
线上 A/B（7 天、上亿用户）：CTR +2.44%、eCPM +2.61%（均 p<0.001）。

亮点与洞察¶

把"融合"问题生成化：跳出"拼接/注意力/门控"的线性思维，把长短期融合看成"以短期为条件、对长期去噪"的条件生成，这是范式层面的重述。
解耦不靠条件独立，而靠架构约束：DCFG 用低通/高通两条结构 + Hessian 正交近似来实现功能解耦，绕开了苛刻的统计假设，理论与实现衔接得很自然。
AR vs NAR 给了可证明的优越性：Theorem 2 把"自回归去噪在多会话依赖下更优"量化成 KL/梯度方差/自适应权重三条，并被会话 scaling 实验佐证。
真正落地：一致性损失换来单步推断，离线/线上延迟开销都 <0.3%，配合显著 A/B 收益，工业可用性强。

局限与展望¶

理论假设偏强：Theorem 1 依赖两路能量 Hessian 主特征空间"近似正交"，Theorem 2 的优越性建立在多会话依赖结构上，实际数据是否满足、\(\zeta\) 残差相关性多大，正文未给经验度量。
超参较多：四项损失权重 \(\lambda_1,\lambda_2,\lambda_3,\beta\) 加上两个引导缩放 \(\gamma_{cp},\gamma_{tf}\)，调参成本和泛化稳健性值得关注。
场景局限于 CTR 排序：方法聚焦点击率预测，是否能迁移到多目标排序、序列推荐生成等任务尚待验证。
零数据理论的实证：Theorem 3/4 的群体先验兜底主要在附录给出，正文缺乏冷启动场景的系统实验。

评分¶

新颖性: ⭐⭐⭐⭐ 把长短期兴趣融合重述为条件扩散生成、并用 DCFG/MARN 解决引导解耦与多会话依赖，范式上确有新意。
实验充分度: ⭐⭐⭐⭐ 四数据集 + 消融 + 超参 + 效率 + 上亿用户线上 A/B，覆盖完整；略欠零数据/冷启动的正文实证。
写作质量: ⭐⭐⭐⭐ 动机三痛点、方法两组件、四个 RQ 组织清晰；定理较多但与设计对应明确。
价值: ⭐⭐⭐⭐ 离线/线上双验证、延迟开销 <0.3%、CTR +2.44%，工业落地价值高。