Bi-Level Decision-Focused Causal Learning for Large-Scale Marketing Optimization¶
会议: NeurIPS 2025
arXiv: 2510.19517
代码: 无(已在美团部署)
领域: 因果推理/运筹优化
关键词: decision-focused learning, causal inference, bilevel optimization, marketing, uplift modeling
一句话总结¶
提出 Bi-DFCL,通过双层优化框架联合利用观测数据和 RCT 实验数据来训练营销资源分配模型:上层用 RCT 数据的无偏决策损失端到端训练 Bridge Network 来动态纠正下层在观测数据上的偏差,同时设计了基于原始问题的可微代理决策损失(PPL/PIFD)和隐式微分算法,解决了传统两阶段方法的预测-决策不一致和偏差-方差困境。已在美团大规模在线部署。
研究背景与动机¶
领域现状:在线平台的营销优化(如优惠券分配)是一个经典的资源分配问题。主流方案是两阶段方法(TSM):第一阶段用 ML 预测个体处理效果,第二阶段用运筹(OR)优化做分配决策。
现有痛点:(1) 预测-决策不一致:ML 优化预测精度,OR 优化决策质量,但更好的预测不一定产生更好的决策,尤其在非凸 NP-hard 资源分配问题中预测误差会被放大;(2) 偏差-方差困境:观测数据(OBS)丰富但有偏(选择偏差、位置偏差),RCT 数据无偏但稀缺高方差。
核心矛盾:Decision-Focused Learning (DFL) 可以缩小预测-决策差距,但因反事实问题只能在稀缺的 RCT 数据上计算决策损失,反而加剧了偏差-方差困境。
本文目标 同时解决 TSM 和现有 DFL 的两个挑战——预测-决策对齐 + 偏差-方差平衡。
切入角度:利用 RCT 数据的无偏性来指导 OBS 数据上的学习方向——将决策损失和预测损失分别分配到双层优化的上层和下层。
核心 idea:双层优化中,上层用 RCT 数据上的无偏决策损失训练 Bridge Network,下层用 OBS 数据上的(被 Bridge 纠正的)预测损失训练 Target Network,实现数据互补和目标对齐。
方法详解¶
整体框架¶
Target Network \(\mathcal{F}_\theta\) 在大量 OBS 数据上训练预测损失(下层),Bridge Network \(\mathcal{G}_\phi\) 在 RCT 数据上训练决策损失(上层)。Bridge 输出门控系数 \(w\),混合 Teacher Network 和 Target Network 的预测来生成反事实伪标签,动态纠正 OBS 数据的偏差。
关键设计¶
-
无偏决策损失估计:
- 功能:利用 RCT 数据的随机化性质推导决策质量的无偏估计量。
- 核心思路:通过强可忽略性假设,将决策损失重写为 \(\mathcal{L}_\text{DL} = -\mathbb{E}[\frac{N}{N_{t_i}} \cdot z^*_{it_i} \cdot r_{it_i}]\),其中权重 \(N/N_{t_i}\) 修正了 RCT 中不同处理组的不平衡。
- 设计动机:真实的决策损失因反事实不可观测无法直接计算,无偏估计量让我们可以在 RCT 数据上可靠评估决策质量。
-
Primal Policy Learning (PPL) 代理损失:
- 功能:将离散的 argmax 决策松弛为连续可微的损失。
- 核心思路:用 Softmax 松弛替代 indicator 函数:\(z'_{it_i} = \frac{\exp[\hat{r}_{it_i} - \lambda^* \hat{c}_{it_i}]}{\sum_j \exp[\hat{r}_{ij} - \lambda^* \hat{c}_{ij}]}\)。这直接在原始问题的约束(特定预算 \(B\))下操作,比 DFCL 的对偶决策损失(考虑所有预算)更对齐实际场景。
- 设计动机:离散优化的 indicator 函数不可微,需要可微代理来让梯度流过决策层。
-
双层优化 + 隐式微分:
- 功能:解决上层梯度计算中的 Jacobian \(\partial\theta^*/\partial\phi\) 不可解析的问题。
- 核心思路:利用隐函数定理,从下层最优性条件 \(\partial\mathcal{L}_\text{PL}/\partial\theta|_{\theta=\theta^*} = 0\) 出发,求解 Hessian 方程得到 Jacobian。用共轭梯度算法避免显式计算 Hessian 逆,仅需 Hessian-vector product。
- 设计动机:显式微分(unrolling gradient steps)依赖优化路径且梯度容易消失;隐式微分与路径无关,更稳定。
-
Bridge Network 门控机制:
- 功能:自适应混合 Teacher 和 Target 的预测来生成 OBS 数据的反事实伪标签。
- 核心思路:门控系数 \(w = \text{sigmoid}(\mathcal{G}_\phi(i,j))\) 控制对 Teacher(无偏但高方差)和 Target(有偏但低方差)的依赖程度。通过上层决策损失的梯度信号动态调整。
- 设计动机:直接用 Teacher 预测做伪标签高方差(RCT 少),直接用 Target 自身预测没有修正作用。Bridge 在两者之间自适应平衡。
损失函数 / 训练策略¶
下层:MSE 预测损失在 OBS 数据上。上层:PPL 或 PIFD 决策代理损失在 RCT 数据上。每 k=5 个 batch 更新一次 Bridge Network。
实验关键数据¶
主实验¶
| 方法 | CRITEO-UPLIFT | 美团营销I | 美团营销II |
|---|---|---|---|
| TSM (最优 uplift) | baseline | baseline | baseline |
| DHCL | 改善但过拟合 | 改善 | 改善 |
| DFCL | 改善 | 改善 | 改善 |
| Bi-DFCL | 显著优于所有 | 显著优于所有 | 显著优于所有 |
在线 A/B 测试¶
- 在美团大规模线上 A/B 测试中,Bi-DFCL 显示统计显著的收入提升
- 已在多个真实营销场景中部署
消融实验¶
| 配置 | 说明 |
|---|---|
| w/o 双层优化(只在 RCT 上训练) | 高方差,过拟合 |
| w/o Bridge Network | 无法纠正 OBS 偏差 |
| PPL vs PIFD | PIFD 保留原始优化景观,有时更优 |
| 显式微分 vs 隐式微分 | 隐式微分更稳定 |
关键发现¶
- 双层优化框架有效解决偏差-方差困境:OBS 提供低方差泛化信号,RCT 提供无偏决策指导。
- 原始问题的决策损失比对偶更有效:PPL 直接在特定预算约束下操作,比 DFCL 的对偶损失更实际。
- 隐式微分优于显式微分:更稳定,不受优化路径影响。
- 自适应平衡替代手动调参:Bridge 自动学习 OBS 和 RCT 的混合比例,消除了 DFCL 中 \(\alpha\) 的手动搜索。
亮点与洞察¶
- 双层优化将数据类型和损失类型精确对齐:决策损失-RCT(保证无偏),预测损失-OBS(保证泛化)——这种设计比简单混合两个损失在同一数据上要深刻得多。
- Bridge Network 的门控机制有效实现了"用 RCT 的无偏信号修正 OBS 学习方向",是一个可迁移到其他因果推断场景的设计模式。
- 大规模工业部署验证:在美团这样的大规模平台上的在线 A/B 测试提供了强有力的实际验证。
局限与展望¶
- 假设 RCT 数据可获得:很多场景中 RCT 数据获取成本极高或不可行。
- MCKP 的 NP-hard 性质:虽然 Lagrangian 松弛提供了近似解,但在极端场景下近似质量可能下降。
- 处理维度有限:当前只考虑了有限的离散处理选项,未扩展到连续处理空间。
相关工作与启发¶
- vs DFCL (Zhou et al.): DFCL 只用 RCT 数据且需手动调 \(\alpha\),Bi-DFCL 联合利用 OBS+RCT 且自适应平衡。
- vs 标准 DFL: 通用 DFL 方法不处理反事实和营销特定约束,Bi-DFCL 针对性设计了无偏估计量和代理损失。
- vs Meta-learning: 双层优化在形式上类似 MAML,但目标不同。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 双层优化 + Bridge Network 的设计新颖深刻
- 实验充分度: ⭐⭐⭐⭐⭐ 公开数据集 + 工业数据集 + 在线 A/B 测试
- 写作质量: ⭐⭐⭐⭐ 技术细节完整但公式密集
- 价值: ⭐⭐⭐⭐⭐ 已在大规模平台部署,实际价值高