Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching¶
会议: ICLR 2026
arXiv: 2602.15752
代码: GitHub
领域: 推荐系统 / AI安全
关键词: 双边匹配, 用户留存, 动态学习排序, 在线约会平台, 留存优化
一句话总结¶
提出Matching for Retention(MRet)算法,首次将双边匹配平台的优化目标从"最大化匹配数"或"满足公平性"转向"直接最大化用户留存率",通过学习个性化留存曲线并利用凹函数性质将NP-hard的双方留存增益联合优化降为O(N log N)的排序问题,在合成数据和日本大型约会平台真实数据上均显著提升留存。
研究背景与动机¶
领域现状:双边匹配平台(在线约会、招聘等)的推荐算法核心目标是最大化匹配总数。系统为每个到达的用户从对面用户池中生成排序推荐列表,用户查看后点赞或跳过,互相点赞形成匹配。大量文献围绕Reciprocal Recommender Systems展开,专注提高匹配效率。
现有痛点:最大化匹配数导致严重的"马太效应"——热门用户被反复推荐、积累大量匹配,冷门用户很少出现在推荐列表中,几乎得不到匹配。真实数据(来自日本大型约会平台)清晰显示匹配数少的用户下月离开平台的概率显著更高,且前几次匹配对留存的边际增益远大于后续匹配。对依赖订阅模式的平台而言,用户流失直接等于收入损失。
核心矛盾:公平性方法(如FairCo的曝光公平)被视为解决匹配不均的手段,但公平性本身不是平台的终极目标。公平性只在一个特定条件下有效——热门用户需要高曝光才能留存而冷门用户需要少量曝光即可满意。然而实际留存行为因人而异,这个条件不一定成立。用户不会因为"曝光被公平分配"就决定留下,把留存寄望于公平性相当于"碰运气"。
本文目标:形式化定义一个新问题——直接最大化双边匹配平台中所有用户的留存率,而非匹配数或公平性。
切入角度:将留存率建模为匹配数的个性化凹函数 \(f(x, m)\),将推荐排序转化为最大化双方留存增益之和的优化问题,利用凹函数性质获得可高效求解的下界。
核心 idea:不要优化匹配数或公平性这些代理目标,直接优化你真正关心的——用户留存。
方法详解¶
整体框架¶
MRet是一个动态学习排序(LTR)框架,运行流程如下:(1)离线阶段,从用户画像和交互历史学习个性化留存曲线 \(f(x, m)\),表示用户 \(x\) 在累计获得 \(m\) 次匹配后的留存概率;(2)在线阶段,每当用户 \(x\) 到达时,为对面每个候选用户 \(y\) 计算一个联合分数 \(\text{Score}(y)\),该分数同时考虑推荐 \(y\) 给 \(x\) 带来的 \(x\) 的留存增益和 \(y\) 自身的留存增益;(3)按分数降序排列生成推荐列表。整个过程的计算复杂度为 \(O(N \log N)\),其中 \(N\) 为候选用户数。每个时间步结束后更新双方的累计匹配数 \(m_{1:\tau}\),使推荐动态适应。
关键设计¶
-
个性化留存曲线建模
- 功能:为每个用户学习一条"匹配数→留存概率"的映射函数 \(f(x, m)\)
- 核心思路:用XGBoost在 \(\{x, m, u\}_{i=1}^{n}\) 数据集上训练回归模型(\(x\)=用户特征,\(m\)=匹配数,\(u\)=留存标签)。假设留存函数为凹函数(Assumption 1),即匹配数增加带来的留存增益递减。合成实验中用分段函数建模:\(m \leq b_x\) 时为抛物线上升,\(m > b_x\) 时指数趋缓,其中 \(b_x\) 为用户 \(x\) 的"满意匹配数"。真实实验中对60K条记录做k-means聚类(5簇),组内按匹配数取均值拟合
- 设计动机:真实数据清楚显示留存曲线形如凹函数——前几次匹配急剧提升留存,之后趋于饱和。个性化是必要的,因为不同用户的满意匹配数 \(b_x\) 不同。与公平性方法假设统一的曝光-留存关系不同,MRet直接建模每个用户的留存需求
-
双方留存增益联合优化
- 功能:在选择推荐列表时同时考虑接收方和被推荐方的留存概率变化,避免单方面优化
- 核心思路:定义最优排序为最大化双方留存增益之和的 \(\sigma_\tau^*\)——接收方 \(x\) 的增益为 \(f(x, m_{1:\tau}(x) + m_\tau(x)) - f(x, m_{1:\tau}(x))\),被推荐方每个候选 \(y\) 的增益为 \(f(y, m_{1:\tau}(y) + \alpha_k r(y,x)) - f(y, m_{1:\tau}(y))\)。直接优化是NP-hard的(需搜索所有K-排列),通过凹函数的Jensen不等式(Lemma 1对接收方,Lemma 2对被推荐方)分解为逐候选独立评分:\(\text{Score}(y) = \frac{1}{A} f(x, m_{1:\tau}(x) + A \cdot r(x,y)) + \frac{1}{\alpha_{\max}}[f(y, m_{1:\tau}(y) + \alpha_{\max} r(x,y)) - f(y, m_{1:\tau}(y))]\)
- 设计动机:toy example(图2)展示——Candidate A对被推荐方最优,Candidate B对接收方最优,但总增益最高的是Candidate C(60%),不等于任何一方的单独最优。仅考虑接收方会忽略被推荐方的流失风险。由重排不等式,将高Score候选分配到高可见度位置即可最大化下界
-
基于凹函数性质的NP-hard→O(N log N)高效求解
- 功能:将原始NP-hard的组合优化降为简单的argsort操作
- 核心思路:利用Assumption 1(凹函数),Lemma 1提供接收方的Jensen-type下界——将 \(f(x, m + \sum_k \alpha_k r(x, \sigma_k))\) 分解为各候选独立项之和。Lemma 2提供被推荐方的线性下界——候选 \(y\) 在位置 \(k\) 的贡献可用 \(\alpha_{\max}\) 位置的增益来下界。两个引理组合后,原始耦合优化变为 \(\max_\sigma \sum_k \alpha_k \text{Score}(\sigma_k)\),只需对所有候选计算Score值然后降序排列
- 设计动机:搜索所有K-排列的指数复杂度在实际平台上不可行(用户池可达百万级)。附录还提供了MRet与NP-hard最优解的对比实验,验证下界近似的质量
损失函数 / 训练策略¶
留存函数 \(f\) 通过XGBoost回归学习,训练数据来自平台历史记录(合成实验n=5000样本,匹配数从均值2.0的指数分布采样;真实实验用60K条含用户特征、累计匹配数和留存标签的记录)。在线推荐阶段无需梯度优化——每个时间步直接前向计算Score并排序。排序位置权重 \(\alpha_k = 1/k\)(默认设置)。
实验关键数据¶
主实验¶
合成数据实验(|X|=|Y|=1000用户,K=5推荐,T=2000时间步,κ=0.5人气偏差,10次均值):
| 方法 | 累计匹配数/人 | 用户留存率 | 核心观察 |
|---|---|---|---|
| Uniform | 最低 (1.0×基准) | ~0.78 | 随机推荐基线 |
| Max Match | 最高 (~1.4×基准) | ~0.78 | 匹配最多但留存≈Uniform |
| FairCo (λ=100) | 中等 | ~0.80 | 公平性带来有限提升 |
| MRet | ~0.7× MaxMatch | ~0.85 | 用70%匹配达最高留存 |
| MRet (oracle) | 中等 | ~0.88 | 使用ground-truth f的上界 |
真实数据实验(日本大型约会平台,1000男×1000女,ALS补全匹配矩阵,留存=次月登录):
| 方法 | 留存率表现 | 核心观察 |
|---|---|---|
| Uniform | 最低 | 匹配极稀疏时随机推荐近乎无效 |
| FairCo | 低 | 稀疏匹配下公平分配导致几乎无有效匹配 |
| Max Match | 中等偏高 | 稀疏数据下集中推荐反而相对有效 |
| MRet | 最高 | 真实数据留存函数不满足凹函数假设下仍最优 |
消融实验¶
| 消融维度 | 变量范围 | 关键结论 |
|---|---|---|
| 人气偏差κ | 0→1 | MRet在所有κ下留存最高,κ越大优势越明显 |
| FairCo超参λ | 1~1000 | 任何λ设置下FairCo均弱于MRet |
| 匹配概率噪声 | 不同噪声水平 | MRet对r(x,y)估计误差鲁棒 |
| 人气时间漂移 | 动态popularity | MRet因实时更新m而自然适应 |
| 等曝光公平准则 | 替换FairCo公平定义 | 换公平定义不改变结论 |
| 用户规模 | 不同 | X |
关键发现¶
- MaxMatch获得最多匹配但留存与随机推荐几乎相同——"匹配数多≠用户留存好"是本文最核心的实证发现
- 图5b是论文最关键的evidence:FairCo的 \((m_{1:T} - b)\) 分布呈正态(大量用户偏离满意匹配数),MRet的分布几乎全部≥0(绝大部分用户达到或超过满意匹配数)。这直接解释了公平性为何不能替代留存优化
- MRet只用约70%的匹配数就达到显著更高留存——稀缺匹配被精准分配到边际留存增益最大处
- 真实数据的留存函数不满足凹函数假设(Assumption 1),但MRet仍表现最优,说明算法鲁棒性超越理论假设
亮点与洞察¶
- 问题定义本身是最大贡献——从代理目标(匹配数/公平性)到终极目标(留存率)的范式转换,这个思维可推广到所有推荐系统
- NP-hard→O(N log N)的理论转化优雅:两个引理利用凹函数性质获得可分解下界,有严格的数学基础而非启发式
- 图5b的可视化极具说服力——以直方图形式直观解释"公平分配≠满足个性化留存需求"
- 实验设计包含Oracle上界MRet(best),为方法性能提供了清晰的天花板参照
局限与展望¶
- 留存函数f的学习受限于历史数据量,冷启动用户缺乏交互历史来估计个性化曲线
- 假设匹配概率r(x,y)已知或已由上游模型估计好,r的误差会传播到留存优化中
- 留存定义为"下月是否登录"较粗粒度,更精细的LTV/subscription续订率可能更有商业价值
- 每个时间步独立贪心优化,未考虑多步前瞻——强化学习视角下的长期规划可能进一步提升
相关工作与启发¶
- "代理目标→终极目标"的思维可推广到电商推荐(CTR→购买→复购→LTV)、内容平台(点击→观看时长→日活→留存)等场景
- FairCo是主要对比对象,MRet可视为其"目标函数升级版"——框架结构类似(动态LTR+逐步调整),但优化目标从公平性换为留存
- 与RL-based长期参与优化的区别:MRet使用贪心逐步优化+理论下界保证,更简洁实用,避免了RL的训练不稳定性和样本效率问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义新颖,从代理目标到终极目标的转变有启发性,NP-hard→O(N log N)的理论贡献扎实
- 实验充分度: ⭐⭐⭐⭐ 合成+真实数据,6种消融维度,有Oracle上界参照,但真实数据仅1000×1000规模
- 写作质量: ⭐⭐⭐⭐ 动机论证充分,toy example(图2)和分布对比(图5b)直观有力,理论推导清晰
- 价值: ⭐⭐⭐⭐ 对订阅制双边平台有直接应用价值,"优化终极目标"思路可广泛推广