跳转至

LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection

会议: ACL 2025
arXiv: 2509.18719
代码: 无
领域: 强化学习 / LLM应用
关键词: 欺诈检测, 强化学习, LLM奖励函数设计, 进化算法, 电商支付

一句话总结

将电商支付欺诈检测建模为多步 MDP,用 LLM(Mixtral/LLaMA/Gemma)通过进化算法自动生成和优化 RL 奖励函数,在 eBay 真实交易数据上比人工设计奖励函数和传统 SL 基线显著提升 dollar-wise precision。

研究背景与动机

领域现状:电商支付欺诈检测主要依赖监督学习(SL)模型(如 GBDT)在各支付阶段独立打分。但 SL 模型在各阶段独立运行,无法跨阶段联合优化,也无法直接优化业务指标(如 precision-recall 权衡)。

现有痛点:(a) SL 模型各阶段独立决策,不能建模阶段间的序列依赖性;(b) 业务要求 Pre-auth 阶段捕获更多欺诈(因为晚期检测成本更高),但 SL 无法直接表达此类跨阶段约束;(c) RL 可以解决上述问题,但设计好的奖励函数需要大量领域专家经验。

核心矛盾:RL 的成功高度依赖奖励函数设计,而人工设计探索空间有限。

本文目标 如何自动化 RL 奖励函数的设计和优化?

切入角度:利用 LLM 的推理和代码生成能力,通过进化算法迭代优化奖励函数代码。

核心 idea:LLM 作为 RL 奖励函数的自动设计器,通过进化循环根据 agent 表现反馈不断改进奖励。

方法详解

整体框架

系统分为两层:(1) 内层:标准 RL 训练——将支付交易建模为两步 MDP(Pre-auth → Post-auth),agent 在每步决定 block/allow,用 REINFORCE 算法训练;(2) 外层:LLM 进化循环——每轮由 LLM 生成奖励函数代码候选 → 训练 RL agent → 评估 → 反馈给 LLM → 下一轮生成更好的奖励函数。

关键设计

  1. 交易风险 MDP 建模:

    • 功能:将支付流程(Pre-auth → Issuer check → Post-auth)建模为有限步 MDP
    • 核心思路:状态 \(\mathcal{S}_i\) = 各阶段 SL 模型分数 + 阶段指示符,动作 \(\mathcal{A}_i\) = {block, allow}。优化目标:最大化 \(\$TP - \$FP\),约束 \(\$TP_{\text{stage1}} > \$TP_{\text{stage2}}\)(早期检测更有价值)
    • 设计动机:传统 SL 各阶段独立打分无法表达跨阶段约束,MDP 天然支持序列决策
  2. LLM 进化式奖励函数优化:

    • 功能:LLM 接收任务描述、RL 环境代码、历史奖励函数和性能反馈,生成新的奖励函数代码
    • 核心思路:进化算法迭代约 60 轮(\(N_{iter} \approx 60\)),每轮采样约 10 个候选(\(N_{samples} \approx 10\)),训练 agent 约 150 个 episode,评估后将最佳/次优/失败经验反馈给 LLM。支持 zero-shot(不给示例)和 few-shot(给人工设计的奖励函数作参考)
    • 设计动机:人工设计的 precision-constraint 奖励函数(公式 \(R = (1-\alpha_i)\$TP_i - \alpha_i\$FP_i\))有效但探索空间有限
  3. 人工奖励函数基线:

    • 功能:基于业务约束推导精确率约束奖励
    • 核心思路:从 precision 约束 \(\frac{\$TP_i}{\$TP_i + \$FP_i} > \alpha_i\) 通过 Lagrangian 松弛推导出 \(R_{\text{precision}}^i = (1-\alpha_i)\$TP_i - \alpha_i\$FP_i\)
    • 设计动机:提供有效但可被超越的基线

损失函数 / 训练策略

REINFORCE 算法 + Adam 优化器,3 层神经网络 [8, 32, 8],GELU 激活 + Dropout。离线 RL,使用历史交易数据。

实验关键数据

主实验

Recall 级别 SL 基线 $Prec RL (人工奖励) $Prec RL (LLM few-shot, LLaMA-3-8B) $Prec
@80% 66.57% 69.65% 73.74%
@85% 58.79% 64.22% 71.70%
@90% 51.27% 55.70% 55.90%

消融实验

配置 (Test S, @85% Recall) $Precision 说明
SL Baseline 58.79% 传统 SL 模型
RL + Human Reward 64.22% 人工设计奖励
RL + Mixtral Zero-shot 69.62% LLM zero-shot
RL + Mixtral Few-shot 70.73% LLM few-shot
RL + LLaMA-3 Few-shot 71.70% 最佳 LLM

关键发现

  • LLM 进化奖励 > 人工奖励:在 @85% recall 下 $Prec 从 64.22% 提升到 71.70%(+7.48 pp),说明 LLM 能探索到人类未发现的奖励设计空间
  • Few-shot > Zero-shot 但差距不大:Zero-shot 也能达到竞争力(69.62% vs 70.73%),说明 LLM 有较强的领域理解能力
  • 长期评估稳定:6 个月 Test L(617 万交易)验证了 agent 的时间一致性
  • LLM 生成的奖励具有可解释性:zero-shot 生成的代码引入了阶段差异化权重(stage0: 1.2x, stage1: 0.9x),符合业务逻辑

亮点与洞察

  • LLM 作为 RL 奖励设计器:将 LLM 的代码生成能力用于 RL 奖励函数自动设计,是一个有前景的范式。可迁移到任何需要复杂奖励设计的 RL 场景。
  • 进化循环的有效性:通过性能反馈闭环(成功/失败经验总结),LLM 能持续改进奖励设计。与 Ma et al. (2023) 的机器人领域工作相呼应,但首次应用于金融风控。
  • 工业级验证:使用 eBay 真实交易数据(百万级),6 个月长期评估,有说服力。

局限与展望

  • 状态表示仅使用 SL 模型分数,未纳入原始交易特征
  • 仅验证了 Pre-auth + Post-auth 两步 MDP,更长决策链未探索
  • 进化循环计算成本高(60轮 × 10采样 × 150 episode × 40min/轮),工业部署需优化
  • LLM 生成的奖励函数的部分设计(如具体参数选择)仍难以完全解释

相关工作与启发

  • vs Ma et al. (Eureka):Eureka 在机器人任务上用 LLM 进化奖励函数,本文首次将该范式迁移到金融风控
  • vs 传统 SL 欺诈检测:SL 各阶段独立、无法跨阶段优化;RL 天然支持序列决策和业务约束
  • vs 手动 RL 奖励设计:人工设计已有效(+5.4pp at @85%),LLM 进一步提升(+12.9pp),自动化消除了人工探索瓶颈

评分

  • 新颖性: ⭐⭐⭐⭐ LLM+RL 进化奖励设计首次用于金融风控,有开创性
  • 实验充分度: ⭐⭐⭐⭐ 真实数据 + 长期评估 + 3种LLM + zero/few-shot 对比
  • 写作质量: ⭐⭐⭐ 工业论文风格,数学推导清晰但部分细节可读性一般
  • 价值: ⭐⭐⭐⭐ 工业实用性强,LLM进化RL范式有推广潜力