LLM-Enhanced Self-Evolving Reinforcement Learning for Multi-Step E-Commerce Payment Fraud Risk Detection¶

会议: ACL 2025
arXiv: 2509.18719
代码: 无
领域: 强化学习 / LLM应用
关键词: 欺诈检测, 强化学习, LLM奖励函数设计, 进化算法, 电商支付

一句话总结¶

将电商支付欺诈检测建模为多步 MDP，用 LLM（Mixtral/LLaMA/Gemma）通过进化算法自动生成和优化 RL 奖励函数，在 eBay 真实交易数据上比人工设计奖励函数和传统 SL 基线显著提升 dollar-wise precision。

研究背景与动机¶

领域现状：电商支付欺诈检测主要依赖监督学习（SL）模型（如 GBDT）在各支付阶段独立打分。但 SL 模型在各阶段独立运行，无法跨阶段联合优化，也无法直接优化业务指标（如 precision-recall 权衡）。

现有痛点：(a) SL 模型各阶段独立决策，不能建模阶段间的序列依赖性；(b) 业务要求 Pre-auth 阶段捕获更多欺诈（因为晚期检测成本更高），但 SL 无法直接表达此类跨阶段约束；(c) RL 可以解决上述问题，但设计好的奖励函数需要大量领域专家经验。

核心矛盾：RL 的成功高度依赖奖励函数设计，而人工设计探索空间有限。

本文目标 如何自动化 RL 奖励函数的设计和优化？

切入角度：利用 LLM 的推理和代码生成能力，通过进化算法迭代优化奖励函数代码。

核心 idea：LLM 作为 RL 奖励函数的自动设计器，通过进化循环根据 agent 表现反馈不断改进奖励。

方法详解¶

整体框架¶

系统分为两层：(1) 内层：标准 RL 训练——将支付交易建模为两步 MDP（Pre-auth → Post-auth），agent 在每步决定 block/allow，用 REINFORCE 算法训练；(2) 外层：LLM 进化循环——每轮由 LLM 生成奖励函数代码候选 → 训练 RL agent → 评估 → 反馈给 LLM → 下一轮生成更好的奖励函数。

关键设计¶

交易风险 MDP 建模:
- 功能：将支付流程（Pre-auth → Issuer check → Post-auth）建模为有限步 MDP
- 核心思路：状态 $\mathcal{S}_i$ = 各阶段 SL 模型分数 + 阶段指示符，动作 $\mathcal{A}_i$ = {block, allow}。优化目标：最大化 $\$TP - \$FP$，约束 $\$TP_{\text{stage1}} > \$TP_{\text{stage2}}$（早期检测更有价值）
- 设计动机：传统 SL 各阶段独立打分无法表达跨阶段约束，MDP 天然支持序列决策
LLM 进化式奖励函数优化:
- 功能：LLM 接收任务描述、RL 环境代码、历史奖励函数和性能反馈，生成新的奖励函数代码
- 核心思路：进化算法迭代约 60 轮（$N_{iter} \approx 60$），每轮采样约 10 个候选（$N_{samples} \approx 10$），训练 agent 约 150 个 episode，评估后将最佳/次优/失败经验反馈给 LLM。支持 zero-shot（不给示例）和 few-shot（给人工设计的奖励函数作参考）
- 设计动机：人工设计的 precision-constraint 奖励函数（公式 $R = (1-\alpha_i)\$TP_i - \alpha_i\$FP_i$）有效但探索空间有限
人工奖励函数基线:
- 功能：基于业务约束推导精确率约束奖励
- 核心思路：从 precision 约束 $\frac{\$TP_i}{\$TP_i + \$FP_i} > \alpha_i$ 通过 Lagrangian 松弛推导出 $R_{\text{precision}}^i = (1-\alpha_i)\$TP_i - \alpha_i\$FP_i$
- 设计动机：提供有效但可被超越的基线

损失函数 / 训练策略¶

REINFORCE 算法 + Adam 优化器，3 层神经网络 [8, 32, 8]，GELU 激活 + Dropout。离线 RL，使用历史交易数据。

实验关键数据¶

主实验¶

Recall 级别	SL 基线 $Prec	RL (人工奖励) $Prec	RL (LLM few-shot, LLaMA-3-8B) $Prec
@80%	66.57%	69.65%	73.74%
@85%	58.79%	64.22%	71.70%
@90%	51.27%	55.70%	55.90%

消融实验¶

配置 (Test S, @85% Recall)	$Precision	说明
SL Baseline	58.79%	传统 SL 模型
RL + Human Reward	64.22%	人工设计奖励
RL + Mixtral Zero-shot	69.62%	LLM zero-shot
RL + Mixtral Few-shot	70.73%	LLM few-shot
RL + LLaMA-3 Few-shot	71.70%	最佳 LLM

关键发现¶

LLM 进化奖励 > 人工奖励：在 @85% recall 下 $Prec 从 64.22% 提升到 71.70%（+7.48 pp），说明 LLM 能探索到人类未发现的奖励设计空间
Few-shot > Zero-shot 但差距不大：Zero-shot 也能达到竞争力（69.62% vs 70.73%），说明 LLM 有较强的领域理解能力
长期评估稳定：6 个月 Test L（617 万交易）验证了 agent 的时间一致性
LLM 生成的奖励具有可解释性：zero-shot 生成的代码引入了阶段差异化权重（stage0: 1.2x, stage1: 0.9x），符合业务逻辑

亮点与洞察¶

LLM 作为 RL 奖励设计器：将 LLM 的代码生成能力用于 RL 奖励函数自动设计，是一个有前景的范式。可迁移到任何需要复杂奖励设计的 RL 场景。
进化循环的有效性：通过性能反馈闭环（成功/失败经验总结），LLM 能持续改进奖励设计。与 Ma et al. (2023) 的机器人领域工作相呼应，但首次应用于金融风控。
工业级验证：使用 eBay 真实交易数据（百万级），6 个月长期评估，有说服力。

局限与展望¶

状态表示仅使用 SL 模型分数，未纳入原始交易特征
仅验证了 Pre-auth + Post-auth 两步 MDP，更长决策链未探索
进化循环计算成本高（60轮 × 10采样 × 150 episode × 40min/轮），工业部署需优化
LLM 生成的奖励函数的部分设计（如具体参数选择）仍难以完全解释

评分¶

新颖性: ⭐⭐⭐⭐ LLM+RL 进化奖励设计首次用于金融风控，有开创性
实验充分度: ⭐⭐⭐⭐ 真实数据 + 长期评估 + 3种LLM + zero/few-shot 对比
写作质量: ⭐⭐⭐ 工业论文风格，数学推导清晰但部分细节可读性一般
价值: ⭐⭐⭐⭐ 工业实用性强，LLM进化RL范式有推广潜力