跳转至

Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users

会议: NeurIPS 2025 Workshop (Multi-Turn Interactions in Large Language Models)
arXiv: 2510.17173
代码: GitHub
领域: 模型压缩
关键词: 离线策略评估, LLM 健康教练, 多轮对话, 个性化, POMDP

一句话总结

在实际部署的 LLM 健康教练系统上进行离线策略评估(OPE),发现统一的高工具使用策略虽提升平均奖励但损害特定用户子群,并通过模拟器验证了早期信息增益探索(好奇心奖励)可加速用户特征识别和提升任务成功率。

研究背景与动机

可穿戴设备生成的个人健康数据为 LLM 健康教练提供了丰富素材,但实际部署面临挑战:

  • 多轮对话退化:用户评分随对话轮次推进而下降(从 4.36 降至 4.12)
  • 工具使用的双刃剑:工具调用的高方差特性(成功/失败差距显著)
  • 群体异质性:不同健康素养(literacy)和自我效能感(self-efficacy)的用户对同一策略反应截然不同
  • 评估困难:真实用户试验成本高,需要离线方法比较反事实策略

现有 LLM 健康应用研究多依赖合成基准,缺乏对真实用户多轮交互的系统评估。

方法详解

整体框架

将健康教练建模为用户条件 POMDP,信念状态 \(z_t = f_\phi(h_t, u_i, m_t)\) 综合对话历史、用户特征和当前指标。动作分解为两个离散决策头:

  • Tool 头\(\in \{\varnothing, \text{Search}, \text{Code}, \text{Email}\}\)
  • Style 头\(\in \{\text{concise}, \text{detailed}\}\)

关键设计

  1. 类型化奖励系统:每轮奖励是三个组件的个性化加权组合:
\[R_i(z_t, a_t) = \alpha_i(z_t) R_{\text{user}} + \beta_i(z_t) R_{\text{tool}} + \gamma_i(z_t) R_{\text{eng}}\]

其中 \(R_{\text{user}}\) 来自 1-5 星评分,\(R_{\text{tool}}\) 由工具调用成功/失败判定(+1/-1),\(R_{\text{eng}}\) 是基于延迟和结构质量的交互信号。权重按健康素养分层设定(低素养:\((0.6, 0.2, 0.2)\);高素养:\((0.3, 0.5, 0.2)\))。

  1. 早期信息增益奖励(好奇心机制):在前 \(K\) 轮(\(K=2\))添加信息增益奖励,鼓励减少对用户潜在交互类型的不确定性:
\[r_t^{\text{curiosity}} = \max\{0, H(p_{t-1}(y)) - H(p_t(y))\}\]

其中 \(y\) 是潜在交互原型(素养 × 效能感),\(p_t(y)\) 是后验分布。奖励权重 \(\lambda_t\) 仅在初始几轮有效,之后衰减为零。

  1. 离线策略评估(OPE):使用 SNIPS(自归一化重要性采样)评估客观奖励,AIPW(增广逆概率加权,双重稳健)评估用户满意度。对每个决策头拟合概率行为模型来近似日志倾向性分数,重要性比率截断阈值 \(c=50\),使用会话级 bootstrap 计算置信区间。

系统部署

  • 使用 Qwen3-235B-A22B 模型
  • 用户上传 Apple Health 数据,系统预处理为每日特征(睡眠、HRV、VO2max、活动量)
  • ML 预测压力/酸痛/受伤风险(\(R^2\) 分别为 0.50/0.28/0.40)
  • Agent 工具包括代码执行器、网络搜索器和邮件

实验关键数据

离线策略评估结果(部署日志,7 用户 280 个评分轮次)

策略 \(R_{\text{obj}}\) (SNIPS) \(R_{\text{user}}\) (AIPW) \(R_{\text{total}}\) [95% CI]
NoTool 0.328 -0.623 0.044 [-0.045, 0.198]
AlwaysTool 0.229 -0.654 0.304 [0.001, 0.524]
HeuristicGated 0.309 -0.625 0.006 [-0.111, 0.174]
PersonalizedWeights 0.253 -0.656 0.113 [-0.016, 0.284]

AlwaysTool 在平均 \(R_{\text{total}}\) 上最高,但置信区间宽。

按用户原型分解的异质性(AlwaysTool vs NoTool 差值)

用户原型 Δ 客观指标 Δ 满意度
高素养 × 高效能 +0.575 -0.107
高素养 × 低效能 +0.595 +0.525
低素养 × 低效能 +0.165 -0.431
低素养 × 高效能 -0.315 -1.436

关键发现:AlwaysTool 策略对"高素养 × 低效能"用户最有利(两项均正),但对"低素养 × 高效能"用户严重有害(Δ满意度 -1.436),揭示了群体平均值掩盖的子群伤害。

模拟器实验(隐藏原型)

策略 最终回报 目标成功率 pass@3 特征识别轮次↓ 原型对齐率
Heuristic -2.908 0.515 0.505 6.315 0.503
Personalized -3.162 0.935 0.950 6.415 0.424
Pers+Curiosity (λ=0.10) -2.401 0.965 0.975 5.655 0.412
Pers+Curiosity (λ=0.20) -2.329 0.970 0.980 5.860 0.410

好奇心奖励显著提升目标成功率(0.935→0.970)、pass@3(0.95→0.98),并缩短特征识别时间(6.41→5.7 轮),符合"先探索再个性化"策略。

关键发现

  • 工具使用是高风险高回报的:成功工具调用的评分均值 4.08,失败为 3.58,差距 +0.50
  • 各工具成功率:Web 搜索 81.6%,代码执行 80.7%,邮件 85.7%
  • 对话退化:评分从前 5 轮的 4.36 降至 15+ 轮的 4.12,工具使用率从 70%(5-10 轮)降至 26.3%(15+ 轮)
  • ICC 仅 0.016:仅 1.6% 的评分方差来自用户间差异——说明差异主要来自上下文而非个体

亮点与洞察

  • 在真实部署环境中进行的 OPE 分析,而非仅靠模拟,实用价值高
  • "子群伤害"的发现极为重要:看似最优的平均策略可能对特定人群造成严重负面影响,强调了逐子群报告指标的必要性
  • "评估优先、个性化优先"的路线清晰:冻结生成器,仅学习子群感知的决策头,使用类型化奖励(客观+满意度),始终报告每个原型的指标
  • 好奇心奖励的"先探索后个性化"策略简洁有效

局限与展望

  • 样本量极小:7 名用户、280 个评分轮次,统计结论有限
  • 行为倾向性是事后重建而非记录的,Tool 头标定误差(ECE=0.157)可能引入偏差
  • 模拟器使用简化的用户模型,可能无法捕捉真实交互复杂性
  • 当前个性化仅基于健康素养分层,未纳入自我效能感
  • 未进行端到端 RL 策略学习,仅提出框架设想

相关工作与启发

  • PH-LLM、PHIA 等健康 LLM 注重单轮精度,本文强调多轮退化和个性化的重要性
  • 好奇心驱动探索(Pathak 等人)从 RL 领域迁移到对话个性化场景
  • SNIPS/AIPW 的双重稳健 OPE 方法论对任何 LLM 应用的离线评估都有借鉴价值
  • 将用户分层为原型并检查子群效果的方法论值得推广到其他 AI 应用

评分

  • 新颖性: ⭐⭐⭐⭐ — 将 OPE 和好奇心机制应用于 LLM 健康教练场景是新尝试
  • 实验充分度: ⭐⭐⭐ — 真实部署有价值,但样本量限制了统计显著性
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法论完整,诊断表格详尽
  • 价值: ⭐⭐⭐⭐ — "评估优先"的框架思想和子群伤害检测方法有广泛适用性