Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users¶
会议: NeurIPS 2025 Workshop (Multi-Turn Interactions in Large Language Models)
arXiv: 2510.17173
代码: GitHub
领域: 模型压缩
关键词: 离线策略评估, LLM 健康教练, 多轮对话, 个性化, POMDP
一句话总结¶
在实际部署的 LLM 健康教练系统上进行离线策略评估(OPE),发现统一的高工具使用策略虽提升平均奖励但损害特定用户子群,并通过模拟器验证了早期信息增益探索(好奇心奖励)可加速用户特征识别和提升任务成功率。
研究背景与动机¶
可穿戴设备生成的个人健康数据为 LLM 健康教练提供了丰富素材,但实际部署面临挑战:
- 多轮对话退化:用户评分随对话轮次推进而下降(从 4.36 降至 4.12)
- 工具使用的双刃剑:工具调用的高方差特性(成功/失败差距显著)
- 群体异质性:不同健康素养(literacy)和自我效能感(self-efficacy)的用户对同一策略反应截然不同
- 评估困难:真实用户试验成本高,需要离线方法比较反事实策略
现有 LLM 健康应用研究多依赖合成基准,缺乏对真实用户多轮交互的系统评估。
方法详解¶
整体框架¶
将健康教练建模为用户条件 POMDP,信念状态 \(z_t = f_\phi(h_t, u_i, m_t)\) 综合对话历史、用户特征和当前指标。动作分解为两个离散决策头:
- Tool 头:\(\in \{\varnothing, \text{Search}, \text{Code}, \text{Email}\}\)
- Style 头:\(\in \{\text{concise}, \text{detailed}\}\)
关键设计¶
- 类型化奖励系统:每轮奖励是三个组件的个性化加权组合:
其中 \(R_{\text{user}}\) 来自 1-5 星评分,\(R_{\text{tool}}\) 由工具调用成功/失败判定(+1/-1),\(R_{\text{eng}}\) 是基于延迟和结构质量的交互信号。权重按健康素养分层设定(低素养:\((0.6, 0.2, 0.2)\);高素养:\((0.3, 0.5, 0.2)\))。
- 早期信息增益奖励(好奇心机制):在前 \(K\) 轮(\(K=2\))添加信息增益奖励,鼓励减少对用户潜在交互类型的不确定性:
其中 \(y\) 是潜在交互原型(素养 × 效能感),\(p_t(y)\) 是后验分布。奖励权重 \(\lambda_t\) 仅在初始几轮有效,之后衰减为零。
- 离线策略评估(OPE):使用 SNIPS(自归一化重要性采样)评估客观奖励,AIPW(增广逆概率加权,双重稳健)评估用户满意度。对每个决策头拟合概率行为模型来近似日志倾向性分数,重要性比率截断阈值 \(c=50\),使用会话级 bootstrap 计算置信区间。
系统部署¶
- 使用 Qwen3-235B-A22B 模型
- 用户上传 Apple Health 数据,系统预处理为每日特征(睡眠、HRV、VO2max、活动量)
- ML 预测压力/酸痛/受伤风险(\(R^2\) 分别为 0.50/0.28/0.40)
- Agent 工具包括代码执行器、网络搜索器和邮件
实验关键数据¶
离线策略评估结果(部署日志,7 用户 280 个评分轮次)¶
| 策略 | \(R_{\text{obj}}\) (SNIPS) | \(R_{\text{user}}\) (AIPW) | \(R_{\text{total}}\) [95% CI] |
|---|---|---|---|
| NoTool | 0.328 | -0.623 | 0.044 [-0.045, 0.198] |
| AlwaysTool | 0.229 | -0.654 | 0.304 [0.001, 0.524] |
| HeuristicGated | 0.309 | -0.625 | 0.006 [-0.111, 0.174] |
| PersonalizedWeights | 0.253 | -0.656 | 0.113 [-0.016, 0.284] |
AlwaysTool 在平均 \(R_{\text{total}}\) 上最高,但置信区间宽。
按用户原型分解的异质性(AlwaysTool vs NoTool 差值)¶
| 用户原型 | Δ 客观指标 | Δ 满意度 |
|---|---|---|
| 高素养 × 高效能 | +0.575 | -0.107 |
| 高素养 × 低效能 | +0.595 | +0.525 |
| 低素养 × 低效能 | +0.165 | -0.431 |
| 低素养 × 高效能 | -0.315 | -1.436 |
关键发现:AlwaysTool 策略对"高素养 × 低效能"用户最有利(两项均正),但对"低素养 × 高效能"用户严重有害(Δ满意度 -1.436),揭示了群体平均值掩盖的子群伤害。
模拟器实验(隐藏原型)¶
| 策略 | 最终回报 | 目标成功率 | pass@3 | 特征识别轮次↓ | 原型对齐率 |
|---|---|---|---|---|---|
| Heuristic | -2.908 | 0.515 | 0.505 | 6.315 | 0.503 |
| Personalized | -3.162 | 0.935 | 0.950 | 6.415 | 0.424 |
| Pers+Curiosity (λ=0.10) | -2.401 | 0.965 | 0.975 | 5.655 | 0.412 |
| Pers+Curiosity (λ=0.20) | -2.329 | 0.970 | 0.980 | 5.860 | 0.410 |
好奇心奖励显著提升目标成功率(0.935→0.970)、pass@3(0.95→0.98),并缩短特征识别时间(6.41→5.7 轮),符合"先探索再个性化"策略。
关键发现¶
- 工具使用是高风险高回报的:成功工具调用的评分均值 4.08,失败为 3.58,差距 +0.50
- 各工具成功率:Web 搜索 81.6%,代码执行 80.7%,邮件 85.7%
- 对话退化:评分从前 5 轮的 4.36 降至 15+ 轮的 4.12,工具使用率从 70%(5-10 轮)降至 26.3%(15+ 轮)
- ICC 仅 0.016:仅 1.6% 的评分方差来自用户间差异——说明差异主要来自上下文而非个体
亮点与洞察¶
- 在真实部署环境中进行的 OPE 分析,而非仅靠模拟,实用价值高
- "子群伤害"的发现极为重要:看似最优的平均策略可能对特定人群造成严重负面影响,强调了逐子群报告指标的必要性
- "评估优先、个性化优先"的路线清晰:冻结生成器,仅学习子群感知的决策头,使用类型化奖励(客观+满意度),始终报告每个原型的指标
- 好奇心奖励的"先探索后个性化"策略简洁有效
局限与展望¶
- 样本量极小:7 名用户、280 个评分轮次,统计结论有限
- 行为倾向性是事后重建而非记录的,Tool 头标定误差(ECE=0.157)可能引入偏差
- 模拟器使用简化的用户模型,可能无法捕捉真实交互复杂性
- 当前个性化仅基于健康素养分层,未纳入自我效能感
- 未进行端到端 RL 策略学习,仅提出框架设想
相关工作与启发¶
- PH-LLM、PHIA 等健康 LLM 注重单轮精度,本文强调多轮退化和个性化的重要性
- 好奇心驱动探索(Pathak 等人)从 RL 领域迁移到对话个性化场景
- SNIPS/AIPW 的双重稳健 OPE 方法论对任何 LLM 应用的离线评估都有借鉴价值
- 将用户分层为原型并检查子群效果的方法论值得推广到其他 AI 应用
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将 OPE 和好奇心机制应用于 LLM 健康教练场景是新尝试
- 实验充分度: ⭐⭐⭐ — 真实部署有价值,但样本量限制了统计显著性
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法论完整,诊断表格详尽
- 价值: ⭐⭐⭐⭐ — "评估优先"的框架思想和子群伤害检测方法有广泛适用性