Offline Policy Evaluation of Multi-Turn LLM Health Coaching with Real Users¶

会议: NeurIPS 2025 Workshop (Multi-Turn Interactions in Large Language Models)
arXiv: 2510.17173
代码: GitHub
领域: 模型压缩
关键词: 离线策略评估, LLM 健康教练, 多轮对话, 个性化, POMDP

一句话总结¶

在实际部署的 LLM 健康教练系统上进行离线策略评估（OPE），发现统一的高工具使用策略虽提升平均奖励但损害特定用户子群，并通过模拟器验证了早期信息增益探索（好奇心奖励）可加速用户特征识别和提升任务成功率。

研究背景与动机¶

可穿戴设备生成的个人健康数据为 LLM 健康教练提供了丰富素材，但实际部署面临挑战：

多轮对话退化：用户评分随对话轮次推进而下降（从 4.36 降至 4.12）
工具使用的双刃剑：工具调用的高方差特性（成功/失败差距显著）
群体异质性：不同健康素养（literacy）和自我效能感（self-efficacy）的用户对同一策略反应截然不同
评估困难：真实用户试验成本高，需要离线方法比较反事实策略

现有 LLM 健康应用研究多依赖合成基准，缺乏对真实用户多轮交互的系统评估。

方法详解¶

整体框架¶

将健康教练建模为用户条件 POMDP，信念状态 \(z_t = f_\phi(h_t, u_i, m_t)\) 综合对话历史、用户特征和当前指标。动作分解为两个离散决策头：

Tool 头：\(\in \{\varnothing, \text{Search}, \text{Code}, \text{Email}\}\)
Style 头：\(\in \{\text{concise}, \text{detailed}\}\)

关键设计¶

类型化奖励系统：每轮奖励是三个组件的个性化加权组合：

\[R_i(z_t, a_t) = \alpha_i(z_t) R_{\text{user}} + \beta_i(z_t) R_{\text{tool}} + \gamma_i(z_t) R_{\text{eng}}\]

其中 \(R_{\text{user}}\) 来自 1-5 星评分，\(R_{\text{tool}}\) 由工具调用成功/失败判定（+1/-1），\(R_{\text{eng}}\) 是基于延迟和结构质量的交互信号。权重按健康素养分层设定（低素养：\((0.6, 0.2, 0.2)\)；高素养：\((0.3, 0.5, 0.2)\)）。

早期信息增益奖励（好奇心机制）：在前 \(K\) 轮（\(K=2\)）添加信息增益奖励，鼓励减少对用户潜在交互类型的不确定性：

\[r_t^{\text{curiosity}} = \max\{0, H(p_{t-1}(y)) - H(p_t(y))\}\]

其中 \(y\) 是潜在交互原型（素养 × 效能感），\(p_t(y)\) 是后验分布。奖励权重 \(\lambda_t\) 仅在初始几轮有效，之后衰减为零。

离线策略评估（OPE）：使用 SNIPS（自归一化重要性采样）评估客观奖励，AIPW（增广逆概率加权，双重稳健）评估用户满意度。对每个决策头拟合概率行为模型来近似日志倾向性分数，重要性比率截断阈值 \(c=50\)，使用会话级 bootstrap 计算置信区间。

系统部署¶

使用 Qwen3-235B-A22B 模型
用户上传 Apple Health 数据，系统预处理为每日特征（睡眠、HRV、VO2max、活动量）
ML 预测压力/酸痛/受伤风险（\(R^2\) 分别为 0.50/0.28/0.40）
Agent 工具包括代码执行器、网络搜索器和邮件

实验关键数据¶

离线策略评估结果（部署日志，7 用户 280 个评分轮次）¶

策略	\(R_{\text{obj}}\) (SNIPS)	\(R_{\text{user}}\) (AIPW)	\(R_{\text{total}}\) [95% CI]
NoTool	0.328	-0.623	0.044 [-0.045, 0.198]
AlwaysTool	0.229	-0.654	0.304 [0.001, 0.524]
HeuristicGated	0.309	-0.625	0.006 [-0.111, 0.174]
PersonalizedWeights	0.253	-0.656	0.113 [-0.016, 0.284]

AlwaysTool 在平均 \(R_{\text{total}}\) 上最高，但置信区间宽。

按用户原型分解的异质性（AlwaysTool vs NoTool 差值）¶

用户原型	Δ 客观指标	Δ 满意度
高素养 × 高效能	+0.575	-0.107
高素养 × 低效能	+0.595	+0.525
低素养 × 低效能	+0.165	-0.431
低素养 × 高效能	-0.315	-1.436

关键发现：AlwaysTool 策略对"高素养 × 低效能"用户最有利（两项均正），但对"低素养 × 高效能"用户严重有害（Δ满意度 -1.436），揭示了群体平均值掩盖的子群伤害。

模拟器实验（隐藏原型）¶

策略	最终回报	目标成功率	pass@3	特征识别轮次↓	原型对齐率
Heuristic	-2.908	0.515	0.505	6.315	0.503
Personalized	-3.162	0.935	0.950	6.415	0.424
Pers+Curiosity (λ=0.10)	-2.401	0.965	0.975	5.655	0.412
Pers+Curiosity (λ=0.20)	-2.329	0.970	0.980	5.860	0.410

好奇心奖励显著提升目标成功率（0.935→0.970）、pass@3（0.95→0.98），并缩短特征识别时间（6.41→5.7 轮），符合"先探索再个性化"策略。

关键发现¶

工具使用是高风险高回报的：成功工具调用的评分均值 4.08，失败为 3.58，差距 +0.50
各工具成功率：Web 搜索 81.6%，代码执行 80.7%，邮件 85.7%
对话退化：评分从前 5 轮的 4.36 降至 15+ 轮的 4.12，工具使用率从 70%（5-10 轮）降至 26.3%（15+ 轮）
ICC 仅 0.016：仅 1.6% 的评分方差来自用户间差异——说明差异主要来自上下文而非个体

亮点与洞察¶

在真实部署环境中进行的 OPE 分析，而非仅靠模拟，实用价值高
"子群伤害"的发现极为重要：看似最优的平均策略可能对特定人群造成严重负面影响，强调了逐子群报告指标的必要性
"评估优先、个性化优先"的路线清晰：冻结生成器，仅学习子群感知的决策头，使用类型化奖励（客观+满意度），始终报告每个原型的指标
好奇心奖励的"先探索后个性化"策略简洁有效

局限与展望¶

样本量极小：7 名用户、280 个评分轮次，统计结论有限
行为倾向性是事后重建而非记录的，Tool 头标定误差（ECE=0.157）可能引入偏差
模拟器使用简化的用户模型，可能无法捕捉真实交互复杂性
当前个性化仅基于健康素养分层，未纳入自我效能感
未进行端到端 RL 策略学习，仅提出框架设想

评分¶

新颖性: ⭐⭐⭐⭐ — 将 OPE 和好奇心机制应用于 LLM 健康教练场景是新尝试
实验充分度: ⭐⭐⭐ — 真实部署有价值，但样本量限制了统计显著性
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，方法论完整，诊断表格详尽
价值: ⭐⭐⭐⭐ — "评估优先"的框架思想和子群伤害检测方法有广泛适用性