Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions¶

会议: ACL 2025
arXiv: 2502.13135
代码: 有
领域: 其他
关键词: 合成用户, 健康状况建模, 教练式对话Agent, 用户模拟, LLM评估

一句话总结¶

提出一个端到端框架，基于真实人口学、健康/生活方式和行为/心理特征数据生成有健康状况的合成用户（涵盖睡眠和糖尿病管理），用于评估健康教练Agent的交互质量，并通过人类专家评估验证其显著优于通用合成用户。

研究背景与动机¶

交互式健康教练Agent需要通过与用户的交互来评估效果，但收集和评估多样化、长期的人类交互既昂贵又耗时。LLM 生成的合成用户为此提供了自动化评估的可能，但现有方法存在关键局限：

缺乏真实健康状况锚定：通用合成用户不能准确反映特定健康条件下用户的需求和挑战

人口统计偏差：LLM 训练数据偏向英语文化和高在线参与度人群，不能代表真实患者分布

缺乏情境化知识：LLM 可以引用睡眠困难等现象，但这些不代表扎根于生活经历的情境化知识

因果推断风险：向 LLM 提供特定建议可能无意中改变合成用户的其他隐含特征

核心理念：合成用户应该基于真实数据生成——从真实的人口统计、健康指标和行为心理特征出发构建，而非完全依赖 LLM 自由生成。

方法详解¶

整体框架¶

两阶段构建合成用户：

结构化数据生成：基于真实人口学、健康/生活方式和行为心理数据生成结构化属性
完整画像生成：基于结构化数据，用 LLM 生成完整的用户"小传"(vignette)

然后让合成用户与教练Agent进行模拟交互，通过 Concordia 系统或直接 LLM 调用。

关键设计¶

基于真实数据的属性锚定
- 睡眠场景：使用 LifeSnaps 公开数据集（68 人，含人口统计、睡眠数据、大五人格等）
- 糖尿病场景：使用 PBHS 纵向队列（345 名 2 型糖尿病患者，含详细人口学、社会经济、临床数据）
- 设计动机：直接采样真实数据的分布，避免 LLM 的分布偏差
多层次用户建模

对于睡眠场景： - 基础属性：年龄、性别、BMI、睡眠时长和效率、大五人格 - LLM 生成的睡眠档案：主要睡眠关切、睡眠目标、目标原因、障碍 - 可选扩展：COM-B 行为模型框架的挑战、丰富的背景故事

对于糖尿病场景： - 从 246 个真实挑战中按 COM-B 模型分布采样障碍 - 基于患者的人口学、社会经济和临床数据构建小传 - 生成沟通风格（语气、冗长度、信心水平）

交互模拟
- 使用 Concordia 生成式agent框架实例化合成用户
- Concordia 提供关联记忆、思维链推理、模块化架构
- 睡眠Agent采用"Talker-Reasoner"双Agent架构（System 1 + System 2）
- 使用 Gemini 1.5 Pro 作为底层 LLM
多维评估策略
- 自动评估：比较教练Agent的内部用户模型与真实用户档案
- 专家评估：训练有素的人类评估者盲评交互质量
- 对比评估：完整合成用户 vs 仅人口统计的基线用户

损失函数 / 训练策略¶

本文为框架性工作，不涉及模型训练。核心是合成数据生成和评估流程设计。

实验关键数据¶

睡眠教练实验（68 个合成用户，10 轮交互）¶

评估维度	指标
主要睡眠关切识别准确率	89.7%
障碍召回率	71.4%
障碍精确率	72.5%
睡眠目标召回率	66.4%
睡眠目标精确率	84.2%

人类专家评估（睡眠场景）¶

评估项	完整用户 vs 基线偏好	评分者一致性
整体偏好	完整用户显著获胜	Fleiss' κ = 0.67
p-value	3.7 × 10⁻¹²
5/5 完全一致率	64%
≥4/5 一致率	91%

糖尿病教练实验（200 个合成用户）¶

评估维度	专家评分
用户一致性	92%
障碍展示忠实度	100%

关键发现¶

教练Agent能以 89.7% 的准确率识别合成用户的主要睡眠关切，表明合成用户确实在交互中有效传达了分配的健康属性
基于完整健康/行为属性的合成用户显著优于仅基于人口统计的基线用户（p < 10⁻¹²）
评分者间一致性高（κ = 0.67），说明质量差异明显且容易判断
框架在两个独立开发的Agent和场景中均通过验证，具有通用性

亮点与洞察¶

端到端框架设计：从真实数据采样 → 属性生成 → 小传构建 → 交互模拟 → 多维评估的完整流程
真实数据锚定的关键性：实验有力证明了仅有人口统计信息远不够，健康条件和行为特征是生成逼真合成用户的关键
两场景独立验证：睡眠和糖尿病场景由不同团队独立开发，增强了结论的可信度
对 LLM 偏差的系统性思考：明确识别并缓解了 LLM 作为合成用户的多种偏差来源
支持隐私保护：合成用户可以生成新个体，不依赖真实患者的直接数据

局限与展望¶

合成用户仍可能缺乏真实生活经验的深度和细微差别
仅评估了目标和障碍的获取，未评估后续行为改变过程
依赖 Gemini 系列模型，不同 LLM 可能产生不同质量的合成用户
使用开源模型（如 Gemma 2-27B）替代时性能有所下降
长期交互（超过 10 轮）的效果未验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将真实健康数据整合到合成用户生成中用于教练Agent评估
实验充分度: ⭐⭐⭐⭐ 双场景验证、自动+专家评估、对比实验设计完善
写作质量: ⭐⭐⭐⭐ 框架描述清晰，背景综述全面
价值: ⭐⭐⭐⭐ 为健康AI领域的Agent评估提供了实用方法论