Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions¶
会议: ACL 2025
arXiv: 2502.13135
代码: 有
领域: 其他
关键词: 合成用户, 健康状况建模, 教练式对话Agent, 用户模拟, LLM评估
一句话总结¶
提出一个端到端框架,基于真实人口学、健康/生活方式和行为/心理特征数据生成有健康状况的合成用户(涵盖睡眠和糖尿病管理),用于评估健康教练Agent的交互质量,并通过人类专家评估验证其显著优于通用合成用户。
研究背景与动机¶
交互式健康教练Agent需要通过与用户的交互来评估效果,但收集和评估多样化、长期的人类交互既昂贵又耗时。LLM 生成的合成用户为此提供了自动化评估的可能,但现有方法存在关键局限:
缺乏真实健康状况锚定:通用合成用户不能准确反映特定健康条件下用户的需求和挑战
人口统计偏差:LLM 训练数据偏向英语文化和高在线参与度人群,不能代表真实患者分布
缺乏情境化知识:LLM 可以引用睡眠困难等现象,但这些不代表扎根于生活经历的情境化知识
因果推断风险:向 LLM 提供特定建议可能无意中改变合成用户的其他隐含特征
核心理念:合成用户应该基于真实数据生成——从真实的人口统计、健康指标和行为心理特征出发构建,而非完全依赖 LLM 自由生成。
方法详解¶
整体框架¶
两阶段构建合成用户:
- 结构化数据生成:基于真实人口学、健康/生活方式和行为心理数据生成结构化属性
- 完整画像生成:基于结构化数据,用 LLM 生成完整的用户"小传"(vignette)
然后让合成用户与教练Agent进行模拟交互,通过 Concordia 系统或直接 LLM 调用。
关键设计¶
-
基于真实数据的属性锚定
- 睡眠场景:使用 LifeSnaps 公开数据集(68 人,含人口统计、睡眠数据、大五人格等)
- 糖尿病场景:使用 PBHS 纵向队列(345 名 2 型糖尿病患者,含详细人口学、社会经济、临床数据)
- 设计动机:直接采样真实数据的分布,避免 LLM 的分布偏差
-
多层次用户建模
对于睡眠场景: - 基础属性:年龄、性别、BMI、睡眠时长和效率、大五人格 - LLM 生成的睡眠档案:主要睡眠关切、睡眠目标、目标原因、障碍 - 可选扩展:COM-B 行为模型框架的挑战、丰富的背景故事
对于糖尿病场景: - 从 246 个真实挑战中按 COM-B 模型分布采样障碍 - 基于患者的人口学、社会经济和临床数据构建小传 - 生成沟通风格(语气、冗长度、信心水平)
-
交互模拟
- 使用 Concordia 生成式agent框架实例化合成用户
- Concordia 提供关联记忆、思维链推理、模块化架构
- 睡眠Agent采用"Talker-Reasoner"双Agent架构(System 1 + System 2)
- 使用 Gemini 1.5 Pro 作为底层 LLM
-
多维评估策略
- 自动评估:比较教练Agent的内部用户模型与真实用户档案
- 专家评估:训练有素的人类评估者盲评交互质量
- 对比评估:完整合成用户 vs 仅人口统计的基线用户
损失函数 / 训练策略¶
本文为框架性工作,不涉及模型训练。核心是合成数据生成和评估流程设计。
实验关键数据¶
睡眠教练实验(68 个合成用户,10 轮交互)¶
| 评估维度 | 指标 |
|---|---|
| 主要睡眠关切识别准确率 | 89.7% |
| 障碍召回率 | 71.4% |
| 障碍精确率 | 72.5% |
| 睡眠目标召回率 | 66.4% |
| 睡眠目标精确率 | 84.2% |
人类专家评估(睡眠场景)¶
| 评估项 | 完整用户 vs 基线偏好 | 评分者一致性 |
|---|---|---|
| 整体偏好 | 完整用户显著获胜 | Fleiss' κ = 0.67 |
| p-value | 3.7 × 10⁻¹² | |
| 5/5 完全一致率 | 64% | |
| ≥4/5 一致率 | 91% |
糖尿病教练实验(200 个合成用户)¶
| 评估维度 | 专家评分 |
|---|---|
| 用户一致性 | 92% |
| 障碍展示忠实度 | 100% |
关键发现¶
- 教练Agent能以 89.7% 的准确率识别合成用户的主要睡眠关切,表明合成用户确实在交互中有效传达了分配的健康属性
- 基于完整健康/行为属性的合成用户显著优于仅基于人口统计的基线用户(p < 10⁻¹²)
- 评分者间一致性高(κ = 0.67),说明质量差异明显且容易判断
- 框架在两个独立开发的Agent和场景中均通过验证,具有通用性
亮点与洞察¶
- 端到端框架设计:从真实数据采样 → 属性生成 → 小传构建 → 交互模拟 → 多维评估的完整流程
- 真实数据锚定的关键性:实验有力证明了仅有人口统计信息远不够,健康条件和行为特征是生成逼真合成用户的关键
- 两场景独立验证:睡眠和糖尿病场景由不同团队独立开发,增强了结论的可信度
- 对 LLM 偏差的系统性思考:明确识别并缓解了 LLM 作为合成用户的多种偏差来源
- 支持隐私保护:合成用户可以生成新个体,不依赖真实患者的直接数据
局限与展望¶
- 合成用户仍可能缺乏真实生活经验的深度和细微差别
- 仅评估了目标和障碍的获取,未评估后续行为改变过程
- 依赖 Gemini 系列模型,不同 LLM 可能产生不同质量的合成用户
- 使用开源模型(如 Gemma 2-27B)替代时性能有所下降
- 长期交互(超过 10 轮)的效果未验证
相关工作与启发¶
- AMIE (Tu et al., 2024):医疗诊断对话Agent,但合成患者设计有人口统计偏差等局限
- Yu et al. (2024):基于知识图谱的患者 LLM,适合临床但不适合健康教练场景
- Castricato et al. (2024):基于美国人口普查的合成用户,但仅考虑人口统计未考虑健康状况
- Concordia (Vezhnevets et al., 2023):本文使用的生成式agent框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地将真实健康数据整合到合成用户生成中用于教练Agent评估
- 实验充分度: ⭐⭐⭐⭐ 双场景验证、自动+专家评估、对比实验设计完善
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,背景综述全面
- 价值: ⭐⭐⭐⭐ 为健康AI领域的Agent评估提供了实用方法论