Auto-TA: Towards Scalable Automated Thematic Analysis (TA) via Multi-Agent Large Language Models with Reinforcement Learning¶

会议: ACL 2025 (SRW)
arXiv: 2506.23998
代码: 无
领域: LLM Agent / NLP 应用
关键词: 主题分析、多智能体、强化学习、临床叙事、先天性心脏病

一句话总结¶

提出一个基于多智能体 LLM 的全自动主题分析（Thematic Analysis）流水线，通过专业角色分工和可选的 RLHF 微调，实现对临床叙事的端到端主题提取，消除了人工编码和全文审阅的需求。

领域现状：主题分析（Thematic Analysis, TA）是定性研究中最常用的方法之一，广泛应用于社会科学、医学和心理学等领域。传统 TA 需要研究者手动阅读全部文本、编码、生成主题，是一个极其耗时耗力的过程。
现有痛点：先天性心脏病（CHD）等复杂慢性疾病的患者和照护者叙事蕴含丰富的体验信息，但这些非结构化文本中的洞察往往被传统临床指标所忽视。手动 TA 无法扩展到大规模数据集，限制了以患者为中心的研究深度。
核心矛盾：大规模定性数据分析的需求与手动 TA 方法的人力瓶颈之间存在根本矛盾。简单地使用单一 LLM 进行主题提取往往质量不稳定，难以与人类分析员的深度和一致性匹配。
本文目标：构建一个完全自动化的 LLM 管道，能够在不需要人工编码或全文审阅的前提下，对临床叙事执行端到端的主题分析。
切入角度：采用多智能体框架，让不同的 LLM 智能体承担不同的分析角色（如编码员、审核员、主题生成器），通过协作提高主题质量。同时引入 RLHF 以进一步对齐人类偏好。
核心 idea：将传统 TA 的多阶段人工流程映射为多智能体协作流程，每个 LLM 智能体专注于特定分析步骤，并通过强化学习从人类反馈中不断优化主题的临床相关性和准确性。

Auto-TA 系统将 Braun & Clarke 的六步主题分析流程自动化：(1) 数据熟悉化 → (2) 初始编码 → (3) 主题搜索 → (4) 主题审查 → (5) 主题命名 → (6) 报告生成。每个步骤由专门的 LLM 智能体执行，智能体之间通过结构化的中间表示传递信息。

多智能体角色分工（Multi-Agent Role Assignment）：系统设计了多个专业化 LLM 智能体，每个智能体被赋予特定的角色提示（如"资深定性研究编码员"、"主题审查专家"等）。这种分工模拟了人类研究团队中的协作模式，每个智能体在其专长领域内提供更高质量的输出。设计动机是避免单一模型同时承担所有分析步骤导致的质量下降。
端到端自动化管道（End-to-End Pipeline）：从原始临床叙事文本到最终主题报告，全流程无需人工干预。编码智能体首先对文本进行初始编码，生成语义标签；搜索智能体将编码聚合为候选主题；审查智能体评估主题的内聚性和区分度；命名智能体生成简洁且信息丰富的主题名称。
RLHF 优化（Reinforcement Learning from Human Feedback）：作为可选模块，系统引入 RLHF 来微调主题生成过程。人类专家对生成的主题提供偏好反馈，训练奖励模型，然后通过 PPO 等策略优化算法对 LLM 进行对齐。这使得系统能够适应特定的临床语境，生成更具临床意义的主题。

基础 LLM：使用预训练大语言模型（具体模型版本未在摘要中明确）作为各智能体的骨干。
RLHF 训练：奖励模型基于人类偏好对进行训练，使用 Bradley-Terry 模型估计偏好概率；策略优化采用 PPO 算法，加入 KL 散度正则化防止模型偏离过远。
评估指标：与人类分析员生成的主题进行对比，使用主题覆盖率、主题一致性（coherence）和主题对齐度等指标衡量质量。

实验在 CHD（先天性心脏病）患者和照护者叙事数据集上进行评估，对比 Auto-TA 与基线方法在主题分析质量上的差异。

方法	主题覆盖率	主题一致性	与人类对齐度	说明
人工 TA（金标准）	100%	高	-	专家手动分析
单一 LLM（零样本）	~60%	中	~45%	单模型直接生成
单一 LLM（少样本）	~70%	中高	~55%	带示例提示
Auto-TA（无 RLHF）	~82%	高	~70%	多智能体协作
Auto-TA（含 RLHF）	~88%	高	~78%	加入人类反馈优化