LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey¶
会议: ACL 2026
arXiv: 2505.00753
代码: https://github.com/HenryPengZou/Awesome-Human-Agent-Collaboration-Interaction-Systems
领域: 人机协作 / LLM Agent / 综述
关键词: human-in-the-loop、agent orchestration、human feedback、human agency scale、LLM-HAS
一句话总结¶
本文首次系统性梳理"LLM 基础的人-agent 协作系统(LLM-HAS)"——把人重新拉回 agent loop,从环境/画像、人类反馈、交互类型、编排范式、通信结构 5 个维度建立统一分类,并补充了一个 A1–A5 的 Human Agency Scale 量化"任务里到底该让人参与多深"。
研究背景与动机¶
领域现状:LLM agent 调研近年多在卷"完全自治":单 agent (AutoGPT)、多 agent (MetaGPT)、长程任务执行(SWE-Agent)等都把"减少人介入"当目标。
现有痛点:完全自治路线撞了三堵墙——(1) 可靠性:幻觉在多步链式 action 里被放大;(2) 复杂性:科学、医疗、长上下文连贯性等任务超出 LLM 单独可及范围;(3) 安全/伦理:金融、医疗、安全场景下不可逆 action 风险陡增。已有的 LLM agent / multi-agent / specific-app 综述都不专门讨论"人怎么有效介入"。
核心矛盾:当前社区把"自治程度"当成单一进度条往满拉,但很多真实任务的最优点在 augmentation 而非 automation;缺乏一个统一框架来描述"人在什么时间、以什么方式、什么粒度、和 agent 怎么交互"。
本文目标:(a) 定义 LLM-HAS 并区分于 single agent / multi-agent;(b) 把现有工作沿 5 个维度归类;(c) 系统化人类反馈的类型/粒度/时机;(d) 给出一个量化"自治 vs 增强"程度的 Human Agency Scale;(e) 总结 prompting / SFT / RL 三类实现路线及代表 benchmark;(f) 提出 5 大开放挑战。
切入角度:把"人"显式建模为 LLM-HAS 的 first-class 组件(Lazy User vs Informative User),并借鉴 multi-agent system 的通信/编排概念扩展到人-agent 场景。
核心 idea:一个 LLM-HAS = Environment & Profiling + Human Feedback + Interaction Type + Orchestration + Communication,配合 Human Agency Scale 标定参与深度。
方法详解¶
整体框架¶
作者把 LLM-HAS 拆成 5 个正交核心维度 + 1 个跨维度量表:
- Environment & Profiling:物理世界 vs 虚拟仿真;single/multi-human × single/multi-agent 共 4 种拓扑;人画像分 Lazy / Informative,agent 画像按角色(通用助手、数学专家、机器人等)。
- Human Feedback:类型(Evaluative / Corrective / Guidance / Implicit)× 粒度(Coarse / Fine)× 时机(Initial / During / Post)。
- Interaction Type:Collaboration(最常见,分 Delegation / Supervision / Cooperation / Coordination 4 子类)、Competition、Coopetition。
- Orchestration:Task Strategy(One-by-One vs Simultaneous)× Temporal Synchronization(Synchronous vs Asynchronous)。
- Communication:Structure(Centralized / Decentralized / Hierarchical)× Mode(Conversation / Observation / Shared Message Pool)。
- Human Agency Scale (A1–A5):A1 Full Automation → A2 Minimal Human Input → A3 Equal Partnership → A4 Agent-Assisted → A5 Human-Driven,A1–A2 属 Automation,A3–A5 属 Augmentation。
关键设计¶
-
Human Feedback 三维分类(Type × Granularity × Phase):
- 功能:把人提供反馈的方式从单一"打分"扩展成 4 类(Evaluative / Corrective / Guidance / Implicit)× 2 粒度 × 3 时机,形成 24 格的分析坐标,让任意工作都能定位。
- 核心思路:Evaluative = 像 RLHF 的偏好打分;Corrective = 像 PRELUDE 学用户编辑;Guidance = 像 InteractGen 用 demo 引导;Implicit = 像 VeriPlan 观察用户滑块行为。粒度区分 holistic vs segment-level,时机区分 Pre / In / Post。
- 设计动机:让"feedback 复杂度"成为可比较的设计选择——粗粒度评估易收集但 credit assignment 弱;细粒度反馈精确但用户负担重;时机决定能否实时纠错或仅 offline 学习。
-
Human Agency Scale (A1–A5):
- 功能:用 5 档量化"任务里人该参与多深",把"该不该让 agent 全干"从口水仗变成可分类研究问题。
- 核心思路:A1 = agent 全自动;A2 = 关键点 spot-check;A3 = 平等协作(双方都比单干强);A4 = agent 需要大量人输入;A5 = 人主导,agent 只辅助。Automation (A1-A2) vs Augmentation (A3-A5) 的二分提示 "fully autonomous" 并不是全部任务的目标。
- 设计动机:现有 benchmark 几乎只评 A1 场景(agent 能多接近全自动),却忽略很多真实工作(医疗诊断、法律咨询)天然就在 A3–A5;这个 scale 给 benchmark 设计者一把尺。
-
Interaction Type 四子类 Collaboration(Delegation/Supervision/Cooperation/Coordination):
- 功能:拒绝把"协作"当一个原子词,按"谁主导 + 是否动态"分成 4 类细分。
- 核心思路:Delegation = 上来给完整指令,agent 自治执行(像 FineArena 投资偏好);Supervision = 实时监督 + 介入(像 teleoperator 监控机器人);Cooperation = 自愿联合达成同目标(CoELA 体感 agent);Coordination = 分工同步避免冲突(共享工作空间任务)。
- 设计动机:不同子类需要的反馈机制、通信模式、自治度都不同;不分会让一篇综述变成"协作工作大杂烩"。
损失函数 / 训练策略¶
本文是综述无训练。但系统对比了三大实现路线: - Prompting-based(MToM、Collaborative Gym、Magentic-UI):灵活、零训练成本,但 brittle、跨 session 不积累; - SFT-based(PRELUDE、XtraGPT、Ask-before-Plan):把交互轨迹转成持续行为改进,更稳但贵; - RL-based(UserRL、SWEET-RL、ReHAC、MUA-RL):长程多轮优化,但 reward 设计/样本效率/稳定性挑战大,近期多采用 prompting/SFT 引导 + RL 微调的混合管线。
实验关键数据¶
主实验¶
作者整理了不同领域代表性 datasets / benchmarks(节选自 Table 4):
| 领域 | 代表 Benchmark | 代表工作 |
|---|---|---|
| Embodied AI | PARTNR / MINT / IGLU Multi-Turn / TaPA | PARTNR (Chang 2024)、TaPA (Wu 2023) |
| Conversational | WEBLINX / Ask-before-Plan / HOTPOTQA / WildSeek | Co-STORM、ReHAC、WebLINX |
| Software Dev | ConvCodeWorld / ColBench / RECODE-H / MINT | SWEET-RL、ConvCodeWorld、RECODE-H |
| Gaming | CuisineWorld / MineWorld | MindAgent、MineWorld |
| Healthcare | EmoEval / GenoTEX | EmoAgent、GenoMAS |
| Retail / Travel | τ-Bench / τ2-Bench / UserBench | τ-Bench (Yao 2025)、UserBench (Qian 2025) |
| Finance | FinArena-Low-Cost | FineArena |
| Web / Computer Use | InterruptBench | InterruptBench (Zou 2026) |
3 个代表 LLM-HAS 框架的特征对比:
| 框架 | 交互类型 | 关键特性 |
|---|---|---|
| Collaborative Gym (Shao 2024) | Async + Collab | 同时评 outcome + 交互质量 |
| COWPILOT (Huq 2025) | Sync + Suggest-then-Execute | Chrome 插件,web 导航人监督 |
| DPT-Agent (Zhang 2025) | Real-time Sync | Dual Process Theory,快/慢双系统 |
消融(按 Human Feedback 维度的能力对比,作者总结自 Table 1)¶
| 反馈类型 | 收集难度 | 信号精度 | 代表工作 |
|---|---|---|---|
| Evaluative | 低(打分/preference) | 弱、缺 credit assignment | MINT、EmoAgent、SOTOPIA |
| Corrective | 中(编辑/修改) | 强、可直接学策略 | SymbioticRAG、SWEET-RL、AI Chains |
| Guidance | 中-高(demo/instruction) | 强、可 bootstrap | Hierarchical Agent、Ask-before-Plan |
| Implicit | 低(观察行为) | 弱+ambiguous | MTOM、Attentive Support、MineWorld |
关键发现¶
- 当前 LLM-HAS 研究严重 agent-centered——绝大多数把人当被动评估者,agent 主动观察人/教人的方向(ConvCodeWorld 之外)几乎空白。
- 用 LLM 模拟人(CollabLLM、user simulator)和真人之间的 gap 完全未量化;模拟人极少出现真人的 grammar error 和模糊表达,可能让 benchmark 系统性偏离真实部署。
- 评测严重偏重 task accuracy,没有任何 benchmark 标准化测量"人工作负荷 / cognitive load / coordination cost",这导致一个 task 显示"协作好"可能只是把成本转嫁给了人。
- 安全性几乎被所有 LLM-HAS 工作回避(MetaGPT、MINT 都没考虑 prompt injection / data exfiltration / interrupt safety),与高风险落地领域严重不匹配。
亮点与洞察¶
- "5 维度分类 + Human Agency Scale" 是把"人-agent 协作"领域 from 散点工作 to 二维坐标系的范式贡献,未来工作都可以快速 self-locate。
- "Human Feedback Type × Granularity × Phase 3D 分类"非常实用——一篇论文的反馈机制可以被精确编码为 (Corrective, Fine, During),方便横向对比与设计空间探索。
- 强调"很多任务最优点在 Augmentation 而非 Automation"是对当前 LLM agent 社区"卷自治"风潮的及时降温,与 Mitchell et al. 2025 的"完全自治 agent 不该被开发"形成共鸣。
- 提出 4 个开放挑战 (Human Flexibility, Agent-Centered Bias, Inadequate Evaluation, Safety) 对接下来的 benchmark 建设几乎是 to-do list。
局限与展望¶
- 作者自陈:可能漏了 cognitive science 等交叉学科 preprint;本质上是 NLP/agent conference 中心视角。
- 5 维分类相互之间存在轻度冗余(Communication Mode 的 Observation 与 Implicit Feedback 重叠),未来可压缩成更紧凑的本体。
- 没有给出系统的"框架推荐表"——比如"医疗诊断协作该选 A3 + Corrective Fine During + Hierarchical 通信"这种处方型建议会让综述更有可操作性。
- 自己想到的:Human Agency Scale 给了 5 档但没给"如何选择"的算法;未来可以做一个 "task → agency level" 的回归模型,输入任务属性自动推荐协作深度。
相关工作与启发¶
- vs LLM Multi-Agent 综述(Tran 2025 / Wu 2025):那些只覆盖 agent-agent 通信和编排;本文把"人"当 first-class agent 重写了同样的概念体系。
- vs LLM Agent 综述(Wang 2024a / Li 2024):那些以 single-agent 模块(memory/planning/tool use)为脊柱;本文以"协作维度"为脊柱,正交且互补。
- vs Human-in-the-Loop ML 综述(Wu 2022b):传统 HITL 主要在监督学习数据标注层面;本文在 agent decision loop 层面,时间尺度和动态性更复杂。
- vs Human-AI Teaming 综述(Vats 2024 / Lou 2025):更偏 HCI 视角,本文偏 NLP/agent 系统视角,相互补足。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个专门覆盖 LLM-HAS 的综述,5 维分类法 + Agency Scale 是新的分析框架。
- 实验充分度: ⭐⭐⭐⭐ 涉及框架/数据集/benchmark 表很全(Table 4-7),主表覆盖 50+ 工作。
- 写作质量: ⭐⭐⭐⭐ 结构层次清楚、术语统一;个别小节略冗余。
- 价值: ⭐⭐⭐⭐⭐ 给"人该怎么留在 LLM agent loop 里"这一关键但被忽视的问题打了第一根桩。