LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey¶

会议: ACL 2026
arXiv: 2505.00753
代码: https://github.com/HenryPengZou/Awesome-Human-Agent-Collaboration-Interaction-Systems
领域: 人机协作 / LLM Agent / 综述
关键词: human-in-the-loop、agent orchestration、human feedback、human agency scale、LLM-HAS

一句话总结¶

本文首次系统性梳理"LLM 基础的人-agent 协作系统（LLM-HAS）"——把人重新拉回 agent loop，从环境/画像、人类反馈、交互类型、编排范式、通信结构 5 个维度建立统一分类，并补充了一个 A1–A5 的 Human Agency Scale 量化"任务里到底该让人参与多深"。

研究背景与动机¶

领域现状：LLM agent 调研近年多在卷"完全自治"：单 agent (AutoGPT)、多 agent (MetaGPT)、长程任务执行（SWE-Agent）等都把"减少人介入"当目标。

现有痛点：完全自治路线撞了三堵墙——(1) 可靠性：幻觉在多步链式 action 里被放大；(2) 复杂性：科学、医疗、长上下文连贯性等任务超出 LLM 单独可及范围；(3) 安全/伦理：金融、医疗、安全场景下不可逆 action 风险陡增。已有的 LLM agent / multi-agent / specific-app 综述都不专门讨论"人怎么有效介入"。

核心矛盾：当前社区把"自治程度"当成单一进度条往满拉，但很多真实任务的最优点在 augmentation 而非 automation；缺乏一个统一框架来描述"人在什么时间、以什么方式、什么粒度、和 agent 怎么交互"。

本文目标：(a) 定义 LLM-HAS 并区分于 single agent / multi-agent；(b) 把现有工作沿 5 个维度归类；(c) 系统化人类反馈的类型/粒度/时机；(d) 给出一个量化"自治 vs 增强"程度的 Human Agency Scale；(e) 总结 prompting / SFT / RL 三类实现路线及代表 benchmark；(f) 提出 5 大开放挑战。

切入角度：把"人"显式建模为 LLM-HAS 的 first-class 组件（Lazy User vs Informative User），并借鉴 multi-agent system 的通信/编排概念扩展到人-agent 场景。

核心 idea：一个 LLM-HAS = Environment & Profiling + Human Feedback + Interaction Type + Orchestration + Communication，配合 Human Agency Scale 标定参与深度。

方法详解¶

整体框架¶

作者把 LLM-HAS 拆成 5 个正交核心维度 + 1 个跨维度量表：

Environment & Profiling：物理世界 vs 虚拟仿真；single/multi-human × single/multi-agent 共 4 种拓扑；人画像分 Lazy / Informative，agent 画像按角色（通用助手、数学专家、机器人等）。
Human Feedback：类型（Evaluative / Corrective / Guidance / Implicit）× 粒度（Coarse / Fine）× 时机（Initial / During / Post）。
Interaction Type：Collaboration（最常见，分 Delegation / Supervision / Cooperation / Coordination 4 子类）、Competition、Coopetition。
Orchestration：Task Strategy（One-by-One vs Simultaneous）× Temporal Synchronization（Synchronous vs Asynchronous）。
Communication：Structure（Centralized / Decentralized / Hierarchical）× Mode（Conversation / Observation / Shared Message Pool）。
Human Agency Scale (A1–A5)：A1 Full Automation → A2 Minimal Human Input → A3 Equal Partnership → A4 Agent-Assisted → A5 Human-Driven，A1–A2 属 Automation，A3–A5 属 Augmentation。

关键设计¶

Human Feedback 三维分类（Type × Granularity × Phase）:
- 功能：把人提供反馈的方式从单一"打分"扩展成 4 类（Evaluative / Corrective / Guidance / Implicit）× 2 粒度 × 3 时机，形成 24 格的分析坐标，让任意工作都能定位。
- 核心思路：Evaluative = 像 RLHF 的偏好打分；Corrective = 像 PRELUDE 学用户编辑；Guidance = 像 InteractGen 用 demo 引导；Implicit = 像 VeriPlan 观察用户滑块行为。粒度区分 holistic vs segment-level，时机区分 Pre / In / Post。
- 设计动机：让"feedback 复杂度"成为可比较的设计选择——粗粒度评估易收集但 credit assignment 弱；细粒度反馈精确但用户负担重；时机决定能否实时纠错或仅 offline 学习。
Human Agency Scale (A1–A5):
- 功能：用 5 档量化"任务里人该参与多深"，把"该不该让 agent 全干"从口水仗变成可分类研究问题。
- 核心思路：A1 = agent 全自动；A2 = 关键点 spot-check；A3 = 平等协作（双方都比单干强）；A4 = agent 需要大量人输入；A5 = 人主导，agent 只辅助。Automation (A1-A2) vs Augmentation (A3-A5) 的二分提示 "fully autonomous" 并不是全部任务的目标。
- 设计动机：现有 benchmark 几乎只评 A1 场景（agent 能多接近全自动），却忽略很多真实工作（医疗诊断、法律咨询）天然就在 A3–A5；这个 scale 给 benchmark 设计者一把尺。
Interaction Type 四子类 Collaboration（Delegation/Supervision/Cooperation/Coordination）:
- 功能：拒绝把"协作"当一个原子词，按"谁主导 + 是否动态"分成 4 类细分。
- 核心思路：Delegation = 上来给完整指令，agent 自治执行（像 FineArena 投资偏好）；Supervision = 实时监督 + 介入（像 teleoperator 监控机器人）；Cooperation = 自愿联合达成同目标（CoELA 体感 agent）；Coordination = 分工同步避免冲突（共享工作空间任务）。
- 设计动机：不同子类需要的反馈机制、通信模式、自治度都不同；不分会让一篇综述变成"协作工作大杂烩"。

损失函数 / 训练策略¶

本文是综述无训练。但系统对比了三大实现路线： - Prompting-based（MToM、Collaborative Gym、Magentic-UI）：灵活、零训练成本，但 brittle、跨 session 不积累； - SFT-based（PRELUDE、XtraGPT、Ask-before-Plan）：把交互轨迹转成持续行为改进，更稳但贵； - RL-based（UserRL、SWEET-RL、ReHAC、MUA-RL）：长程多轮优化，但 reward 设计/样本效率/稳定性挑战大，近期多采用 prompting/SFT 引导 + RL 微调的混合管线。

实验关键数据¶

主实验¶

作者整理了不同领域代表性 datasets / benchmarks（节选自 Table 4）：

领域	代表 Benchmark	代表工作
Embodied AI	PARTNR / MINT / IGLU Multi-Turn / TaPA	PARTNR (Chang 2024)、TaPA (Wu 2023)
Conversational	WEBLINX / Ask-before-Plan / HOTPOTQA / WildSeek	Co-STORM、ReHAC、WebLINX
Software Dev	ConvCodeWorld / ColBench / RECODE-H / MINT	SWEET-RL、ConvCodeWorld、RECODE-H
Gaming	CuisineWorld / MineWorld	MindAgent、MineWorld
Healthcare	EmoEval / GenoTEX	EmoAgent、GenoMAS
Retail / Travel	τ-Bench / τ2-Bench / UserBench	τ-Bench (Yao 2025)、UserBench (Qian 2025)
Finance	FinArena-Low-Cost	FineArena
Web / Computer Use	InterruptBench	InterruptBench (Zou 2026)

3 个代表 LLM-HAS 框架的特征对比：

框架	交互类型	关键特性
Collaborative Gym (Shao 2024)	Async + Collab	同时评 outcome + 交互质量
COWPILOT (Huq 2025)	Sync + Suggest-then-Execute	Chrome 插件，web 导航人监督
DPT-Agent (Zhang 2025)	Real-time Sync	Dual Process Theory，快/慢双系统

消融（按 Human Feedback 维度的能力对比，作者总结自 Table 1）¶

反馈类型	收集难度	信号精度	代表工作
Evaluative	低（打分/preference）	弱、缺 credit assignment	MINT、EmoAgent、SOTOPIA
Corrective	中（编辑/修改）	强、可直接学策略	SymbioticRAG、SWEET-RL、AI Chains
Guidance	中-高（demo/instruction）	强、可 bootstrap	Hierarchical Agent、Ask-before-Plan
Implicit	低（观察行为）	弱+ambiguous	MTOM、Attentive Support、MineWorld

关键发现¶

当前 LLM-HAS 研究严重 agent-centered——绝大多数把人当被动评估者，agent 主动观察人/教人的方向（ConvCodeWorld 之外）几乎空白。
用 LLM 模拟人（CollabLLM、user simulator）和真人之间的 gap 完全未量化；模拟人极少出现真人的 grammar error 和模糊表达，可能让 benchmark 系统性偏离真实部署。
评测严重偏重 task accuracy，没有任何 benchmark 标准化测量"人工作负荷 / cognitive load / coordination cost"，这导致一个 task 显示"协作好"可能只是把成本转嫁给了人。
安全性几乎被所有 LLM-HAS 工作回避（MetaGPT、MINT 都没考虑 prompt injection / data exfiltration / interrupt safety），与高风险落地领域严重不匹配。

亮点与洞察¶

"5 维度分类 + Human Agency Scale" 是把"人-agent 协作"领域 from 散点工作 to 二维坐标系的范式贡献，未来工作都可以快速 self-locate。
"Human Feedback Type × Granularity × Phase 3D 分类"非常实用——一篇论文的反馈机制可以被精确编码为 (Corrective, Fine, During)，方便横向对比与设计空间探索。
强调"很多任务最优点在 Augmentation 而非 Automation"是对当前 LLM agent 社区"卷自治"风潮的及时降温，与 Mitchell et al. 2025 的"完全自治 agent 不该被开发"形成共鸣。
提出 4 个开放挑战 (Human Flexibility, Agent-Centered Bias, Inadequate Evaluation, Safety) 对接下来的 benchmark 建设几乎是 to-do list。

局限与展望¶

作者自陈：可能漏了 cognitive science 等交叉学科 preprint；本质上是 NLP/agent conference 中心视角。
5 维分类相互之间存在轻度冗余（Communication Mode 的 Observation 与 Implicit Feedback 重叠），未来可压缩成更紧凑的本体。
没有给出系统的"框架推荐表"——比如"医疗诊断协作该选 A3 + Corrective Fine During + Hierarchical 通信"这种处方型建议会让综述更有可操作性。
自己想到的：Human Agency Scale 给了 5 档但没给"如何选择"的算法；未来可以做一个 "task → agency level" 的回归模型，输入任务属性自动推荐协作深度。

评分¶

新颖性: ⭐⭐⭐⭐ 首个专门覆盖 LLM-HAS 的综述，5 维分类法 + Agency Scale 是新的分析框架。
实验充分度: ⭐⭐⭐⭐ 涉及框架/数据集/benchmark 表很全（Table 4-7），主表覆盖 50+ 工作。
写作质量: ⭐⭐⭐⭐ 结构层次清楚、术语统一；个别小节略冗余。
价值: ⭐⭐⭐⭐⭐ 给"人该怎么留在 LLM agent loop 里"这一关键但被忽视的问题打了第一根桩。