How to Enable Effective Cooperation Between Humans and NLP Models: A Survey of Principles, Formalizations, and Beyond¶

会议: ACL 2025
arXiv: 2501.05714
代码: 无
领域: LLM/NLP / 人机协作
关键词: 人机协作, 合作范式分类, 序列合作, 分诊合作, 联合合作, 合作原则

一句话总结¶

首次系统综述人-模型合作（Human-Model Cooperation）的原则、形式化分类和开放挑战，提出基于"谁做最终决策"的三类合作范式分类法（序列/分诊/联合合作），为每种范式梳理角色框架和方法路线。

研究背景与动机¶

领域现状：随着 LLM 从工具演化为具有自主目标和策略的智能体，人-模型合作已成为 NLP 中的新范式。在数据标注（Klie et al. 2020; Li et al. 2023a）、信息检索（Deng et al. 2023a）、创意写作（Padmakumar & He 2022）、真实问题解决（Mehta et al. 2023）等多个 NLP 任务中，人机合作方法已取得显著进展。

现有痛点：(1) 已有综述（Wang et al. 2021a, 2023e; Wu et al. 2023; Gao et al. 2024）主要关注合作的"要素"——用户界面、消息融合、评估方法等，但如何将人和模型形式化地组织为一个有效的合作团队缺乏系统分析；(2) 不同合作方法散落在各个具体应用中，缺乏统一的分类框架来比较和理解它们的本质差异；(3) 合作原则（如何确保双方行为合理、输出可信）未被系统提炼和明确表述。

核心矛盾：人机合作方法数量激增但缺乏统一的分析框架——研究者难以回答"哪种合作形式更适合我的场景"这一核心问题，因为不同合作形式（序列/分诊/联合）的适用条件、成本效益和优劣势从未被系统性地梳理和对比。

本文目标 (1) 定义人-模型合作的统一概念和原则，区分合作（cooperation）与协作（collaboration）和非合作（non-cooperation）；(2) 提出基于"谁承担最终决策责任"的系统性分类法，将现有方法统一为三大合作范式；(3) 为每种范式识别角色框架、方法路线和典型应用；(4) 识别关键研究前沿和社会影响问题。

切入角度：从 Grice 会话合作原则出发（真诚性、相关性、方式适当性、信息充分性），按"最终决策归谁"将合作形式化为三大类型，配合两种角色框架（辅助者-执行者 vs 平等伙伴）构成完整的分析体系。

核心 idea：人-模型合作可系统地按决策责任划分为序列合作（一方辅助另一方决策）、分诊合作（按能力分配任务独立完成）和联合合作（双方输出联合产生最终结果）三种范式。

方法详解¶

整体框架¶

本文是综述论文，核心贡献是提出了一套统一的人-模型合作分析框架，包含三个层次：(1) 合作原则——从 Grice 合作原则重新诠释出 4 条准则：真诚性（Sincerity，不欺骗、有证据支撑）、相关性（Relation，行动与任务目标相关）、方式适当性（Manner，表达清晰易理解）、信息充分性（Quantity，提供充分但不冗余的信息）；(2) 角色框架——定义辅助者-执行者框架（一方决策为主、另一方辅助，层级关系）和平等伙伴框架（双方共同承担决策责任，对等关系）两种基本角色关系；(3) 三大合作范式——基于"谁承担最终决策责任"将所有合作方法分为序列合作（最常见，一方按步骤辅助另一方）、分诊合作（按能力分配任务各自独立完成）和联合合作（双方输出概率融合产生最终结果）。每种范式下进一步梳理了具体方法学路线和典型应用场景。

关键设计¶

序列合作（Sequential Cooperation）:
- 功能：两方按步骤顺序协作，一方辅助另一方做最终决策
- 核心思路：分为"人辅助模型"（Human-in-the-loop）和"模型辅助人"（Machine-in-the-loop）两条路线。人辅助模型中，模型做最终决策但通过人类反馈持续改善——可分为训练式方案（RLHF、在线学习）和免训练式方案（ICL、模型编辑、规则学习）。模型辅助人中，人做最终决策，模型提供候选方案供选择/修改——关键在于提供准确且可信赖的建议
- 设计动机：最普遍的合作形式，覆盖 RLHF 对齐训练、AI 辅助写作、代码辅助等主流应用
分诊合作（Triage-based Cooperation）:
- 功能：按 HABA-MABA 原则（人擅长的/机器擅长的）将任务分配给最合适的一方独立完成
- 核心思路：通过模型内置分配器（将"转交人类"作为额外输出类别，使用 triage-aware cross-entropy loss）或外部分配器（基于预测不确定性/错误率/数据难度估计的过滤器，如 MLP 预测模型错误概率或 ChatGPT 估计数据难度）评估模型能力边界
- 设计动机：效率最高——两方完全独立工作无交互开销，但缺乏反馈环路是其固有局限
联合合作（Joint Cooperation）:
- 功能：将两方的输出概率性融合产生比任一方单独更好的最终结果
- 核心思路：利用人的离散决策构建混淆矩阵估计人类决策置信度，与模型概率输出进行贝叶斯融合；可通过监督学习（预收集标注数据估计混淆矩阵）或无监督学习（EM 算法估计）实现
- 设计动机：理论上最优（利用了人和模型犯不同类型错误的互补性），但目前仅限于分类任务，生成任务的联合合作是重要空白

损失函数 / 训练策略¶

综述总结了各范式的典型训练方法： - 序列合作中的人辅助方法：RLHF/RLAIF 对齐训练（离线/在线）、ICL 免训练方案、模型编辑 - 分诊合作：triage-aware cross-entropy loss（额外"转交人类"类别）、基于动态阈值的任务分配 - 联合合作：EM 估计人类混淆矩阵、基于聚类原型记录历史人类决策的增强方案

实验关键数据¶

三类合作范式系统对比¶

合作范式	最终决策者	角色框架	独立决策	人工成本	信息利用	适用场景
序列-人辅助	模型	辅助-执行	否	中-高	双向反馈	RLHF、指令微调
序列-模型辅助	人	辅助-执行	否	中	模型→人	AI写作/代码辅助
分诊	各自负责	平等伙伴	是	低	无交互	数据标注分流
联合	双方联合	平等伙伴	否	中	输出融合	分类决策融合

已有综述覆盖对比¶

综述	要素(EC)	形式化(FC)	原则(PC)	独特贡献
Wang et al. 2021a	✓	✗	✗	用户界面、反馈类型
Gao et al. 2024	✓	✗	✗	交互模式分类
Wang et al. 2023e	✓	✗	✗	消息融合、评估
本文	✓	✓	✓	合作原则 + 三范式分类法

关键研究前沿¶

前沿方向	核心挑战	当前状态
跨范式标准化 benchmark	缺乏统一基准比较不同合作形式优劣	完全空白
人类不确定性估计	人类决策缺乏显式不确定性度量	现有方法不可靠
模型协调能力	LLM 倾向"一刀切"，难适应不同用户	初步探索阶段
LLM 合规行为	LLM 可能表现欺骗/无关内容	已有案例记录
联合合作→生成任务	目前仅限分类任务	核心空白

关键发现¶

序列合作是 NLP 中最普遍的合作形式，但人工成本也最高
分诊合作效率最高但信息交换受限——两方独立工作无反馈环路
联合合作理论上最优但仅限于分类任务——在生成任务中如何融合两方输出仍是开放问题
LLM 在合作中可能违反真诚性原则，表现出欺骗行为（Huang et al. 2024d）
现有方法假设人类反馈总是正确的，但实际人类决策也有噪声和偏差

亮点与洞察¶

首创统一分类法：基于"决策责任归属"的三分法简洁有力，将散落的合作方法统一到一个框架
原则化设计：从 Grice 合作原则出发为合规 AI 合作提供了理论基础
识别关键盲区：联合合作在生成任务中的空白、人类不确定性估计的困难、模型可能违反合作原则
社会影响讨论：深入探讨信任校准（过度/不足依赖）、监管问责和"自动化讽刺"等实际问题
前瞻性视角：提出自进化模型、基于群体训练的泛化、多方合作等未来方向

局限与展望¶

仅关注单人-单模型场景，多方合作（多人/多模型）的复杂动态未涉及
合作与协作（collaboration）的区分有些模糊——协作需要双向沟通和共同决策
非合作交互（如谈判、说服）有独特研究价值但未纳入分析范围
综述性质决定了无法通过实验验证三种范式的优劣，需要后续实证工作
未探讨合作形式的组合使用——实际系统可能混合多种范式

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分度	⭐⭐⭐
写作质量	⭐⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐