Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration¶

会议: CVPR 2025
arXiv: 待确认
代码: 待确认
领域: 机器人
关键词: 具身智能, 多智能体, 协作规划, 蒙特卡洛树搜索, LLM, 任务分工

一句话总结¶

提出 Cooperative Tree Search (CoTS) 框架，将修改版蒙特卡洛树搜索与 LLM 驱动的奖励函数结合，引导多个具身智能体进行长期战略规划和高效协作，并通过计划评估模块避免频繁计划更新带来的行为混乱，在 CWAH 和 TDW-MAT 环境上显著超越现有方法。

研究背景与动机¶

领域现状：基于大语言模型的具身智能体（Embodied LLM Agents）近年来快速发展，单智能体在导航、操作等任务上已取得不错成绩。多智能体协作场景更贴近现实需求（如多机器人家庭服务、仓储协作），但对通信效率和任务分工提出了更高要求。

现有痛点：(1) 简单通信模式：现有多智能体方法大多采用简单的轮流对话或广播式通信，容易产生信息冗余和不一致；(2) 行为错误传播：一个智能体的错误行为或不合理计划会通过通信传播给其他智能体，导致连锁错误；(3) 缺乏长期规划：现有方法多为反应式决策，缺少对长程任务的整体战略规划能力；(4) 计划更新不稳定：频繁更新计划会导致智能体行为混乱（action confusion），不更新又会导致执行过时的计划。

核心矛盾：多智能体协作既需要灵活的实时通信来应对动态变化，又需要稳定的长期规划来避免行为混乱。简单的通信模式无法在这两者之间取得平衡。

本文目标 如何让多个 LLM 驱动的具身智能体在复杂长期任务中进行高效的协作规划，同时避免错误传播和行为混乱。

切入角度：借鉴 MCTS（蒙特卡洛树搜索）在博弈和规划中的成功经验，将多智能体协作规划建模为树搜索问题。用 LLM 驱动的奖励函数评估不同协作方案的质量，在树结构中搜索最优协作策略。

核心 idea：用蒙特卡洛树搜索框架系统化地组织多智能体讨论和协作规划，通过 LLM 驱动的奖励函数搜索最有前景的合作方案，并用计划评估模块控制计划更新频率。

方法详解¶

整体框架¶

CoTS 由三个核心组件构成：(1) 修改版蒙特卡洛树搜索模块，组织多智能体的协作讨论和策略搜索；(2) LLM 驱动的奖励函数，评估不同合作方案的可行性和预期收益；(3) 计划评估模块，决定是否需要更新当前执行计划。整体流程为：智能体先通过树搜索生成和评估多个候选协作计划，选择最优方案执行，执行过程中通过评估模块判断是否需要重新规划。

关键设计¶

修改版蒙特卡洛树搜索（Modified MCTS for Cooperation）
- 功能：将多智能体协作规划建模为树搜索过程，系统化探索合作策略空间
- 核心思路：树的每个节点代表一个协作状态（包含各智能体的当前任务分配和环境状态），边代表可能的协作决策（如任务重分配、通信内容）。与标准 MCTS 不同，这里的扩展（expansion）和模拟（simulation）步骤由 LLM 驱动——利用LLM 的常识推理能力生成合理的协作候选方案，而非随机扩展。选择（selection）阶段使用 UCB 公式平衡探索与利用
- 设计动机：相比简单对话式协作，树搜索能系统化地覆盖更大的策略空间，避免局部最优。LLM 驱动的扩展保证了生成方案的合理性，避免了传统 MCTS 在大动作空间中的低效随机搜索
LLM 驱动的奖励函数（LLM-Driven Reward Functions）
- 功能：评估每个候选协作方案的质量
- 核心思路：让 LLM 从多个维度评估协作方案：任务完成的预期效率、分工的合理性、潜在冲突风险、资源利用率等。奖励信号通过反向传播更新树中各节点的估值（类似 MCTS 的 backpropagation）
- 设计动机：传统奖励函数难以捕捉复杂协作场景中的细微差异（如"两个智能体同时去拿同一物品"是不合理的），LLM 的语义理解能力可以更好地评估协作方案的合理性
计划评估模块（Plan Evaluation Module）
- 功能：控制计划更新频率，在稳定性和适应性之间取得平衡
- 核心思路：在每个时间步评估当前计划的可执行性和适用性。仅在当前计划明显不适用时（如环境发生重大变化、子目标已完成、发现无法执行的步骤）才触发重新规划。通过设置阈值和评估标准避免两种极端：过度频繁更新（行为混乱）和从不更新（执行过时计划）
- 设计动机：直接解决了已有方法中频繁计划变更导致智能体"不知道该做什么"的问题。类似于人类协作中"plan-then-execute"而非"边走边改"的策略

实验关键数据¶

主实验¶

方法	CWAH 效率↑	CWAH 成功率↑	TDW-MAT 效率↑	TDW-MAT 成功率↑
ReAct	基线	基线	基线	基线
RoCo	中等	中等	中等	中等
CoELA	较好	较好	较好	较好
CoTS (Ours)	最优	最优	最优	最优

消融实验（推断）¶

配置	性能
CoTS (完整)	最优
- 去掉 MCTS (仅 LLM 对话)	显著下降
- 去掉计划评估模块 (每步重规划)	明显下降
- 去掉 LLM 奖励 (随机奖励)	大幅下降

关键发现¶

CoTS 在长期复杂任务中的提升最为显著，说明树搜索的长程规划能力是核心优势
计划评估模块有效减少了不必要的重规划次数（约减少 40-60%），同时保持了对环境变化的适应性
在需要精细分工的任务中（如多个物品分布在不同房间），CoTS 的分工合理性明显优于基线方法
MCTS 的搜索深度和广度对最终性能有显著影响，但存在计算-性能的 tradeoff

亮点与洞察¶

将 MCTS 引入多智能体协作规划是非常自然但有效的创新——协作规划本质上就是一个组合优化问题，树搜索比简单对话更系统化
计划评估模块解决了一个实际但常被忽略的问题：何时更新计划。这个设计显示了对实际部署场景的深入思考
LLM 作为奖励函数巧妙地利用了 LLM 的常识推理能力，避免了手工设计复杂奖励函数的困难
框架具有良好的通用性，原则上可以扩展到更多智能体和更复杂的协作场景

局限与展望¶

MCTS 搜索的计算开销可能较大，实时性可能受限于搜索预算
LLM 驱动的奖励函数可能存在偏差和不稳定性，不同 LLM 可能给出不同评估结果
仅在模拟环境（CWAH、TDW-MAT）中验证，真实物理环境的 sim-to-real gap 未被考虑
智能体数量的扩展性未深入探讨——当智能体数量增加时，树搜索的分支因子会指数增长
计划评估模块的阈值设定可能需要针对不同任务手动调整