ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems¶
会议: CVPR 2025
arXiv: 2409.01392
代码: https://github.com/xxyQwQ/ComfyBench
领域: LLM评测
关键词: LLM Agent, 工作流生成, ComfyUI, 协作AI系统, Benchmark
一句话总结¶
ComfyBench 提出了首个评估LLM Agent在ComfyUI中自主设计协作AI系统能力的综合性Benchmark(200个任务、3205个节点文档、20个课程工作流),并提出ComfyAgent框架通过代码化工作流表示和多Agent协作,达到了与o1-preview相当的解决率,但在创意任务上仅解决15%,揭示了LLM Agent在自主系统设计上的巨大差距。
研究背景与动机¶
领域现状:以往AI研究主要集中在开发单一庞大模型(monolithic models)来最大化特定任务的智能,但另一种思路是用LLM Agent来自主设计协作式AI系统——即多个AI模型组合起来的pipeline/workflow。
现有痛点:(1) 缺乏评估LLM Agent设计协作AI系统能力的标准化Benchmark;(2) 即使用强大的LLM作为Agent,也难以理解和组合复杂的节点系统(如ComfyUI有数千个不同功能的节点);(3) 现有Agent框架缺乏从已有workflow中学习的机制。
核心矛盾:ComfyUI式的可视化工作流系统虽然灵活强大,但其节点图的组合空间极为庞大——3205个节点的排列组合和参数配置构成了一个复杂的设计空间,远超单个LLM的上下文理解能力。
本文目标 (1) 构建评估Agent工作流设计能力的Benchmark;(2) 开发能有效利用节点文档和已有工作流来生成新workflow的Agent框架。
切入角度:将工作流转化为代码表示(而非可视化节点图),使LLM能更好地理解和生成workflow;采用多Agent协作,让不同Agent负责文档检索、流程学习和代码生成。
核心 idea:用代码表示工作流使LLM可以理解和生成,用多Agent协作从已有workflow中学习并设计新的协作AI系统。
方法详解¶
整体框架¶
ComfyBench包含两个部分:(1) Benchmark——200个多样化任务指令(涵盖文生图、图编辑、风格迁移、超分辨率、物体移除等各种图像生成挑战),3205个ComfyUI节点的详细文档,以及20个参考工作流供Agent学习;(2) ComfyAgent——一个多Agent框架,能自主读取节点文档和参考workflow,为给定任务生成新的workflow代码,该代码可被解释器反向转换为ComfyUI工作流并执行。
关键设计¶
-
代码化工作流表示(Code-based Workflow Representation):
- 功能:将ComfyUI的可视化节点图转换为LLM可理解的Python代码格式
- 核心思路:每个ComfyUI workflow由JSON描述(节点ID、类型、参数、连线),将其转换为等价的Python代码,包含节点实例化和连接关系。代码可被解释器反向转换为JSON workflow并在ComfyUI中执行
- 设计动机:LLM天然理解代码,代码比JSON节点描述更紧凑、更有结构性,便于LLM生成和理解
-
多Agent协作系统:
- 功能:分工协作完成从任务理解到workflow生成的全流程
- 核心思路:多个Agent分别负责不同职责——文档检索Agent从3205个节点文档中检索相关节点信息,课程学习Agent从20个参考workflow中找到最相关的已有方案作为示例,代码生成Agent基于检索到的节点文档和参考workflow生成新的workflow代码
- 设计动机:将复杂的系统设计任务分解为可管理的子任务,利用Agent间的协作弥补单个LLM的能力局限
-
双指标评估体系:
- 功能:全面评估Agent的工作流设计能力
- 核心思路:Pass Rate(通过率)——生成的workflow能否被ComfyUI正确执行(无语法/连接错误);Resolve Rate(解决率)——执行结果是否满足任务要求(由人工或自动评估判断)
- 设计动机:通过率衡量Agent对节点系统的理解程度,解决率衡量Agent对任务语义的理解和创造性设计能力
损失函数 / 训练策略¶
无需训练——ComfyAgent是推理时的Agent框架,基于LLM的in-context learning和工具调用能力。
实验关键数据¶
主实验¶
| Agent | 通过率 (Pass Rate) | 解决率 (Resolve Rate) |
|---|---|---|
| 基础LLM Agent | 低 | 低 |
| ComfyAgent | 与o1-preview相当 | 与o1-preview相当 |
| o1-preview | 基准 | 基准 |
- ComfyAgent显著超越其他Agent方法
- 创意任务上仅解决15%
消融实验¶
| 配置 | 说明 |
|---|---|
| ComfyBench完整设置 | 200个任务,3205节点,20参考workflow |
| 不同任务类别 | 创意任务vs标准任务差异巨大(15% vs 更高) |
关键发现¶
- 创意任务是核心瓶颈:ComfyAgent仅能解决15%的创意任务,说明LLM Agent在需要组合创新的场景中仍有巨大提升空间
- 代码化表示显著优于JSON表示:LLM更容易理解和生成Python代码形式的workflow
- 从已有workflow学习至关重要:课程学习机制通过提供参考方案极大提高了生成质量
- 与o1-preview对齐:ComfyAgent(基于开源LLM)达到了o1-preview的水平,显示了Agent框架设计的重要性
亮点与洞察¶
- 问题设定的前瞻性:从"让AI变聪明"转向"让AI设计AI系统",代表了一种范式转变。用LLM Agent替代人类进行AI系统组装,是AGI的一个重要方向
- 代码作为通用接口的思路很有启发——将各种复杂系统的操作统一为代码生成问题,是LLM Agent通用化的关键
- Benchmark设计实用:200个真实的图像生成任务、3205个真实节点文档,直接在ComfyUI生态中评估,结果可执行可验证
局限与展望¶
- 创意任务仅15%解决率,说明Agent在需要全新组合(而非模仿已有方案)时严重不足
- Benchmark限于ComfyUI的图像生成领域,未覆盖视频、音频等其他协作系统
- 评估中resolve rate的判定标准可能存在主观性
- 与o1-preview对比时,缺乏更详细的per-category分析
相关工作与启发¶
- vs 通用Agent(如AutoGPT、MetaGPT): 通用Agent关注通用任务分解,ComfyAgent专注于工作流设计,在这一特定场景更有效
- vs 代码生成(如Copilot): 代码生成关注单一程序,ComfyAgent生成的是协作系统的"蓝图",需要理解多组件间的交互
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个评估Agent设计协作AI系统的Benchmark,问题设定有开创性
- 实验充分度: ⭐⭐⭐ 核心指标报告充分,但缺少详细的per-model/per-category数据
- 写作质量: ⭐⭐⭐⭐ 问题motivation清晰,系统设计逻辑完整
- 价值: ⭐⭐⭐⭐ Benchmark + Agent框架的组合对LLM Agent研究具有重要推动作用