DICE-Bench: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues¶

会议: ACL 2025
arXiv: 2506.22853
代码: snuhcc/DICE-Bench
领域: LLM / NLP
关键词: function-calling, benchmark, multi-party dialogue, multi-round, tool-use evaluation

一句话总结¶

提出 DICE-Bench，一个面向多轮多方对话场景的函数调用评测基准，包含 1607 条高质量对话实例和量化信息分散度的 DICE-Score 指标，揭示当前 LLM 在复杂对话中工具调用能力的不足。

研究背景与动机¶

现有问题：已有的函数调用基准（如 APIBench、ToolLLM 等）大多聚焦于单轮交互场景，即所有 API 参数都出现在单条用户指令中，忽视了真实群聊中信息分散在多轮多人对话中的复杂性。
现实需求：在实际应用中，虚拟助手需要在群聊场景中追踪多人多轮对话，从分散的上下文中聚合信息来完成 API 调用（如根据群聊讨论结果预订酒店和机票）。
评估缺口：缺乏一个能定量衡量"工具相关信息在对话中分散程度"的指标，使得难以系统性评估 LLM 在真实场景中的函数调用能力。
本文方案：构建 DICE-Bench 基准并提出 DICE-Score 指标，通过多智能体仿真生成多轮多方对话数据，系统评估 19 个 LLM 的工具调用能力。

方法详解¶

整体框架¶

DICE-Bench 的数据构建包含三个阶段：(1) 工具图构建：从 TaskBench 和 ToolEyes 收集 124 个工具节点和 270 条有向边，建模工具间依赖关系；(2) 场景配置：通过 DFS 采样工具链，配置对话类型（说服协商型/咨询信息型/争论型）、参与人数（2-4人）和独立 persona；(3) 对话生成：使用多智能体系统模拟对话，由编排器控制发言顺序，迭代生成 N 轮对话。

关键设计¶

DICE-Score 指标：定量衡量工具相关信息在对话中的分散程度。公式为 \(\text{DICE}(S,T) = \frac{\min(|S_{\neq 0}|, T) \cdot \sqrt{|S| \cdot T}}{\sum_{i \in S} \ln(1 + \alpha \times S_i)}\)，其中 \(S\) 为各轮次提及工具信息的计数向量，\(T\) 为需识别的不同工具项总数，\(\alpha = e^2\) 控制重复惩罚。高分表示信息更分散、任务更难。
三阶段验证流水线：Stage 1 使用 G-Eval（GPT-4o）按 6 维标准自动过滤低质量对话；Stage 2 通过规则过滤（如拒绝回复检测）；Stage 3 由人工按对话质量、功能集成和现实适用性三个维度共 15 个子标准评分，淘汰低分实例。
工具图依赖建模：工具间的有向边显式编码了"上一轮工具输出作为下一轮参数"的跨轮依赖关系，保证多轮场景的真实性。

损失函数/评估指标¶

使用 Exact Match (EM) 作为主要评估指标，要求 LLM 同时准确预测函数名和所有参数值。

实验¶

主实验结果¶

模型	Round 1	Round 2	Round 3	Round 4	平均
GPT-4o	74.12	61.00	61.65	59.18	63.99
Gemini 2 Flash	74.47	59.45	59.40	58.73	63.01
Phi4-15B	71.29	57.06	58.02	56.44	60.70
GLM4-9B-Chat	58.24	47.55	47.24	46.03	49.76
Qwen2.5-32B	67.76	56.76	57.23	55.92	59.42
ToolAce-8B	2.47	0.66	0.33	0.51	0.99

消融实验¶

分析维度	关键发现
DICE-Score vs 性能	Pearson 相关系数 r ≈ -0.984，DICE-Score 越高性能越差
人类评估对齐	Round 1→4 人类准确率从 80.5% 降至 49.3%，与 DICE-Score 1.42→5.36 强烈负相关
对话类型影响	争论型 (Eristic) 对话因立场频繁切换导致 EM 显著更低
工具专用模型	ToolAce-8B、CALM-8B 等专用模型表现远不如通用对话模型

关键发现¶

所有模型性能随轮次增加显著下降，Round 4 相比 Round 1 平均下降约 15 个百分点，说明多轮信息聚合是当前 LLM 的主要瓶颈。
开源 15B 级别的 Phi4 可与闭源 GPT-4o 相当（平均分 60.7 vs 64.0），Qwen 2.5 的 128K 上下文窗口有助于长对话场景。
专门针对单轮函数调用微调的模型在多方对话场景下性能极差（ToolAce-8B 仅约 1%），暗示单轮训练数据无法迁移到多轮多方场景。

亮点¶

首个覆盖多轮 + 多方的函数调用基准，填补了现有评测的重要空白。
DICE-Score 指标与人类表现高度负相关（r ≈ -0.984），具有良好的可解释性和有效性。
严格的三阶段过滤（自动 + 规则 + 人工），从 1800 条中筛选出 1607 条高质量实例。

局限性¶

Round 4 对话长度可能超出部分模型的 4K token 限制，无法测试所有模型。
部分模型虽然内容语义正确但输出格式不符 JSON 规范导致被判定为错误。
多智能体编排器（GPT-4o）在动态分配发言顺序方面能力有限，倾向于重复模式的轮流发言。
仅覆盖日常生活场景，缺乏法律、金融、医疗等专业领域工具。

评分¶

维度	分数 (1-5)
创新性	4
实用性	4
实验充分性	4
写作质量	4
总评	4.0