FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation¶

会议: ACL 2025
arXiv: 2506.09081
代码: https://github.com/flageval-baai/FlagEvalMM
领域: Multimodal / VLM 评估
关键词: 多模态评估, 视觉语言模型, 文生图评估, 评估框架, 解耦架构

一句话总结¶

提出 FlagEvalMM，一个开源的多模态模型评估框架，通过将模型推理与评估过程解耦的架构设计，统一支持视觉语言理解（VQA）、文生图/文生视频生成和图文检索等多种多模态任务的评估。

随着多模态模型的快速发展，业界需要一个能够全面、高效、便捷地评估各类多模态能力的统一框架。然而现有方案存在明显不足：

任务覆盖不全：VLMEvalKit 和 Lmms-Eval 主要面向 VLM 理解任务；VBench 专注视频生成评估。没有一个框架能同时覆盖理解和生成任务。

推理与评估耦合：现有框架在同一运行环境中执行模型推理和评估，导致环境冲突（如模型推理和 LLM-as-Judge 评估的依赖冲突）、资源利用效率低。

扩展性差：VLMEvalKit 需要侵入式代码修改来添加新 benchmark；VHELM 基于 HELM 架构复杂、主要依赖 API 调用；Lmms-Eval 仅支持 Transformers 和 vLLM 推理框架。

FlagEvalMM 的动机在于通过解耦架构和模块化设计解决上述问题，提供一站式多模态评估体验。

FlagEvalMM 由两大组件构成：评估服务器 (Evaluation Server) 和 模型运行器 (Model Runner)，两者通过轻量级 HTTP RESTful 协议通信。这种解耦设计使推理环境和评估环境完全独立。

评估服务器 (Evaluation Server)：每个评估任务是最小执行单元，包含三个核心组件——Processor（数据预处理，将不同来源的数据集转为标准化格式）、Config（配置参数如评估指标和提示模板）、Evaluator（评估模型输出并生成性能指标）。设计可扩展，用户可注册自定义 Dataset 和 Evaluator。
模型运行器 (Model Runner)：包含 Model Adapter 和 Backend。Model Adapter 作为评估服务器和推理引擎之间的桥梁，内置了对 OpenAI REST API、Gemini、Anthropic 等的适配器。Backend 是实际的推理引擎，官方支持 vLLM、SGLang、LMDeploy 等高性能后端。实现了基于 SQLite 的缓存机制——对输入数据（文本、图像、参数）计算哈希值作为唯一键，避免重复推理。
通信协议：六步生命周期——get_tasks（获取可用任务）→ task_info（查询任务信息）→ get_meta（获取元数据）→ get_data(i)（获取评估项）→ 推理 → submit(result)（提交结果）。每步支持分布式和并行化评估。
评估加速：利用 vLLM、SGLang 等推理加速工具，配合异步数据加载（如数据预取），显著减少等待时间。

多模态理解：覆盖通用知识、数学、图表理解、视觉感知、文字识别五大能力维度。数据集包括 MMMU、MMMU-Pro、MathVision、MathVerse、Blink、CharXiv 等公开数据集 + 自建主观评测集和文字识别评测集。区分中英文。
多模态生成：评估提示一致性、真实性、美学质量、安全性四个维度。自动指标包括 VQAScore、Q-Align、VideoScore，结合人工评估（3位评估者打分取平均）。

模型	加权分	一致性	真实性	美学	安全性	VQAScore
Hunyuan-Image	73.00	67.93	66.67	78.50	100.0	73.76
DALL-E 3	70.12	70.24	57.51	68.38	98.21	81.82
FLUX.1 schnell	68.39	61.95	64.34	73.18	99.11	77.95
Midjourney v6.1	65.91	67.56	46.95	64.58	98.21	77.63

分析维度	关键发现
开源 vs 闭源 VLM	Qwen2.5 系列超越多个早期闭源模型，差距缩小
跨语言表现	Mistral-3.1、Claude-3.7 在中文评估上明显弱于英文
自动 vs 人工评估	一致性维度 VQAScore 与人工评估 Pearson 相关仅 0.76
美学评估	OneAlign-Aesthetic 与人工评估相关仅 0.59