Model Context Protocol for Vision Systems: Audit, Security, and Protocol Extensions¶

会议: NeurIPS 2025
arXiv: 2509.22814
代码: 即将开源（benchmark and validator suite）
领域: AI系统/协议安全/计算机视觉工作流
关键词: Model Context Protocol, 视觉系统编排, 协议安全, Schema验证, 多模态Agent

一句话总结¶

首个对MCP在视觉系统中部署的协议级审计研究，分析91个公开MCP服务器发现78%存在schema不一致、89%缺乏运行时验证，并提出语义schema、可视化记忆、运行时验证器等协议扩展方案。

研究背景与动机¶

Model Context Protocol (MCP) 是一种用于Agent-工具交互的schema绑定执行模型，通过类型化的schema和动态上下文对象实现模块化的计算机视觉工作流，无需重新训练模型。然而，MCP在视觉领域的应用面临独特挑战：

高维张量输入：视觉数据涉及大规模图像流、多模态语义融合，给编排带来压力

空间约定不一致：不同工具使用不同的坐标系统（如XYWH vs X1Y1X2Y2）

缺乏系统性审计：此前未有人针对MCP在视觉系统中的部署进行协议级、部署规模的审计

安全风险：动态和多Agent工作流存在权限提升和无类型工具连接的风险

现有的编排策略主要依赖端到端模型训练或prompt调优的视觉语言系统，在工具专业化下表现脆弱，且中间推理不透明。

方法详解¶

整体框架¶

本文是一项系统性实证审计，而非提出新的算法方法。核心工作包括： - 从MCPServerCorpus（13,942个公开注册部署）中筛选出91个视觉相关MCP服务器 - 沿九个组合保真度维度进行标注 - 开发可执行benchmark和验证器来检测和分类协议违规

关键设计¶

四种编排模式分类法：
- 静态组合（37%）：固定工具序列，审计性强但适应性差
- 检索增强选择（29%）：基于embedding的语义匹配，灵活但87%存在未声明坐标格式
- 动态编排（21%）：运行时构建执行图，89%缺少运行时schema检查
- 多Agent协调（13%）：分布式控制，55%存在过期内存或跨工具泄漏
Benchmark验证器套件：
- Schema格式验证器：检测工具间schema不一致（检出率78.0%）
- 坐标约定验证器：检测缺失或不一致的空间引用（检出率24.6%）
- 蒙版-图像一致性验证器：检测维度或通道不匹配（检出率17.3%）
- 内存作用域验证器：检测未文档化的视觉状态保留（平均33.8警告/100次执行）
- 权限验证验证器：检测通过工具绑定的权限提升或泄漏（检出率41.0%）
安全威胁分类：识别8类主要威胁向量：
- Prompt注入、Schema绕过、远程代码执行(RCE)、权限提升
- 过期内存访问、未追踪溯源、跨工具泄漏、类型强制注入
协议扩展提案：
- 语义接地Schema：添加semantic_role、modality、coordinate_system字段
- 协议原生视觉记忆：编码结构化、版本化、语义标注的中间状态
- 运行时验证器和兼容性合约：在运行时验证空间维度、张量通道语义和坐标对齐
- 可组合基准测试：评估编排保真度、内存卫生和schema稳定性

分析方法¶

兼容性通过谓词函数形式化：\(comp: \mathcal{T} \times \mathcal{T} \rightarrow \{0,1\}\)，其中 \(\mathcal{T}\) 是工具schema集合，决定一个工具的输出能否作为另一个工具的输入。所有置信区间均在95%水平下报告。

实验关键数据¶

主实验：协议失败模式分析（N=91）¶

失败类型	发生率	95% CI
Schema格式分歧	62%	-
无运行时Schema验证	89%	-
未声明坐标约定	87%	-
使用带外桥接脚本	41%	-
未文档化内存保留逻辑	55%	-
声明了组合回退策略	仅9%	-
Schema不一致（综合检出）	78.0%	[68.45, 85.28]
坐标约定不一致	24.6%	[16.90, 34.36]
蒙版-图像维度不一致	17.3%	[10.90, 26.35]

安全审计结果（N=47）¶

安全问题	发生率	95% CI
无类型工具连接	89.0%	[76.80, 95.19]
权限提升或数据泄漏风险	41.0%	[28.02, 55.37]
内存作用域警告	平均33.8次/100执行	[28.4, 39.9]

案例研究关键发现¶

系统	审计规模	发现的主要问题
ParaView-MCP	-	嵌套JSON中的二进制纹理，延迟尖峰>2.3秒
SUMO+YOLO-MCP	134次调用对	27.6%存在投影冲突或轴不匹配
ALITA	143个工具链	18.4%产生格式错误的响应
FHIR-MCP	108个输出	14.9%的字幕输出出现缩放不匹配
Blender-RCP	97个多步组合	22个产生孤立引用或缓存冲突

关键发现¶

分割输出在91个服务器中存在5种不兼容格式：URI编码蒙版、游程编码、base64张量、多边形轮廓、逐像素标签图
边界框格式在绝对XYWH、角点X1Y1X2Y2和中心归一化格式间不统一
仅8/91个服务器实现了后调用输出检查
41%的部署依赖未文档化的桥接脚本来进行格式转换

亮点与洞察¶

首个协议级视觉系统审计：系统性地揭示了MCP在视觉领域面临的结构性问题，而非个别工具的缺陷
量化分析扎实：所有发现都附有95%置信区间，91个服务器的样本量在该领域具有代表性
实用的安全威胁分类：8类威胁向量及其防御策略对部署实践有指导意义
编排模式分类法有助于理解不同部署策略的权衡

局限与展望¶

仅分析公开可访问的服务器，排除了企业级和专有部署，研究原型过度代表
协议扩展仅作为参考原型在受控测试床中实现，未在异构生产环境中验证
安全分析仅覆盖47个服务器，未能完全捕捉更大规模部署的威胁面
缺少与替代编排框架（如LangChain、AutoGen等）的对比分析
MCP生态系统快速演进，观察到的模式可能不代表最新状态

评分¶

新颖性: ⭐⭐⭐⭐ （首个MCP视觉系统协议级审计，开创性工作）
实验充分度: ⭐⭐⭐⭐ （91个服务器、5个案例研究、量化的置信区间）
写作质量: ⭐⭐⭐⭐ （结构清晰，分类法和表格组织良好）
价值: ⭐⭐⭐⭐ （对MCP生态系统安全和可靠性有重要指导意义）