VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning¶

会议: CVPR2026
arXiv: 2511.19524
代码: 待确认
领域: 视频理解
关键词: 多智能体系统, 多智能体强化学习, 协作策略规划, 视频问答, 工具调用

一句话总结¶

提出VideoChat-M1，用多智能体协作策略规划（CPP）+ 多智能体强化学习（MARL）替代传统固定工具调用策略，让多个策略Agent动态生成、执行和沟通工具调用计划，在8个视频理解基准上取得SOTA，LongVideoBench超Gemini 2.5 Pro 3.6%、超GPT-4o 15.6%。

研究背景与动机¶

视频理解是核心难题：多模态大语言模型（MLLM）在短视频上表现优异，但面对长时序、复杂空间结构的视频仍然力不从心

Agent框架的兴起：基于Agent的框架通过调用各类工具提取关键视频线索，避免将海量帧直接喂入MLLM，已展现出超越端到端模型的潜力

现有Agent策略固定且不可学习：已有多Agent视频理解框架采用静态的、预定义的工具调用规则，无法自适应地发现多样化线索，限制了对复杂视频的感知与推理能力

单一策略局限性：单Agent或固定策略无法同时兼顾感知、检索和综合摘要，难以处理不同时间尺度上的丰富线索

多Agent协作缺乏训练：现有多Agent系统（如CAMEL、MetaGPT）依赖工程逻辑和固定角色，缺少针对视频多模态任务的联合训练机制

RL方法局限于文本领域：已有多Agent RL方法大多局限于单模态文本任务，忽略了视频特有的时序和感知挑战

方法详解¶

整体框架：协作策略规划（CPP）¶

VideoChat-M1包含一组策略Agent \(\mathcal{G}=\{\mathcal{G}_i\}\)、一组视频感知工具 \(\mathcal{T}=\{\mathcal{T}_j\}\)、以及共享记忆缓冲区 \(\mathcal{M}=\{\mathcal{M}_i\}\)。CPP范式包含三个核心阶段：

阶段一：策略生成（Policy Generation） 每个Agent根据用户查询 \(\mathcal{Q}\) 和可用工具集 \(\mathcal{T}\)，独立生成各自的工具调用策略：\(\mathcal{P}_i = \mathcal{G}_i(\mathcal{Q}, \mathcal{T})\)，策略为一个有序的工具调用计划 \(\mathcal{P}_i = \{\mathcal{P}_{i,1} \to \mathcal{P}_{i,2} \to \ldots \to \mathcal{P}_{i,N}\}\)。

阶段二：策略执行（Policy Execution） Agent按照策略逐步执行工具调用：\(\mathcal{A}_{i,n} = \mathcal{P}_{i,n}(\mathcal{V}, \mathcal{T}, \mathcal{A}_{i,n-1})\)，每一步根据前一步的中间结果选择对应工具分析视频。

阶段三：策略沟通（Policy Communication） 执行每一步后，所有Agent将中间结果存入共享记忆 \(\mathcal{M}\)。每个Agent参考自身策略和团队中间记忆，决定是否更新后续策略：\(\mathcal{P}'_i = \mathcal{G}_i(\mathcal{Q}, \mathcal{T}, \mathcal{M}, \mathcal{P}_i)\)。若当前策略仍然最优则保持不变，否则修订后续步骤。

沟通和执行交替进行多轮迭代，每个Agent在执行过程中持续利用团队的中间结果作为历史经验，通过多轮沟通不断修正自身策略。

最终答案的聚合策略因任务而异：多选题通过多数投票决定；开放式问题和时序定位任务由团队中表现最佳的模型（Qwen3-8B）负责汇总。

关键设计：多智能体强化学习（MARL）¶

策略SFT阶段：利用GPT-4o和DeepSeek-R1自动标注高质量策略计划数据集，筛选标准为：(1) 能产出正确答案；(2) 可一次执行成功无需修改。用交叉熵损失微调每个Agent，使其掌握基本策略生成能力。

MARL阶段：基于GRPO联合优化所有Agent，设计三种奖励信号：

损失函数与奖励¶

结果奖励 \(\mathcal{R}_{res}\)：正确答案给正奖励，错误答案给负惩罚
格式奖励 \(\mathcal{R}_{format}\)：输出格式正确（可解析的计划、有效工具调用）给奖励，格式错误给惩罚
协作奖励 \(\mathcal{R}_{col}\)：用GPT-4o评估每个Agent的中间规划轨迹质量（计划可行性、工具调用恰当性、步骤管理合理性），输出二值奖励（1/0）；超过5次工具调用的轨迹施加强惩罚

总奖励 \(\mathcal{R} = \mathcal{R}_{res} + \mathcal{R}_{format} + \mathcal{R}_{col}\)，使用GRPO目标函数优化模型参数。训练中采用Agent Dropout，每步随机采样DAG通信拓扑，增强泛化性。

实验¶

主要结果¶

在8个基准、4类任务上取得SOTA，Agent团队总参数37B：

任务	基准	VideoChat-M1	对比模型	提升
长视频QA	LongVideoBench	82.3	Gemini 2.5 Pro (78.7)	+3.6
长视频QA	LongVideoBench	82.3	GPT-4o (66.7)	+15.6
视频推理	Video-Holmes	60.5	GPT-4o (42.0)	+18.5
视频推理	VideoMMMU	80.0	Qwen3-VL-235B (74.7)	+5.3
空间智能	VSIBench Avg	71.9	Gemini 1.5 Pro (45.4)	+26.5
时序定位	Charades-STA	67.7	Eagle-2.5-8B (65.9)	+1.8

效率对比¶

VideoChat-M1平均仅使用69.9帧（其他模型的12%-18%），推理时间19.8s（其他模型的9%-22%），但性能全面领先。相比GPT-4o使用384帧/153.6s、Gemini 1.5 Pro使用568帧/227.2s，VideoChat-M1通过智能工具调用实现了极其高效的帧采样策略，用不到1/5的计算资源取得更优结果。

实现细节¶

训练使用8×A100 80G GPU，SFT学习率1e-6，MARL学习率1e-7。SFT训练1个epoch（batch size 32），MARL最佳性能在200步时达到（4 rollouts，batch size 8）。Agent团队由Qwen2.5-3B、Qwen2.5-7B、Qwen3-4B、Qwen3-8B四个异构模型组成，总参数约37B。

消融实验与关键发现¶

Agent数量：1→4个Agent性能稳步提升，超过4个后趋于饱和
架构多样性关键：异构Agent组（Qwen2.5-3B/7B + Qwen3-4B/8B）优于同构Agent组，结构冗余降低讨论多样性
MARL各组件贡献：移除协作奖励 \(\mathcal{R}_{col}\) 降1分，移除格式奖励类似，移除Agent Dropout降2分（最关键正则化手段）
SFT+MARL互补：单独SFT提升6.6/+6.6，单独MARL提升5.8/+10.9，两者结合达到峰值（60.5/82.3），初始化先验+涌现协作缺一不可
LoRA接近全参微调：LoRA仅更新2%参数，效果仅略低于全参微调（59.4 vs 60.5），提供轻量部署选项
投票机制最优：多数投票（60.5/82.3）> Agent决策（60.2/81.6）> 最高分选择（59.9/81.2）
超越闭源Agent团队：训练后的37B团队大幅超越未训练的4×GPT-4o（+7.8/+9.4）和4×DeepSeek-R1（+8.7/+10.9），证明协作微调注入了零样本推理无法发现的任务特异性协调模式
Full finetune vs LoRA：LoRA仅更新约2%参数即可达到接近全参微调的效果（VideoHolmes 59.4 vs 60.5），为资源受限场景提供了实用的轻量部署方案

亮点¶

首个多Agent策略学习框架用于视频理解：用可学习的协作策略规划替代固定工具调用，是该方向的范式转变
CPP三阶段范式设计精巧：生成→执行→沟通的迭代循环使Agent能动态修正策略，充分利用团队中间信息，比静态分工更灵活
效率极高：仅用69.9帧和19.8s推理时间，远低于GPT-4o等模型，却全面领先
37B参数媲美235B：在VideoMMMU等基准上，4个小模型的协作效果可比Qwen3-VL-235B
消融极其充分：涵盖Agent数量/组成/多样性/奖励组件/训练策略/决策机制等多个维度

局限性¶

协作奖励依赖GPT-4o评估：中间过程的协作奖励用GPT-4o作为外部评估器，引入额外API成本和评估偏差，大规模训练时可拓展性受限
工具集范围未充分讨论：论文未详细说明工具集 \(\mathcal{T}\) 的具体组成和可扩展性，新工具的接入方式不明确
训练成本较高：需要先用GPT-4o+DeepSeek-R1标注策略数据做SFT，再做MARL，整体流程复杂且依赖强闭源模型
仅在QA类任务上验证：虽然覆盖4类任务，但均为问答或定位形式，对视频生成、编辑、摘要等任务的泛化性未知
Agent间通信成本：每步执行后所有Agent共享中间结果，通信开销随Agent数和步数增长，超过4个Agent后性能饱和也可能与此相关

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个可训练的多Agent协作策略学习框架用于视频理解，CPP+MARL范式新颖
实验充分度: ⭐⭐⭐⭐⭐ — 8个基准4类任务，消融覆盖Agent组成/奖励/训练/决策等多维度
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式化描述规范，图示直观
价值: ⭐⭐⭐⭐⭐ — 37B多Agent协作超越GPT-4o和Gemini 2.5 Pro，展示小模型协作的巨大潜力