VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2511.19524
代码: 无
领域: 视频理解
关键词: Multi-Agent, Collaborative Policy Planning, MARL, GRPO, Video Understanding

一句话总结¶

VideoChat-M1 提出协作策略规划（CPP）范式和多智能体强化学习（MARL）训练方法，让 4 个异构 VLM agent 动态生成和更新工具调用策略来理解视频，在 LongVideoBench 上超过 Gemini 2.5 Pro 3.6%、GPT-4o 15.6%。

研究背景与动机¶

现有问题：当前 agent-based 视频理解框架普遍使用静态且不可学习的工具调用策略，预定义工具选择顺序，不随视频内容和问题动态调整。这限制了对时空复杂视频中多样化线索的发现与利用。

单 agent 的瓶颈：单一 agent 难以同时兼顾感知（perception）、检索（retrieval）和综合（synthesis），即使为其配备检索、记忆和搜索工具，通用设计也限制了有效整合与推理。

无训练多 agent 的不足：如 LVAgent 等方法仅依赖静态角色分配和固定文本逻辑，缺乏可训练的协作策略，无法通过学习自适应地调整协作模式。此外，现有 RL 方法局限于单模态文本域，无法处理视频的时序和感知挑战。

核心问题：如何让多个 agent 动态地生成、执行和协调工具调用策略以应对复杂视频理解任务？如何联合训练多个异构 agent 使其学会有效协作？

方法详解¶

整体框架¶

VideoChat-M1 由两大核心组成：Collaborative Policy Planning（CPP） 推理范式 + Multi-Agent Reinforcement Learning（MARL） 训练方法。

系统包含 4 个异构 policy agent（Qwen3-8B、Qwen3-4B、Qwen2.5-7B、Qwen2.5-3B，总参数约 37B），一组视频感知工具集 \(\mathcal{T}\)（含 Global Sampling、Video Retrieval、Image Retrieval、Rough/Fine Browser、Spatial Tool、Grounding Tool 等 7 种），以及一个共享内存缓冲区 \(\mathcal{M}\)。

推理流程：用户问题 \(\mathcal{Q}\) + 视频 \(\mathcal{V}\) → 各 agent 独立生成工具调用计划 → 逐步执行工具并通过共享内存交换中间结果 → 各 agent 根据对等信息决定是否更新后续计划 → 迭代多轮后各 agent 汇总答案 → 多数投票（多选题）或指定 agent 汇总（开放题）得出最终答案。

关键设计¶

Collaborative Policy Planning (CPP):
- 功能：让多个 agent 动态协作，生成和更新工具调用策略
- 核心思路：将策略规划分为三个交替迭代的阶段——Policy Generation（各 agent 根据问题自主生成初始工具调用序列 \(\mathcal{P}_i = \{\mathcal{P}_{i,1} \to \mathcal{P}_{i,2} \to \cdots \to \mathcal{P}_{i,N}\}\)）、Policy Execution（逐步调用工具获取视频线索 \(\mathcal{A}_{i,n} = \mathcal{P}_{i,n}(\mathcal{V}, \mathcal{T}, \mathcal{A}_{i,n-1})\)）、Policy Communication（执行每步后将中间结果写入共享 memory，各 agent 参考团队信息决定是否修改后续计划 \(\mathcal{P}'_i = \mathcal{G}_i(\mathcal{Q}, \mathcal{T}, \mathcal{M}, \mathcal{P}_i)\)）
- 设计动机：固定策略无法覆盖视频内容的多样性，通过多 agent 生成多样化策略 + 通信动态更新，可以从不同角度提取更丰富的视频线索
Multi-Agent Reinforcement Learning (MARL):
- 功能：联合优化多个 agent 的协作策略，是首个面向视频理解的多 agent 联合 RL 训练框架
- 核心思路：分两阶段训练——Policy SFT（用 GPT-4o + DeepSeek-R1 自动标注高质量策略数据，筛选答案正确且计划无需修改的样本，对每个 agent 做 SFT warm-up）；GRPO 联合优化（设计三种奖励信号：结果奖励 \(\mathcal{R}_{res}\)、格式奖励 \(\mathcal{R}_{format}\)、协作奖励 \(\mathcal{R}_{col}\)，用 GRPO 联合优化全部 agent）
- 设计动机：零样本推理无法发现有效的协调模式（GPT-4o 组也只有 56.2 分 vs VideoChat-M1 的 60.5），需要通过 RL 训练注入任务特定的协作模式
Agent Dropout:
- 功能：训练时的正则化机制，防止 agent 间过度共适应
- 核心思路：每步训练随机从全连接 agent 图中采样一个 DAG 作为通信拓扑，类似于网络 Dropout 的思想
- 设计动机：固定通信拓扑会导致 agent 过度依赖特定队友，随机化拓扑迫使 agent 发展更鲁棒灵活的通信策略；消融实验证明这是"最重要的正则化器"（去掉掉 2 个点）

损失函数 / 训练策略¶

SFT 阶段：交叉熵损失，最大化生成 ground-truth 策略计划的似然。学习率 1e-6，batch size 32，1 epoch。

MARL 阶段：GRPO 目标函数，包含奖励寻求项和 KL 散度正则化项：

\[\max_{\pi_\theta} \mathbb{E}_{o \sim \pi_{\theta_{\text{old}}}} \left[ \sum_{k=1}^{K} \frac{\pi_\theta(o_k)}{\pi_{\theta_{\text{old}}}(o_k)} \cdot A_R^{(k)} - \beta \, D_{KL}(\pi_\theta \| \pi_{\text{ref}}) \right]\]

三种奖励信号：\(\mathcal{R}_{res}\)（答案正确正奖励，错误负惩罚）、\(\mathcal{R}_{format}\)（工具调用是否合法可执行）、\(\mathcal{R}_{col}\)（GPT-4o 评估中间协作轨迹质量，binary 奖励，超过 5 次工具调用强惩罚）。学习率 1e-7，4 rollouts，batch size 8，仅需 200 步即达最佳性能。

实验关键数据¶

主实验¶

数据集	指标	VideoChat-M1 (37B)	GPT-4o	Gemini 2.5 Pro	Qwen3-VL-235B	最佳 Agent 方法
LongVideoBench	Acc	82.3	66.7	78.7	-	71.6 (DeepVideoDiscovery)
Video-MME (Avg)	Acc	83.2	71.9	84.3	79.2	75.7 (VideoRAG-72B)
MLVU (M-avg/G-avg)	Acc	84.2/76.7	70.3/65.3	-	-	72.9/73.1 (VideoRAG-72B)
VideoMMMU	Acc	83.4	61.2	83.6	74.7	76.2 (VideoChat-A1)
Video-Holmes	Acc	60.5	42.0	45.7	-	-
MMR-V (CoT)	Acc	5.92	5.80	-	-	-
VSIBench (Avg)	Acc	71.9	34.0	-	62.6	-
Charades-STA	mIOU	67.7	-	-	64.8	65.9 (Eagle-2.5)

效率对比¶

模型	平均帧数	推理时间	LongVideoBench	Video-MME
Qwen2-VL-72B	568	90.5s	55.6	71.2
GPT-4o	384	153.6s	66.7	71.9
Gemini-1.5-Pro	568	227.2s	64.0	75.0
VideoChat-M1	69.9	19.8s	82.3	83.2

消融实验¶

Agent 数量与组合（Table 3）：

Agent 数量	组合	Video-Holmes	LongVideoBench
1	Qwen3-8B	31.2	61.9
2	Qwen3-4B + Qwen3-8B	43.5	67.9
3	Qwen2.5-7B + Qwen3-4B + Qwen3-8B	55.9	78.9
4	全部 4 个异构 agent	60.5	82.3

异构 vs 同构（Table 4）：

配置	Video-Holmes	LongVideoBench
4× Qwen2.5-3B（同构）	55.8	79.2
2× Qwen2.5-3B + 2× Qwen2.5-7B	55.9	79.3
2× Qwen3-4B + 2× Qwen3-8B	58.8	80.9
全异构（4 种不同模型）	60.5	82.3

MARL 组件消融（Table 6）：

\(\mathcal{R}_{format}\)	\(\mathcal{R}_{col}\)	\(\mathcal{R}_{res}\)	Agent Dropout	Video-Holmes	LongVideoBench
✓	✓	✗	✓	32.4	63.8
✓	✗	✓	✓	59.4	81.1
✗	✓	✓	✓	60.2	82.0
✓	✓	✓	✗	58.5	79.9
✓	✓	✓	✓	60.5	82.3

SFT + MARL 缺一不可（Table 7）：

SFT	MARL	Video-Holmes	LongVideoBench
✗	✗	52.1	69.3
✓	✗	55.2	75.9
✗	✓	57.9	80.2
✓	✓	60.5	82.3

vs 闭源 LLM Agent 组（Table 5）：

Agent 组	Video-Holmes	LongVideoBench
4× GPT-4o	52.7	72.9
4× DeepSeek-R1	51.8	71.4
2× GPT-4o + 2× DeepSeek-R1	56.2	75.9
VideoChat-M1 (37B)	60.5	82.3

关键发现¶

结果奖励 \(\mathcal{R}_{res}\) 是 MARL 中最关键的信号，去掉后 Video-Holmes 从 60.5 暴跌至 32.4
Agent Dropout 是"最重要的正则化器"，去掉后 LongVideoBench 掉 2.4 个点（79.9 vs 82.3）
异构 agent 组（4 种不同架构）显著优于同构组（如 4× 同一模型），结构多样性带来讨论多样性
即使用 GPT-4o 组走 CPP 流程也只有 56.2/75.9，远低于经 MARL 训练的 VideoChat-M1（60.5/82.3），说明零样本推理无法发现有效协调模式
多数投票（60.5/82.3）> 指定 agent 决策（60.2/81.6）> 打分选择（59.9/81.2）
仅需 69.9 帧和 19.8s 推理时间，效率远超直接喂大量帧给单模型

亮点与洞察¶

CPP 范式新颖：生成→执行→通信的迭代循环非常自然，agent 可根据同伴信息动态修改策略，不同于以往固定策略或无训练多 agent 方案
首创多 agent 联合 RL 视频理解框架：设计了结果/格式/协作三重奖励信号，特别是协作奖励评估中间过程质量（process reward），而非仅看最终结果
Agent Dropout 优雅的正则化：随机化通信拓扑避免共适应，灵感来源于神经网络 Dropout，简单有效
极致效率：37B 总参数（4 个小模型 + 工具模型），仅用 69.9 帧和 19.8s 推理时间，在多个 benchmark 上匹敌或超越 235B 级模型和 GPT-4o

局限与展望¶

需要 4 个模型并行推理 + 多个工具模型，部署复杂度高，实际应用中的工程挑战不小
协作奖励依赖 GPT-4o 作为评判者，训练成本不低且引入外部依赖
当前工具集固定为 7 种预定义工具，未探索让 agent 自主发现或创建新工具
对于简单视频问题，多 agent 框架可能是过度设计
同构 agent 数量超过 4 后性能饱和，可扩展性有限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个多 agent RL 视频理解框架，CPP 范式 + MARL 训练都是新贡献
实验充分度: ⭐⭐⭐⭐⭐ 8 个 benchmark × 4 个任务类型 + 丰富消融（agent 数量/异构性/奖励组件/训练阶段/决策机制）
写作质量: ⭐⭐⭐⭐ 整体清晰，方法-实验逻辑连贯，表格略多但信息量大
价值: ⭐⭐⭐⭐⭐ 37B 参数超越 GPT-4o 和 235B 级模型，提供了多 agent 视频理解的新范式