Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/Haiyang0226/Symphony
领域: Agent / 视频理解 / 多模态VLM
关键词: 长视频理解, 多智能体系统, 认知能力解耦, 反思增强协作, 视频 grounding

一句话总结¶

Symphony 模仿人类认知把长视频理解拆给"按能力维度分工"的多个专用智能体（规划、反思、grounding、字幕、视觉感知），用一个 Actor-Critic 式的反思增强动态协作机制反复纠偏推理，并为复杂问题设计了一个会"先扩写查询再用 VLM 打分"的 grounding 智能体，在 LVBench、LongVideoBench、Video-MME、MLVU 四个基准上达到 SOTA，LVBench 比前最优高 5.0%。

研究背景与动机¶

领域现状：长视频理解（LVU）正在体育解说、智能监控、影片分析等场景越来越重要。当前主流是基于 MLLM 的 Agent：要么用 VLM 建视频数据库 + RAG 检索相关片段来对付长序列，要么靠 LLM 把任务分解、多步调工具去探索解空间。

现有痛点：两条路都有硬伤。RAG 路线难从复杂问题生成有效检索 query，且视频库噪声冗余多、检索易失准；任务分解路线把所有推理都压在核心 LLM 上，一旦任务复杂度超过模型推理能力，性能就急剧下滑、agent 甚至退化成"简单动作"而非深度推理。多智能体系统（MAS）虽有前景，但现有做法（如按模态切分的 VideoMultiAgents、靠固定团队线性投票的 LvAgent）要么跨模态信息交换成本高，要么用静态线性流水线、约束了解空间探索、突破不了单 agent 的能力上限。

核心矛盾：长视频"信息密度高、时间跨度长、问题多跳"，要求的是"分而治之 + 反复纠错"的推理；但简单的任务分解和协作机制并不足以支撑长链推理，而单纯靠 embedding 检索压缩时间上下文又会丢掉复杂问题的关键信息。

本文目标：设计一套能有效分解 LVU 子任务、并让 agent 之间动态协作纠偏的多智能体系统，同时解决"复杂问题难以精准定位相关片段"这个 grounding 难题。

切入角度：认知心理学把人类认知拆成感知、注意、推理、语言、决策等核心维度。作者据此提出按能力维度（而非按模态）解耦的 LVU 任务分解范式——能力维度切分能最小化 agent 间耦合、降低信息整合成本。

核心 idea：用一个中心化 MAS，把推理拆给认知维度对应的专用 agent，并用"反思增强的动态协作"和"会推理的 grounding agent"两件武器，把每个 agent 的认知负担降下来、把解空间探索撑起来。

方法详解¶

整体框架¶

Symphony 是一个中心化多智能体系统，按认知维度配置五个功能专用 agent：规划 agent 和反思 agent 共同负责推理与决策，grounding agent 模拟"注意"高亮关键视频片段，字幕 agent 处理文本字幕承担"语言"功能，视觉感知 agent 执行"感知"任务。相比按模态切分（模块间耦合紧、交互成本高），能力维度解耦能把认知负载分摊到低耦合的专用模块，缓解单体架构的容量过载。

运行时规划 agent 作为中央协调者：给定问题 \(Q\) 和长视频 \(V\)，它做全局任务规划、多轮调度其它 agent、整合信息并最终作答。动作空间 \(A=\{G,V,S\}\)（grounding、视觉感知、字幕）。前向推理阶段，规划 agent 按当前状态输出下一个子任务 \(a_t=\pi(S_t)\)，\(S_t=(Q,\tau_{t-1})\)，\(\tau_{t-1}=(a_1,o_1,\dots,a_{t-1},o_{t-1})\) 是历史轨迹，专用 agent 执行 \(a_t\) 产生观测 \(o_t\) 并更新状态，迭代到证据足够。随后反思 agent 处理终态 \(S_T\)：若推理链严谨、证据充分就终止；否则产出批评 \(C=\phi(S_T)\) 并更新轨迹/状态，重新触发规划 agent 的前向推理，从而扩大 MAS 的探索空间。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 Q + 长视频 V"] --> B["认知维度解耦分工<br/>规划 agent 多轮调度 字幕 / 视觉感知 / grounding 专用 agent"]
    B --> C["反思增强动态协作<br/>前向推理累积轨迹 τ，agent 执行子任务回填观测"]
    C --> D{"反思 agent：推理链严谨且证据充分?"}
    D -->|否，产出批评 C 重规划| B
    D -->|是| E["输出答案 A"]
    B -.调度.-> F["Grounding agent<br/>查询增强 f(Q)=LLM(Q) + VLM 评分 / CLIP 自适应择路"]

关键设计¶

1. 认知能力维度解耦的多智能体分工：按"能力"而非"模态"切分以降耦合

针对"单 LLM 推理过载、按模态切分跨模态交互成本高"的痛点，作者借认知心理学把 LVU 拆成五个能力维度的 agent：规划（决策）、反思（决策/推理校验）、grounding（注意）、字幕（语言）、视觉感知（感知）。其中视觉感知 agent 内含三个工具——frame inspector、global summary、multi-segment analysis；字幕 agent 做实体识别、情感分析、主题建模。为什么有效：模态切分会让各 agent 孤立处理各自特征、难以建立深层跨模态交互，而能力维度切分让 agent 间依赖最小、信息整合成本最低，把"谁负责什么认知功能"划得很清楚，从而把单体模型的容量过载分摊掉。消融（Tab. 4）显示逐个加入字幕、视觉感知、反思 agent，LVBench 分数从 65.7 一路升到 71.8，证明每个能力维度的专用化都在贡献。

2. 反思增强的动态协作机制：用独立"批评者"替代单 agent 自我纠错

针对"线性静态流水线约束解空间探索、单 agent 自纠易过度自信"的痛点，作者借鉴 Actor-Critic 框架设计了反思增强的动态推理：规划 agent 是核心策略 \(\pi\)（Actor），负责生成子任务并动态构造解路径；反思 agent 是验证模型 \(\phi\)（Critic），对推理过程和最终结果做批判分析。其理论依据是 Verifier's Law——"验证一个解远比生成它容易"。整套协作由 Algorithm 1 形式化：内层循环让规划 agent 反复出动作、调 \(\{G,V,S\}\) 执行、累积轨迹，直到 TERMINATE；外层由反思 agent 判定 \((C,\text{Valid})\leftarrow\phi(S_T)\)，无效则把批评 \(C\) 并入状态、再来一轮，最多 \(M\) 次。为什么有效：独立的反思 agent 缓解了单 agent 自我纠错里常见的"过度自信"，把验证与生成解耦后能显著扩大探索空间、在难题上带来明显增益。消融显示去掉独立反思 agent（改让规划 agent 自反思）掉 2.5%。

3. 会推理的 Grounding agent：先扩写查询、再用 VLM 打分，自适应在 VLM/CLIP 间择路

针对"复杂问题用原始 query 做 CLIP 检索抓不住抽象概念和时序动作"的痛点，作者重做了 grounding。Grounding 的目标是从视频 \(V\) 里挑出与 query 相关的片段集合 \(S=\{s\,|\,\text{sim}(f(Q),s)\ge\theta\}\)。复杂问题有两种典型形态：问题歧义（含模糊指代、抽象概念、无显式实体的高层动作）和多跳推理（要跨场景串联多段证据或推断隐含中间场景）。传统 CLIP 直接令 \(f(Q)=Q\)、\(\text{sim}=\text{CLIP}(Q,s)\)，对抽象概念（如"贿赂"）和时序（如"进城"）无能为力。作者两步改造：其一用 LLM 增强查询 \(f(Q)=\text{LLM}(Q)\)，借世界知识把模糊词实例化、把隐含逻辑线索显式补出；其二用 VLM 替代 CLIP 打分 \(\text{sim}(f(Q),s)=\text{VLM}(f(Q),s)\)，把视频切成不重叠片段、稀疏采样，VLM 按 1–4 分的相关性准则（4=核心要素可见、足以作答；3=部分证据；2=无显式线索、需多跳关联；1=无关）输出分数和理由，且并行执行降延迟。关键是 grounding agent 还保留 CLIP 检索模块、按问题复杂度自主择路——简单题走 CLIP 省算力，难题走 VLM 求精度。消融（Tab. 5）显示纯 CLIP 的 52.2 分提到 Qwen2.5VL-7B 的 68.6（+16.4%）、Seed1.6VL 的 71.8，且 VLM 路线在精度-效率间取得最优折中。

实验关键数据¶

主实验¶

四个 LVU 基准（LVBench 平均时长 68 分钟；LongVideoBench 取 Val；Video-MME 仅用 Long 子集；MLVU），指标均为准确率（Score %）。规划/反思 agent 用 DeepSeek R1，字幕 agent 用 DeepSeek V3，视觉感知/grounding agent 用 Doubao Seed 1.6 VL。

方法	LVBench	LongVideoBench(Val)	Video-MME Long	MLVU
Gemini-1.5-Pro（商业 VLM）	33.1	64.0	67.4	-
GPT-4o	48.9	66.7	65.3	54.9
OpenAI o3	57.1	67.5	64.7	-
Seed 1.6 VL*（开源 VLM）	58.1	66.1	68.4	65.3
Qwen2.5-VL-72B	47.7	60.7	63.9	53.8
DVD*（Agent）	66.8	67.2	61.5	-
VideoDeepResearch（VDR）	55.5	70.6	76.3	64.5
VideoChatA1	-	65.4	71.2	76.2
Symphony（本文）	71.8	77.1	78.1	81.0

（*为作者复现结果）Symphony 四个基准全面 SOTA：LVBench 比 DVD 高 5.0%，LongVideoBench 比 VDR 高 6.5%。LVBench 六个能力维度细分（Tab. 3）上，本文在实体识别 ER 70.0、事件理解 EU 69.4、关键信息检索 KIR 77.2、推理 Rea 69.4、摘要 Sum 72.5、整体 71.8，多数维度领先——作者归因于 grounding agent 提供丰富上下文线索（利好 EU/Sum）和多 agent 动态协作增强推理（利好 Rea）。

消融实验¶

逐个加入 agent（LVBench，Tab. 4）：

规划	字幕	视觉感知	反思	Score(%)
✓				65.7
✓	✓			68.2
✓	✓	✓		69.6
✓	✓	✓	✓	71.8

Grounding 策略消融（LVBench，Tab. 5；时间为单位秒）：

Grounding 工具	Score(%)	Time(s)
Caption-based（DVD 的 GPT-4.1 库）	61.2	8.2*（不含建库）
CLIP-based	52.2	33.7
VLM = Qwen2.5VL-7B	68.6	37.4
VLM = Seed 1.6VL	72.1	54.8

关键发现¶

每个能力维度 agent 都在贡献：字幕 agent +2.5（65.7→68.2）、视觉感知 agent +1.4（68.2→69.6）、反思 agent +2.2（69.6→71.8）。把完整字幕直接塞给规划 agent 会撑爆上下文反而掉 1.4%，说明专用字幕 agent 的"先分析再回传"避免了上下文过载。
VLM grounding 是精度关键但有效率代价：纯 CLIP 仅 52.2，换 Qwen2.5VL-7B 即 +16.4% 到 68.6 且耗时接近 CLIP；Seed1.6VL 精度最高（72.1）但耗时更长——故 grounding agent 按问题复杂度自适应择路以平衡精度与算力。
不是所有基准都通吃：与 LvAgent 比投票策略（Tab. 7），Symphony 在 LVBench 71.8 vs 64.3 大幅领先，但在 LongVideoBench(77.1 vs 80.0)、Video-MME(78.1 vs 81.7)、MLVU(81.0 vs 83.9) 上反而低于 LvAgent，说明本文优势更体现在最难、最依赖深推理的 LVBench 上。⚠️ 不同基准难度与任务类型不同，分数不可直接横比。

亮点与洞察¶

认知维度解耦范式："按能力切分而非按模态切分"是一个清晰且可迁移的多 agent 组织原则，最小化 agent 间耦合、降低信息整合成本，思路可直接用到其它复杂多模态推理任务。
Verifier's Law 落地：用独立反思 agent 当 Critic、把"验证比生成容易"显式工程化，缓解单 agent 自纠的过度自信，是 Actor-Critic 思想在 LLM Agent 上的一个干净实现。
grounding 当成推理问题：把"检索相关片段"从纯相似度匹配升级为"LLM 扩写查询 + VLM 带理由打分"，并保留 CLIP 做自适应择路，这种"难题用重武器、简单题用轻武器"的路由策略很务实。
可复用 trick：1–4 分的片段相关性评分准则（含每档的判定依据和推理输出），是一种让 VLM 给出可解释 grounding 结果的轻量协议，可直接搬到其它视频检索/定位任务。

局限与展望¶

并非全面碾压：在 LongVideoBench、Video-MME、MLVU 上低于 LvAgent 的投票策略，优势主要集中于 LVBench；方法在不同难度/任务分布上的稳健性还需打磨。
重模型依赖：规划/反思用 DeepSeek R1、感知/grounding 用 Doubao Seed 1.6 VL，多 agent + 多轮调度（agent 调度轮数和单 agent 工具调用上限都设 15）意味着不小的推理成本与延迟。
效率代价显性：VLM grounding 精度最高但最慢（Seed1.6VL 54.8s），自适应择路虽缓解但整体 pipeline 仍偏重。
改进方向：把反思/投票机制与 LvAgent 的多 agent 投票结合、对采样 FPS 与片段间隔做更系统的精度-效率权衡（Tab. 6 已初探）、降低对闭源/大体量 VLM 的依赖，都是值得探索的点。

评分¶

新颖性: ⭐⭐⭐⭐ 认知维度解耦 + 反思增强协作 + 会推理的 grounding 三者组合扎实，但各单点（MAS、Actor-Critic、查询扩写）均有渊源。
实验充分度: ⭐⭐⭐⭐⭐ 四基准 + LVBench 维度细分 + 五组消融（agent/grounding 工具/采样/投票），并诚实给出在部分基准落后 LvAgent 的结果。
写作质量: ⭐⭐⭐⭐ 认知映射与算法形式化清晰，图示丰富；个别 agent 实现细节下放附录。
价值: ⭐⭐⭐⭐ 长视频理解是高需求方向，能力维度解耦与反思协作的设计对 Agent 社区有借鉴意义，且已开源。