VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding¶

会议: ICML 2026
arXiv: 2606.05259
代码: 待确认（论文声明开源语料与基准）
领域: 多模态VLM / 视频推理
关键词: 视频理解, 知识密集推理, 后训练语料, 技能导向QA合成, CoT监督

一句话总结¶

VideoKR 是首个面向「知识与推理密集型视频理解」的大规模后训练语料——它新采集 14.5 万条 CC 许可的专业领域长视频、合成 31.5 万条带 CoT 推理链的 QA，靠「人在回路 + 技能导向」的合成管线保证难度/多样性/可靠性，并配套构建去掉「单帧可答」捷径的 VideoKR-Eval 基准；在标准 SFT→GRPO 流程下，仅靠数据设计就让 7/8B 模型在知识密集视频推理上超过此前后训练方法。

研究背景与动机¶

领域现状：视频多模态大模型靠架构改进、大规模预训练和复杂后训练（各种 RLVR 变体、奖励工程）快速进步，但从「表层视频感知」走向「需要领域知识 + 多步推理的视频推理」时仍明显吃力。

现有痛点：作者指出瓶颈不在算法，而在训练语料。现有大规模视频数据集几乎都为感知目标（动作识别、事件定位、短程时序）构建，内容严重偏向日常活动、缺专业领域覆盖；而且很多是复用多年前发布的短视频、靠单一模型（如全程 GPT-4o）合成，会引入系统性偏置，许多样本甚至不看视频就能答对。

核心矛盾：要训出真能做知识密集视频推理的模型，需要的是「专业领域 + 真需要看视频 + 带可靠推理链」的数据，但这类数据既无现成来源，又无法纯靠人工大规模构造，纯靠模型合成又会带偏置。

本文目标：构造一个大规模、高质量、可商用（CC 许可）、真正逼出深层视频推理能力的后训练语料，并配一个不被「文本捷径/单帧捷径」攻破的评测基准。

切入角度：把「知识与推理密集型视频理解」拆解为三种互补技能（感知、知识、推理），围绕技能定向合成 QA；并在每一个会用到模型输出的环节都插入领域专家审核，把「可扩展的模型合成」与「可靠的人工质控」结合起来。

核心 idea：用「领域知识库驱动采集 + 技能导向 QA 合成 + 人在回路多模型质控」造数据，让数据设计本身成为视频推理进步的主驱动力——并用标准 SFT→GRPO 当受控脚手架，把性能增益干净地归因到数据。

方法详解¶

整体框架¶

VideoKR 的核心产物是数据，整条管线是一个「质控半自动」流程：先由专家审定 82 个专业学科、按「学科→课程→讲次→知识点」四层组织出含 6.37 万知识点的领域知识库；再用知识点生成真实场景、转成搜索词，经 YouTube CC 许可检索 + 多轮（元数据→视觉→安全）过滤采集到 14.6 万视频；对每条视频按三种核心技能各生成多条 QA、配 CoT 推理链，并经自洽性/视频依赖/CoT 三重过滤；全程在每个含模型输出的步骤用「人审定的多模型选择协议」从 7 个前沿模型池里挑合格模型，最后去污染后按视频分组切成 SFT-201K 与 RL-114K，并另建 VideoKR-Eval 评测基准。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["领域知识库<br/>82学科·四层·6.37万知识点"] --> B["知识驱动视频采集<br/>场景→搜索词→CC检索+多轮过滤"]
    B --> C["技能导向QA合成<br/>VidR/KnowVid/KnowVidR + CoT"]
    C --> D["验证过滤+多模型质控<br/>自洽/视频依赖/CoT + 人审定选模"]
    D --> E["SFT-201K & RL-114K<br/>去污染+按视频分组切分"]
    D --> F["VideoKR-Eval<br/>滤单帧可答+专家重标 2000题"]

关键设计¶

1. 知识库驱动的视频采集：让视频「隐含」知识而非「讲解」知识

针对「现有语料偏日常、缺专业领域」的痛点，作者先手工梳理顶尖高校本科课程、定出自然科学/医疗/人文社科/工程四大类下的 82 个学科，按「学科→课程→讲次→知识点」四层让专家+LLM 逐层细化出 6.37 万知识点（term + 段落级定义）。采集时关键的一招是「场景化检索」：直接拿「牛顿第二定律」当搜索词只会搜到讲座录像，于是先让 LLM 为每个知识点生成 1–3 个真实场景（如「火箭升空」），再转成语义相关搜索词，从而检索到「体现」知识而非「解释」知识的视频。检索限定 CC 许可（解决此前语料版权模糊的问题）、排除 >30 分钟的视频，并经元数据相关性→下载后视觉二次相关性→Azure 图像审核三轮过滤，最终采到 14.6 万视频（平均时长 344 秒，远长于此前语料的几十秒）。

2. 技能导向的 QA 合成：把「知识密集视频推理」拆成三种可定向生成的能力

把目标能力拆成三种互补核心技能：① 基础视频推理 VidR（不依赖外部知识、直接理解可见事件，如追踪动作/空间关系/时序）；② 知识增强视频感知 KnowVid（用领域知识丰富视觉感知，如识别「滴定管/冷凝器」并理解其在化学流程中的作用）；③ 知识密集视频推理 KnowVidR（融合视觉理解与领域知识做多跳推理，如由观察到的反应物量估算产物量、由临床视频里的症状与操作推断诊断）。专家先为每个学科每种技能各标 150 条种子样本（共 1800 条，二审又改了 74 条），合成时让前沿 MLLM 在 0.2 fps 带时间戳的帧 + 3 条同学科同技能种子样本 + 知识点的条件下，每条视频每技能生成 2 条、共 6 条 QA 并各配 CoT。这种「技能拆解 + 种子模仿」让合成既可扩展又能定向覆盖从感知到多跳推理的难度谱。

3. 三重验证 + 人审定多模型质控：同时压住「合成错误」「文本捷径」「单一模型偏置」

模型合成必然带噪，作者用三个互补过滤把质量顶上去：① 自洽性验证——把生成问题连同帧重新喂回模型让它逐步作答，只有重导出答案与原答案一致才保留，并用该验证步骤的推理当最终推理链；② 视频依赖过滤——让 InternVL3.5-38B 与 Qwen3-VL-32B 只看「文本+4 帧」作答，若两者都答对则删除该样本（比多数评测基准的纯文本/单帧过滤更严）；③ CoT 推理链验证——用独立强 MLLM 核查每一关键步是否有可观测证据或标准领域知识支撑，丢掉含关键无支撑步的样本。更关键的是「人审定多模型选择」：不像此前工作全程用单一模型，作者维护 7 个前沿模型池（GPT-5.2、Claude-4.5-Sonnet、Gemini-3-Flash 等），按管线难度分层——对每个模型每个步骤抽 100 个真实输入让专家标错误率，只有错误率低于阈值才让该模型负责该步，大规模合成时再从合格池随机抽模型，既提多样性又压系统偏置。配合 YouTube-ID 与近重复去污染，最终切成 SFT-201K（保留 CoT 当监督目标）与 RL-114K（只留问题+可验证答案）。

4. VideoKR-Eval：把「不看视频也能答」的捷径题筛掉

作者手工审计发现 VideoMMMU/MMVU/SciVideoBench 等现有知识密集基准里大量样本能靠单帧/文本捷径答对（前沿模型在 MMVU、VideoMMMU 上单帧可答率 >35%）。于是用「多模型单帧探测」构建 VideoKR-Eval：对每题用 Qwen3-VL-235B、Claude-4.5-Sonnet、GPT-5.2 各只给「问题+选项+1 随机帧」、各跑 3 次独立试验，三次全对才判为单帧可答；只保留三模型都判为「需连续视频理解」的 1,254 题，再对被滤掉的视频请专家重标 746 题（要求问题基于清晰可观测的视频证据、需领域知识、答案唯一），合成 2,000 题基准。VideoKR-Eval 上前沿模型单帧可答率被压到 ~10%，远低于现有基准。

损失函数 / 训练策略¶

用标准 SFT→GRPO 当受控脚手架（刻意不引入复杂 RL 设计，避免算法成为混淆变量、把增益干净归因到数据）：以 Qwen2.5-VL-7B-Instruct 与 Qwen3-VL-8B-Instruct 为基座，先在 SFT-201K 上微调 1 epoch（CoT 当监督目标），再从该 checkpoint 在 RL-114K 上跑 GRPO 1 epoch；Qwen3-VL-8B 还做了直接 GRPO 的 Zero-RL 对照。GRPO 准确率奖励对开放题用 ROUGE、选择题用精确匹配；最大视频 token 4,096、最多 128 帧、batch size 32。评测统一在 LMMs-Eval 下、用各模型官方 prompt、跑三次取均值，以解决此前论文因 prompt 错配导致的结果不可复现问题。

实验关键数据¶

主实验¶

在 7 个基准（3 个通用 + 4 个知识密集）上，VideoKR 后训练在知识密集任务上增益最显著，且通用任务不掉队。下表为知识密集平均与 VideoKR-Eval 的代表性结果。

模型	通用平均	VideoKR-Eval	知识密集平均
Qwen2.5-VL-7B-Instruct（基座, 128帧）	64.1	32.7	41.9
VideoAuto-R1（128帧）	65.6	36.5	44.3
VideoKR SFT+RL（128帧）	65.5	41.2	46.6 (+4.7)
Qwen3-VL-8B-Instruct（基座, 128帧）	65.9	39.0	48.5
Qwen3-VL-8B-Thinking	65.2	41.5	50.0
VideoKR SFT+RL（Qwen3, 128帧）	65.4	45.3	51.5 (+3.0)

知识密集平均 Qwen2.5-VL-7B 从 41.9→46.6（+4.7）、Qwen3-VL-8B 从 48.5→51.5（+3.0），后者拿下同规模（7/8B）模型最佳知识密集平均；单数据集上 MMVU、VideoKR-Eval 提升最大（Qwen2.5-VL-7B 上约 +4.8 与 +8.5 点）。

消融实验¶

统一以 Qwen2.5-VL-7B、128 帧、SFT 80K/1 epoch 设定（RL 对比为 50K/1 epoch GRPO）。

配置	通用平均	VideoKR-Eval	知识密集平均	说明
基座 Qwen2.5-VL-7B	64.1	32.7	41.9	参考
VidR only	58.0	35.3	41.4	仅基础感知推理
VidR+KnowVid	58.4	35.9	41.3	加知识增强感知
VidR+KnowVid+KnowVidR	58.3	36.8	42.4	三技能全开最优
Direct Output（无CoT）	61.4	35.9	39.4	去 CoT 监督
Chain-of-Thought	58.3	36.8	42.4	CoT 监督 (+3.0)
Video-R1-CoT-165k（SFT对比）	57.3	27.5	36.2	旧语料反降
VideoKR-SFT-201K（Ours）	58.3	36.8	42.4	唯一超基座的语料

关键发现¶

三技能缺一不可：知识密集平均随 VidR→+KnowVid→+KnowVidR 单调改善（41.4→41.3→42.4，VideoKR-Eval 35.3→35.9→36.8），说明把领域知识与多跳推理监督叠进来才是关键。
CoT 监督至关重要：去掉 CoT 直接输出，知识密集平均从 42.4 掉到 39.4（−3.0），高质量推理链是逼出深层推理的核心。
数据质量 > 数据多寡：SFT 设定下唯有 VideoKR-SFT（42.4）超过基座 41.9，Video-R1/VideoRFT 反而把它压到 36.2/38.4；Zero-RL 下 VideoKR-RL（43.0, +1.1）也强于次优 VideoAuto-R1（42.7）——印证「数据设计是瓶颈」的核心论点。
SFT+RL 互补：RL 在 SFT checkpoint 上持续高于 SFT-only，且 RL-only 一般也优于 SFT-only，说明两者结合才能充分释放 VideoKR 的价值。

亮点与洞察¶

场景化检索：用「火箭升空」代替「牛顿第二定律」当搜索词，从根上把数据从「讲解知识的讲座」转向「隐含知识的真实视频」，这个小技巧对采到真正需要推理的视频极其关键，可迁移到任何知识密集多模态数据采集。
视频依赖过滤当数据「防捷径」闸门：用两个强 VLM 只看文本+4 帧作答、都答对就删，把「不看视频也能答」的样本在训练侧就清掉，比只在评测侧防捷径更治本；同样的探测思路又复用到 VideoKR-Eval 构建上，训练与评测一致地强调「真的要看视频」。
人审定多模型选择协议：把「单一模型全程合成」换成「按步骤难度分层、人审错误率达标才上岗、合成时随机抽合格模型」，同时压住单模型偏置并提升多样性——这是一套可复用的「人在回路质控」工程范式。
用最朴素的 SFT→GRPO 当受控脚手架：故意不上花哨 RL，把增益干净归因到数据本身，方法论上很有说服力，也回应了视频推理领域「过度堆算法」的倾向。

局限与展望¶

排除 >30 分钟视频，长上下文/超长视频推理被显式排除在范围外；采集时长虽达平均 344 秒，但极长视频推理仍是空白。
合成与质控重度依赖 7 个前沿闭源/大模型 + 34 位领域专家，复现成本与可及性高；人审抽样（如 800 样本评估）虽显示残余噪声可接受，但仍存在 17/800 改变答案的错误。
评测以多选+开放题为主，GRPO 奖励用 ROUGE/精确匹配，对开放式长推理的评分粒度有限；通用基准上后训练偶有小幅下降（数据偏专业领域的代价）。
主要验证 7/8B 规模与 Qwen 系基座，是否在更大规模或异构架构上同样有效需进一步实验。

评分¶

新颖性: ⭐⭐⭐⭐ 首个知识/推理密集视频后训练语料 + 技能导向合成 + 防捷径基准，数据侧创新扎实（非算法新）。
实验充分度: ⭐⭐⭐⭐⭐ 双基座、7 基准主实验 + 技能/CoT/跨语料多维消融 + 帧数缩放分析，归因清晰。
写作质量: ⭐⭐⭐⭐⭐ 管线、质控、基准构建动机与细节交代到位，Table 1/3/4 信息密度高。
价值: ⭐⭐⭐⭐⭐ 开源 CC 语料 + 防捷径基准，对推动可复现的知识密集视频推理研究有直接基础设施价值。