4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation¶

会议: CVPR 2026 Highlight
arXiv: 2512.17012
代码: GitHub
领域: 模型压缩
关键词: 4D理解, 区域级VQA, 感知蒸馏, 时间位置编码, 深度感知

一句话总结¶

提出4D-RGPT和感知4D蒸馏（P4D）框架，通过从冻结的4D感知专家模型中蒸馏深度和光流等知识到MLLM中增强4D感知，同时构建R4D-Bench——首个区域级4D视频问答基准。

研究背景与动机¶

尽管MLLM在视觉理解上取得了显著进展，但在需要精细3D结构和时间动态推理的任务上仍有不足。现有限制：

弱4D感知：现有SFT/RL方法仅通过文本监督优化，无法有效学习深度、光流等低级4D表示
缺乏区域级提示：现有3D/4D VQA基准要么没有区域提示，要么缺少动态场景——无法评估"特定区域在4D上下文中"的理解能力
推理开销：利用外部3D模型注入知识的方法（如VG-LLM）在推理时引入额外计算成本

核心洞察：4D感知（深度+光流+运动分割+相机射线）应作为MLLM的内在能力，通过训练时蒸馏获得，而非推理时依赖外部模块。

方法详解¶

整体框架¶

这篇论文想让 MLLM 真正"懂"4D——既能感知深度、3D 结构这些空间信息，又能感知物体随时间运动的动态信息，而且要落到具体区域上回答问题。难点在于：现有方法要么只靠文本监督，模型从没真正学过深度/光流这类低级 4D 表示；要么推理时挂一个外部 3D 模型来注入知识，又拖慢了速度。

4D-RGPT 的整体思路是把 4D 感知做成模型的内在能力，且只在训练时付出代价。视频帧先过 VLM 视觉编码器，编码器输出在送入 LLM 骨干前会叠上"时间戳位置编码"，让模型知道每一帧对应的真实时刻；LLM 骨干一边正常生成文本答案，一边额外接出一组训练专用模块——先用 4D 感知解码器（D_4DP）从 LLM 中间特征解出潜在 4D 特征，再用一组 4D 预测头（D_m）从中解出深度、光流、运动分割、相机射线这几种显式 4D 信号。训练时，这两层输出分别被一个冻结的 4D 专家教师 L4P 在潜在层和信号层上"对齐"，把教师的感知知识蒸进 MLLM。推理时，整条 4D 感知与蒸馏分支全部丢掉，只留标准 VLM 路径——所以增强了感知，却不增加任何推理开销。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["输入视频帧 + 各帧时间戳"] --> B["视觉编码器 E_V"]
    B --> C["时间戳位置编码 TPE<br/>正弦编码叠加到视觉特征"]
    C --> D["多模态投影器 E_P"]
    D --> E["LLM 骨干"]
    E --> F["生成文本答案<br/>推理时唯一保留的路径"]
    E -.训练时接出.-> G

    subgraph P4D["感知 4D 蒸馏 P4D（仅训练，推理整条移除）"]
        direction TB
        G["4D 感知解码器 D_4DP<br/>LLM 中间特征 → 潜在 4D 特征"]
        G --> H["4D 预测头 D_m<br/>解出深度/光流/运动分割/相机射线"]
    end

    subgraph TEA["冻结 4D 专家教师 L4P"]
        direction TB
        I["统一编码器 → 潜在 4D 特征"]
        I --> J["专家解码器 → 精确 4D 信号"]
    end

    G <-.潜在蒸馏 LD 对齐.-> I
    H <-.显式蒸馏 ED 对齐.-> J

关键设计¶

1. 感知 4D 蒸馏（P4D）：让 MLLM 在训练时把 4D 感知学进骨干，而不是推理时外挂

纯文本监督（SFT/RL）的问题是模型从没被直接告知"这块区域离相机多远、往哪个方向动"，它只能从答案文字里间接猜测 4D 结构。P4D 改成让一个冻结的 4D 感知专家 L4P 当老师，把它对深度、光流、运动分割、相机射线的判断蒸给 MLLM。蒸馏分两条分支互补：潜在蒸馏（ℒ_LD）对齐 MLLM 经 4D 感知解码器（D_4DP）从中间特征解出的潜在 4D 特征与教师的潜在表示，给的是抽象层面的引导；显式蒸馏（ℒ_ED）则让 MLLM 通过 4D 预测头进一步解出具体的深度图/光流图等显式信号，再去对齐教师输出的精确信号。两者缺一不可——只有潜在蒸馏，模型学到的是模糊的"感觉"；只有显式蒸馏，又缺少深层特征的统一约束（消融里 LD、ED 单独加都不如合用）。关键是，这套解码器和教师只在训练时存在，推理阶段整条分支被移除，所以 4D 感知是"白学"来的，零额外计算。

2. 时间戳位置编码（TPE）：把帧间真实时间间隔显式告诉模型

MLLM 默认只看到一串视觉 token，并不知道相邻两帧之间到底隔了 0.1 秒还是 1 秒。但像"这辆车的平均速度是多少"这类问题，本质上要用位移除以时间，模型不知道时间就无从算起。TPE 的做法很直接：把每帧的采样时间戳编码成正弦位置编码，加到该帧的视觉特征上，再一起送进多模态投影器。这样时间不再是隐含信息，而是和画面绑在一起进入 LLM。消融显示 TPE 在速度、加速度这类时间敏感任务上提升尤其明显，正印证了它补的就是"时间标尺"这一块。

3. R4D-Bench：第一个把问题钉到具体区域上的 4D VQA 基准

现有 3D/4D VQA 基准的盲区是——要么没有区域提示（只能问整张图的笼统问题），要么场景是静态的，没法考"某个特定区域在动态 4D 上下文里的行为"。R4D-Bench 不从头造题，而是从 STI-Bench 和 VLM4D 的非区域问题改造：先抽出问题里的实体关键词，用 GroundingDINO + SAM2 把对应物体分割出来，打上 SoM（Set-of-Marks）标记，再用 Qwen2.5-VL 把区域和问题匹配上，最后人工校验。最终得到 1517 个带区域提示的 VQA，分静态（维度测量/3D 定位/空间关系）和动态（计数/平移/旋转/速度/位移）两大类共 9 种任务。这条流程可复用，也是它能填补区域级 4D 评测空白的原因。

损失函数 / 训练策略¶

总损失 = SFT交叉熵损失 + 潜在蒸馏损失(ℒ_LD) + 显式蒸馏损失(ℒ_ED)
教师模型：L4P（冻结），提供depth/flow/motion/camray四种4D模态
训练数据：RoboFAC, SAT, VSTI-Bench训练集, Wolf
基线模型：NVILA-Lite-8B

实验关键数据¶

主实验（非区域基准）¶

基准	NVILA基线	4D-RGPT	提升
STI-Bench	33.8	37.6	+3.8
VLM4D	46.5	52.7	+6.2
VSTI-Bench	45.2	59.1	+13.9
6基准平均	-	-	+5.3

R4D-Bench¶

方法	静态	动态	总平均
GPT-4o	30.3	47.5	42.8
NVILA-Lite-8B	29.1	41.3	37.9
4D-RGPT-8B	32.9	45.7	42.2(+4.3)

消融实验¶

配置	STI-Bench	R4D	说明
基线	33.8	37.9	无蒸馏
+ TPE	35.5	39.8	时间感知
+ LD	36.6	41.0	潜在蒸馏
+ ED	36.9	41.5	显式蒸馏
+ LD + ED (P4D)	37.6	42.2	完整方案

关键发现¶

潜在和显式蒸馏互补，缺一不可
TPE在速度/加速度等时间敏感任务上贡献尤为显著
P4D优于直接SFT 4D数据、拼接4D特征、4D位置编码等替代方案
蒸馏模块仅在训练时存在，推理完全无开销

亮点与洞察¶

"训练时蒸馏，推理时免费"的设计范式优雅——增强感知但不增加推理成本
双分支蒸馏（潜在+显式）的设计比单一蒸馏更有效
R4D-Bench填补了区域级4D VQA的空白，构建流程可复用
揭示了即使是GPT-4o在区域级4D推理上也仅42.8%，说明问题极具挑战性

局限与展望¶

教师模型L4P的质量直接影响蒸馏效果，教师模型的局限会传递给学生
R4D-Bench基于现有基准转换而来，未从头设计原生4D区域问题
动态场景中速度/位移等数值估计仍不够准确
仅在8B模型上验证，更大模型可能有不同表现

评分¶

新颖性: ⭐⭐⭐⭐ 训练时4D蒸馏+区域级4D基准的组合创新
实验充分度: ⭐⭐⭐⭐⭐ 6个外部基准+自建R4D-Bench，消融完整，替代方案对比充分
写作质量: ⭐⭐⭐⭐ 方法图清晰，框架模块化，基准构建流程可复现
价值: ⭐⭐⭐⭐ 为MLLM的4D感知增强提供了高效且通用的框架