InFlux: A Benchmark for Self-Calibration of Dynamic Intrinsics of Video Cameras¶
会议: NeurIPS 2025
arXiv: 2510.23589
代码: 项目主页
领域: 视频理解
关键词: camera intrinsics, dynamic calibration, benchmark, lookup table, video 3D understanding
一句话总结¶
提出首个包含逐帧动态相机内参真值的真实视频基准 InFlux(386 视频、143K+ 标注帧),通过镜头元数据到内参的查找表(LUT)实现精确标注,并揭示现有内参预测方法在动态内参场景下表现不佳。
研究背景与动机¶
- 3D 算法的恒定内参假设不成立:NeRF、3DGS、SLAM 等主流 3D 方法假设视频内相机内参保持不变,但 DSLR 变焦镜头和智能手机自动对焦都会导致内参逐帧变化,严重限制了方法在野外视频上的鲁棒性。
- 缺少动态内参基准:现有数据集(KITTI、EuRoC、ETH3D 等)均在固定镜头设置下采集,仅需一次标定;唯一涉及变内参的 [Liao et al. 2025] 只提供了标定板视频(缺乏场景多样性)和 300 张网图的镜头焦距标注(不等于真实 CFL)。
- 合成数据无法替代真实基准:合成数据集存在视觉 sim-to-real gap,且缺乏内参标注或场景多样性。
- 逐帧真值标注极难获取:对每帧进行完整标定代价高昂且会破坏视频连续性(需逐帧暂停拍摄),因此此前无人实现。
方法详解¶
核心思路:LFL-FD 查找表(LUT)¶
关键观察:变焦镜头的光学状态由两个参数唯一确定——镜头焦距 (LFL) 和对焦距离 (FD)。使用支持 /i Technology 元数据记录的专业电影镜头(Canon CINE-SERVO 17-120mm、Fujinon Premista 80-250mm),可以为每帧记录 LFL 和 FD 值。因此只需预先构建一张 LUT 将 (LFL, FD) 映射到完整内参,即可将逐帧标定转化为一次性查表。
标定实验设计¶
针对不同的 FOV 空间足迹(FSF)大小,使用不同尺度的标定目标:
- 小/中 FSF — 标定板标定:使用4种尺寸的 AprilGrid 标定板(\(100\times75\)mm 到 \(800\times600\)mm),选择能完全在 FOV 内的最大尺寸。通过抖动拍摄辅助关键帧提取,使用 ANMS 基于检测数量选帧。
- 大 FSF — 无人机标定:当 FSF 大到无法制造足够大的平面标定板时,使用搭载 RTK 定位芯片(Septentrio Mosaic X5,cm 级精度)和红色 LED 的 Holybro X500 V2 无人机作为标定目标。夜间拍摄红色 LED 获取精确 2D 检测,RTK 提供 3D 位置,通过时序同步建立 2D-3D 对应关系。
改进版 Kalibr¶
原始 Kalibr 在 LM 优化中存在收敛问题和主点漂移:
- CFL 初始化改进:用薄透镜近似公式替代原始的消失点方法,利用已知 LFL 和 FD 信息
- 固定点初始化:畸变初始化阶段周期性将主点重置回图像中心,防止异常漂移
- 多次运行取中位数:对最终优化的随机排序进行多次 rollout,选择中位数结果减少方差
LUT 插值方案¶
- 网格区域(标定板实验):LFL-FD 空间近似规则网格,使用梯形双线性插值
- 非网格区域(含无人机实验):使用 Delaunay 三角化 + 重心插值
其中 \(\mathbf{K}\) 包含 \(f_x, f_y, c_x, c_y\) 和 Brown-Conrady 畸变参数。
实验¶
数据集统计¶
| 属性 | 数量 |
|---|---|
| 视频总数 | 386 |
| 标注帧数 | 143K+ |
| 室内视频 | 126 |
| 室外视频 | 260 |
| 镜头类型 | 2(Canon 17-120mm, Fujinon 80-250mm) |
| 内参变化类型 | 单调变焦/对焦、周期性变化、非单调波动、电影式推拉 |
表1:内参预测基线方法评估¶
| 方法 | %\(f_x\) Error↓ | %\(f_y\) Error↓ | %\(c_x\) Error↓ | %\(c_y\) Error↓ | %EPE<300px↑ |
|---|---|---|---|---|---|
| GeoCalib | 56.5 | 56.5 | 0.099 | 0.204 | 52.9 |
| WildCamera | 45.6 | 46.9 | 5.04 | 6.39 | 47.2 |
| UniDepthV2 | 50.6 | 51.1 | 1.61 | 2.58 | 46.1 |
| DroidCalib | 68.1 | 70.0 | 10.1 | 15.7 | 28.0 |
| Perspective Fields | 64.6 | 64.6 | 18.6 | 19.7 | 17.8 |
| COLMAP | 1270 | 1280 | 0.112 | 0.299 | 7.85 |
关键发现: - 所有方法表现不佳:即便最好的 GeoCalib,在 \(3424\times2202\) 分辨率下也仅有 52.9% 的帧点对 EPE <300px - COLMAP 近乎完全失效:92% 的帧无法产生预测,CFL 误差高达 1270% - DroidCalib 依赖光流:在少运动视频上 15% 的帧无法预测 - 逐帧方法缺乏时序平滑性:GeoCalib/WildCamera 等单帧预测方法产生的内参序列不平滑
改进 Kalibr 的合成实验验证¶
在 Blender 渲染的合成标定场景上,改进版 Kalibr 对比原版: - 消除了原版偶发的大误差尖峰 - 所有实验均成功收敛(原版部分失败) - CFL 和主点的预测方差显著降低
亮点¶
- 填补关键空白:首个提供逐帧动态内参真值的真实视频基准,使得研究社区首次可以系统评估动态内参预测方法
- 标注方案巧妙:LUT + 镜头元数据的方案将逐帧标定难题转化为一次性查表,兼顾精度和拍摄自然性
- 无人机标定创新:RTK + LED 的设计优雅地解决了大 FOV 场景下标定板无法覆盖的问题
- 评估揭示痛点:定量结果清晰展示现有方法在动态内参上的脆弱性,为后续研究指明方向
局限性¶
- 硬件依赖高:需要专业电影级相机和镜头(ARRI Alexa Mini + 电影变焦镜头),难以推广到消费级设备
- 镜头覆盖有限:仅包含2种镜头,相机类型单一
- 无训练/测试分割:作为 benchmark 未提供标准的训练集,限制了数据驱动方法的直接使用
- 仅适用于支持元数据的镜头:不记录 LFL/FD 的镜头无法使用此方案获取真值
- 插值精度有限:线性/重心插值可能无法完美建模复杂的真实镜头系统
相关工作¶
- 真实相机内参数据集(KITTI、EuRoC、ETH3D):均为固定内参,不支持动态变化
- 合成内参数据集([Ray+ 2024]、[Liao+ 2025]):存在 sim-to-real gap 或覆盖不足
- 标定方法(Kalibr [Maye+ 2013]、OpenCV [Bradski 2000]):InFlux 的改进版 Kalibr 显著提升精度
- 内参估计方法(COLMAP、GeoCalib [Jin+ 2023]、UniDepthV2 [Piccinelli+ 2025]):在 InFlux 上均暴露出动态场景下的不足
评分¶
- 新颖性: ⭐⭐⭐⭐ — 填补了动态内参基准的空白,LUT 标注方案设计新颖
- 实验充分度: ⭐⭐⭐⭐ — 6 种基线方法 + 合成验证 + 丰富的数据多样性分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,技术细节完整,图表丰富
- 价值: ⭐⭐⭐⭐ — 为 3D 视觉社区提供了急需的动态内参评测基础设施