STORM: Segment, Track, and Object Re-Localization from a Single Image¶
会议: ICML 2026
arXiv: 2511.09771
代码: https://github.com/YuDeng321/STORM
领域: 视频理解 / 6D 位姿跟踪 / 参考分割 / 具身智能感知
关键词: Reference-conditioned 6D tracking、HSFA、Tracking verifier、Energy-like score、零样本注册
一句话总结¶
STORM 提出"一张参考图就能跑"的 6D 位姿跟踪框架:用层级化空间融合注意力 HSFA 做参考-查询特征对齐(产出分割掩膜 + SAM3D 网格),再训一个 BCE 二分类的 Tracking Verifier,把其 logit 取负当作能量分数 \(E=-g_\theta\),连续 \(L=3\) 帧超阈值就触发自动重定位,从而在 LM-O / YCB-V 上把无标注 6D 跟踪精度推到接近 ground-truth 掩膜上限。
研究背景与动机¶
领域现状:当前 SOTA 6D 位姿估计与跟踪(FoundationPose, SAM-6D, Pos3R 等)大多依赖 CAD 模型、手动 mask 或 per-object 微调,部署时需要繁琐的物体特定准备;通用基础模型(SAM3、DINOv3)虽提供强语义,但缺少 reference-conditioned 机制,无法靠"一张图"指定追哪个特定实例。
现有痛点:(1) 参考-查询模板匹配多用浅层 cosine 相似度,遇到遮挡、运动模糊、视角剧变时非线性流形扭曲让度量崩盘;(2) 现有 tracker 是"瞎跟"——一旦目标飘出局部邻域,没有任何内置信号能判定"我现在跟丢了",导致 silent drift;(3) 即使加入恢复启发式(粒子滤波、直方图匹配)也容易误报,无法形成闭环。
核心矛盾:参考图与查询图之间存在分布偏移与遮挡不确定性的双重 gap,纯几何匹配解决前者不行、纯语义匹配解决后者不够;同时跟踪是一个自反馈系统,缺少"自评估信号"就无法做闭环恢复。
本文目标:(i) 在不依赖 CAD、无 per-object 训练的前提下完成单参考图 6D 跟踪;(ii) 把"跟踪失败检测"变成可学习模块;(iii) 在严重遮挡和快速视角变化下自动恢复。
切入角度:把分割与跟踪从"独立工程模块"重构为"耦合学习模块"——前者通过层级注意力把参考视图压缩成 object-centric 表征,后者把"跟踪是否仍兼容初始记忆"形式化为二分类验证问题,并借鉴 OOD 检测中能量打分(Liu 2020)做平滑阈值化。
核心 idea:用一个 BCE 训练的 compatibility verifier 同时承担"实例匹配损失监督"和"跟踪有效性能量评分"两个任务,把不变性、稳健性、闭环恢复统一在同一个 logit 标量里。
方法详解¶
整体框架¶
STORM 由两个耦合模块组成。SOM (Segmenting Object Module):吃一张或多张参考图 \(I_{ref}\) + 当前查询图 \(I_q\)(外加可选 VLM 语义提示),通过 HSFA 输出查询图上的目标 mask,再用 SAM3D 从参考图生成 canonical 3D mesh \(\mathcal{P}_{ref}\),与 mask 一起送进冻结的 FoundationPose 拿到 6D 位姿。TOM (Tracking Object Module):维护一个 FIFO 大小 \(K=16\) 的成功跟踪 crop 记忆池 \(\mathcal{M}\),每帧抽 DINOv3 特征 \(\phi(x_t)\) 与 \(\mathcal{M}\) 配对算 logit \(g_\theta(x_t,\mathcal{M})\),定义能量 \(E(x_t,\mathcal{M})\triangleq -g_\theta(x_t,\mathcal{M})\),EMA 平滑后若连续 \(L=3\) 帧 \(\tilde E_{t-k}>\tau\) 则触发重定位(\(\tau\) 用验证集 95 百分位标定)。冻结部件:DINOv3、CLIP/VLM、SAM3D、FoundationPose;可训练部件:SOM (HSFA + 分割头) + TOM (轻量注意力验证器)。
关键设计¶
-
HSFA 层级空间融合注意力:
- 功能:把任意张数(单参考或多参考)的 reference patch 与 query 像素特征做多尺度对齐,同时支持可选的 VLM 语义条件注入,输出对应到 mask 的隐式 token-to-token 对齐矩阵。
- 核心思路:(a) 用 self-attention 把参考视图聚合成对象中心潜表征 \(\mathcal{Z}_{ref}\);(b) query 特征 \(\mathcal{Z}_{query}\) 通过 cross-attention 检索 \(\mathcal{Z}_{ref}\),浅层针对原始参考特征做全局语义锚定、深层针对精细化空间特征做局部几何对齐;(c) 整个融合块迭代 \(n\) 次逐步精化;(d) 当 VLM 提供文字描述 \(T\) 时,用零初始化的 AdaLN/FiLM 把其 CLIP 嵌入 \(e_t\) 作为条件,对视觉 token 做特征统计修正:\(\hat F_{i,c}=(1+s_c(e_t))(F_{i,c}-\mu_i)/(\sigma_i+\epsilon)+b_c(e_t)\),并在 cross-attention 用 sigmoid 门控减弱无关参考 channel;最终用 cross-attention 的 softmax 权重作为对齐矩阵 \(W\) 把参考 objectness 投到 query 得到 mask。
- 设计动机:传统 cosine 模板匹配对非线性扰动敏感、固定参考拼接策略无法处理"参考视图数量在推理时变化",HSFA 把对齐学习化 + 层级化 + 条件化,且不显式监督对应关系,只用 mask loss,避免脆弱的 keypoint 对齐。
-
Energy-like Tracking Verifier (TOM):
- 功能:每帧输出 0–1 概率 + 一个标量能量分数判定"当前观测是否仍属于初始追踪对象",并据此做闭环重定位决策。
- 核心思路:训练时把 \((x_t,\mathcal{M},y)\) 三元组做 BCE:\(\mathcal{L}_{TOM}=-\mathbb{E}[y\log\sigma(g_\theta)+(1-y)\log(1-\sigma(g_\theta))]\),正样本来自真实兼容观测-记忆对,负样本通过 identity confusion(同场景不同物体)+ drift-like 随机裁剪人工合成;推理时定义能量 \(E=-g_\theta\),做时间 EMA 得 \(\tilde E_t\),若连续 \(L=3\) 帧 \(\tilde E_{t-k}>\tau\) 才宣告 tracking loss,避免单帧抖动误报;\(\tau\) 在 held-out 集上选 compatible-pair 分布 95 百分位。
- 设计动机:现有 tracker 默认"目标始终在局部邻域",没有失效信号;把验证当成 OOD 风格的连续能量阈值问题既能利用 BCE 的稳定训练,又能在推理端享受能量平滑/温度调控的灵活性,并保证能量阈值与 logit 阈值数学等价(\(E>\tau\Leftrightarrow g_\theta<-\tau\)),便于工程调参。
-
SAM3D 几何锚 + 训练/冻结边界划分:
- 功能:把 2D mask 升到 metric 3D 坐标系,让冻结的 FoundationPose 接力做精配准;同时把哪些参数训练、哪些冻结的边界明确化。
- 核心思路:用 SAM3D 从参考图一次性生成 canonical mesh \(\mathcal{P}_{ref}\) 当作"刚性几何参照系"——不强行做 texture/geometry hard matching,而是把网格当作 soft latent 几何约束;运行时 SAM3D / DINOv3 / FoundationPose / CLIP 全部冻结,仅训 SOM (HSFA + 分割头) 和 TOM (lightweight attention verifier),大幅降低训练成本并保留基础模型先验。
- 设计动机:单视图 mesh 预测(如 Direct3D-S2)质量不稳,但只要把它当作"结构脚手架"而非精确几何,下游 pose 注册就能容忍噪声;冻结基础模型则确保 zero-shot 泛化能力不被有限训练数据污染。
损失函数 / 训练策略¶
SOM 用标准分割损失(监督 mask,对应关系隐式涌现,无显式 correspondence loss);TOM 用 BCE(公式 3);推理:DINOv3 feature → TOM logit → EMA → 阈值化 → 闭环。记忆池 FIFO 大小 16,重定位后清空、只在高置信帧追加。
实验关键数据¶
主实验¶
LM-O / YCB-V 上无标注 6D 跟踪精度(\(\mathrm{ADD}_\mathrm{AUC}\) / \(\mathrm{ADD\text{-}S}_\mathrm{AUC}\) / AR):
| 数据集 | 方法 | \(\mathrm{ADD}_\mathrm{AUC}\) | \(\mathrm{ADD\text{-}S}_\mathrm{AUC}\) | AR |
|---|---|---|---|---|
| LM-O | FP + CNOS | 57.0 | 68.0 | 41.0 |
| LM-O | STORM | 74.0 ± 1.28 | 89.0 ± 1.25 | 53.0 ± 2.02 |
| LM-O | FP + Ground Truth | 78.0 | 93.0 | 56.0 |
| YCB-V | FP + CNOS | 73.0 | 92.0 | 69.0 |
| YCB-V | STORM | 77.0 ± 1.25 | 98.0 ± 1.20 | 73.0 ± 1.23 |
| YCB-V | FP + Ground Truth | 78.0 | 99.0 | 74.0 |
BOP instance segmentation(5 数据集 mean AP,annotation-free 段):
| 方法 | LM-O | T-LESS | TUD-L | HB | YCB-V | Mean ↑ | Time (s) |
|---|---|---|---|---|---|---|---|
| STORM (SOM) | 57.8 | 53.0 | 73.3 | 74.1 | 80.3 | 67.7 | 0.046 |
| NOCTIS | 48.9 | 47.9 | 58.3 | 60.7 | 68.4 | 56.8 | 0.990 |
| SAM6D | 46.0 | 45.1 | 56.9 | 59.3 | 60.5 | 53.6 | 2.795 |
| CNOS (FastSAM) | 39.7 | 37.4 | 48.0 | 51.1 | 59.9 | 47.2 | 0.221 |
消融实验¶
| 配置 | 关键变化 | 结论 |
|---|---|---|
| Full STORM | mean AP 67.7 | 完整框架 |
| w/o HSFA 深度迭代 | 大幅退化 | 多尺度跨注意力是分割鲁棒性核心 |
| w/o VLM 语义注入 | 多实例混淆上升 | 文本条件主要救场歧义场景 |
| TOM 用固定 cosine 度量 | tracking-loss 检测 AUC ↓ | 学得 logit 比固定度量更能区分真飘移 |
| 关闭 EMA 平滑 + 连续 \(L\) 检查 | 误触发率显著上升 | 连续 3 帧门控明显抑制 false positive |
关键发现¶
- STORM 在 LM-O 上把 annotation-free pipeline 从 57.0 推到 74.0,距 ground-truth mask 上限(78.0)只剩 4 点差距——说明 mask 质量是当前瓶颈,TOM 几乎榨干了 pose head 容量。
- SOM 在 H100 上单次推理仅 0.046s,比 NOCTIS / SAM6D 快 20–60×,源于冻结 DINOv3 + 轻量 HSFA 设计。
- TOM 学到的 verifier 在 Tracking Failure Benchmark 上比固定度量基线更稳定,连续帧门控让重定位决策对单帧噪声免疫。
亮点与洞察¶
- 把"如何分割"和"如何验证"两件事都做成 learned alignment,避开了 cosine 模板这种业界默认但脆弱的工程选项。
- 能量分数 = logit 取负这个数学等价让训练用 BCE 的稳定性 + 推理用能量阈值的灵活性兼得,可直接迁移到任何"可学的二分类匹配 + 时序闭环"任务(如 ReID、半监督目标跟踪)。
- 冻结基础模型 + 训练两个小模块 的最小训练面策略让 STORM 既享受 DINOv3 / FoundationPose 的零样本泛化,又能在新任务上低成本微调,工程友好度很高。
- VLM 通过零初始化 AdaLN 做条件注入:把语义视为"恒等保持的特征统计修正"而非硬拼接,避免训练初期文本通道干扰视觉学习,是 Cond-DM 思路在视觉对齐里的优雅迁移。
局限与展望¶
- 作者承认 zero-shot 仅指"无 test-time mask/box/微调",BOP train/test 物体身份可能重合,并非真正 category-disjoint 新物体泛化。
- SAM3D 单图重建质量决定 pose 上限,对反光、透明、纹理稀缺物体仍可能崩;未来可考虑 multi-view 自适应 mesh refinement。
- TOM 的 \(\tau\) 95 百分位标定来自合成 drift 负样本,对真实长尾遮挡分布不一定鲁棒;增加在线自适应阈值或贝叶斯不确定性估计是自然延伸。
- 单参考图只覆盖一个视角,遮挡严重时仍需手动多视图,未来 active learning 何时主动请求新参考图是开放问题。
相关工作与启发¶
- vs FoundationPose (Wen 2024):本文直接复用其 pose head,但补足了 "跟踪有效性自评估" 与"无 CAD 时如何拿到 mask"两个缺口。
- vs CNOS / PerSAM:他们用浅层 cosine 模板匹配,STORM 用层级注意力做 learned alignment,遮挡场景明显更稳。
- vs SAM-6D / Pos3R:他们做帧级处理 + 显式 2D-3D 关键点匹配,STORM 通过 verifier 引入时序闭环。
- vs OOD 检测中的 energy score (Liu 2020):把能量阈值化思想从 OOD 分类首次系统迁移到 6D 跟踪失败检测。
评分¶
- 新颖性: ⭐⭐⭐⭐ HSFA + Energy-like verifier 的组合在 6D tracking 里是新尝试,两个模块单独看都有 prior
- 实验充分度: ⭐⭐⭐⭐ LM-O / YCB-V + 5 数据集 BOP + 5 个 RQ + 5 seed 误差棒,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 模块边界与冻结/训练边界写得很清晰,能量分数推导利落
- 价值: ⭐⭐⭐⭐ 对 robotics / 具身感知场景实用性强,开源代码 + 接近 GT 上限的精度