Multi-view Crowd Tracking Transformer with View-Ground Interactions Under Large Real-World Scenes¶

会议: CVPR 2026
arXiv: 2604.19318
代码: https://github.com/zqyq/MVTrackTrans
领域: 多视角跟踪 / 目标检测
关键词: 多视角人群跟踪、Transformer、视图-地面交互、BEV、大场景数据集

一句话总结¶

首次把多视角人群跟踪从 Wildtrack/MultiviewX 这类几十帧小场景推进到上百米的大规模真实场景，提出一个完全基于 Transformer 的模型 MVTrackTrans（在地面 BEV 空间做跟踪 + 视图-地面交叉注意力补全外观信息），并配套发布两个大场景长序列数据集 MVCrowdTrack 与 CityTrack，在大数据集上 MOTA/IDF1 全面领先 CNN 方法。

研究背景与动机¶

领域现状：多视角人群跟踪（multi-view crowd tracking）的目标是融合多路同步标定相机的信息，在场景地面平面上估计每个人随时间的运动轨迹，应用于人群管理、公共交通、自动驾驶等。当前主流（EarlyBird、TrackTacular、MVFlow 等）几乎都是 CNN 架构：先把各视角特征投影到 BEV/地面平面做多视角检测，再叠加相邻帧的世界表示回归运动偏移、配合 ReID 和卡尔曼滤波做时序关联。

现有痛点：这些方法几乎都只在 Wildtrack 和 MultiviewX 上评测。这两个数据集场景小（36×12 m、25×16 m）、评测序列只有几百帧、人数仅三百多、平均轨迹长度只有 30~44 帧。在这种"袖珍"benchmark 上调出来的方法，一旦搬到真实的大场景（更大的覆盖范围、更密的人群、更严重的遮挡、更长的时间跨度）就难以适用——既缺合适的数据集来暴露问题，方法本身的容量也跟不上。

核心矛盾：一方面是评测层面的——小数据集无法反映真实应用的难度；另一方面是模型层面的——CNN 架构的感受野和时空关联建模能力，在大场景密集人群下不足以支撑稳定的长时跟踪。而 Transformer 在单视角 MOT 里已被证明擅长全局时空关联，却几乎没人在多视角人群跟踪上探索过。

本文目标：(1) 提供能反映真实复杂度的大场景长序列评测基准；(2) 设计一个 Transformer 架构的多视角跟踪模型，把多视角检测的"视图特征"和"地面特征"更充分地融合起来。

切入角度：作者观察到，纯在地面 BEV 平面上离散采样得到的 track query，丢失了每个人在原始相机视角里的外观细节（投影后特征被拉伸、模糊）；而单看各相机视角又缺乏跨视角一致的地面定位。两者互补，于是用注意力把"地面侧 track query"和"多相机视图 query"显式交互。

核心 idea：在 BEV 地面平面上用 Transformer 做跟踪，并用一个 View-Ground Interaction 模块，让地面 track query 通过交叉注意力从所有相机视图 query 中聚合外观特征，补全离散采样丢失的视觉信息。

方法详解¶

整体框架¶

MVTrackTrans 接收连续两帧（前一帧 \(t_0\!-\!1\) 与当前帧 \(t_0\)）的多视角图像，输出当前帧每个人在地面平面上的位置（检测热图）和相对前一帧的运动偏移，二者结合得到轨迹。整个流程分三个阶段：特征提取与多视角融合 → 多视角跟踪编码（含视图-地面交互） → 多视角跟踪解码（双分支）。

直观地说：先用共享 ResNet 把每个相机的图像特征经多高度体素采样投影、压扁、卷积融合成地面特征；再用可变形 Transformer 编码器分别编码前/当前帧的地面特征，从前一帧的地面 query 上按历史检测位置离散采样出 track query，并让它和多相机视图 query 做交叉注意力补全外观；最后偏移解码器用可变形注意力把前一帧的 track query 跟当前帧地面特征做时序对应回归 \([\delta x,\delta y]\)，热图解码器从当前帧地面特征回归人群中心热图，两者合成轨迹。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视角图像<br/>前帧 t0-1 + 当前帧 t0"] --> B["特征提取与多视角融合<br/>ResNet+FPN→多高度体素采样→压扁卷积→地面特征"]
    B --> C["可变形 Transformer 编码<br/>分别编码两帧地面特征"]
    C -->|前帧地面 query<br/>按历史检测位置离散采样| D["视图-地面交互<br/>track query 交叉注意力<br/>聚合多相机视图 query"]
    C -->|当前帧地面 query| F
    D --> E["偏移解码器<br/>MSDA 时序对应→δx,δy"]
    C -->|当前帧地面特征| E
    E --> G["轨迹 = 当前检测 + 运动偏移"]
    F["热图解码器<br/>FPN+ConvHead→人群中心热图"] --> G

关键设计¶

1. 多高度体素采样的多视角地面融合：在投影时不丢失高度信息

多视角融合的老问题是：把图像特征投到固定高度的单一地面平面，人体不同高度（脚、躯干、头）的信息会被压到同一平面而错位。作者改用多高度的双线性体素采样：对地面上空的一个体素 \((x_n,y_n,z_n)\)，用相机投影矩阵 \(K[R|T]\) 把它的八个顶点投影到所有相机图像平面 \((u_n,v_n,1)^T = K[R|T](x_n,y_n,z_n,1)^T\)，从各视角特征图 \(\hat{F}_{\mathrm{view}_i}^{t_0}\) 上采样并跨视角聚合。这样每个体素都能从多个相机拉到有效特征，再沿高度轴塌缩、用卷积跨视角融合，得到多尺度地面特征 \(\{F_l^{t_0}\}_{l=1}^L\)。多高度采样让远距离、密集遮挡场景下的地面表示更鲁棒——这是适配大场景的几何基础。

2. 可变形编码 + 地面离散采样得到 track query：把"被跟踪的人"显式表示在地面空间

前/当前帧地面特征各自送入同一个基于多尺度可变形注意力的 Transformer 编码器（公式 2、3），聚合跨尺度信息得到 \(\hat{Q}^{t_0-1}\)、\(\hat{Q}^{t_0}\)。关键一步是从前一帧编码后的地面 query 上、在历史检测位置 \((x,y)\) 处做离散采样构造 track query：\(Q_{\mathrm{track}}^{t_0-1} = \mathrm{SampleQueries}(\hat{Q}^{t_0-1},(x,y))\)。这把"上一帧已经跟踪到的每个实体"变成一组显式的、可在地面空间寻址的 query，作为后续时序传播的载体。相比把整张 BEV 当稠密回归，这种稀疏 query 让跟踪关联落到"每个个体"上。

3. View-Ground Interaction：用交叉注意力补回离散采样丢掉的视觉外观

这是本文性能增量的核心。离散从地面 query 采样虽然定位准，但投影后地面特征被拉伸，单个人的外观表征不充分，长时跟踪容易掉。作者为每个相机从其视图检测特征上采样一组视图 query，跨相机拼接成 \(Q_{\mathrm{view}}^{t_0-1} = \mathrm{Concat}(Q_{\mathrm{view},0}^{t_0-1},\dots,Q_{\mathrm{view},n-1}^{t_0-1})\)（公式 4）。然后 track query 与 view query 各过独立 FFN 后做交叉注意力——track query 当 Q，多相机 view query 当 K/V：\(Q_{\mathrm{track}}^{t_0-1} = \mathrm{CrossAttn}(\mathrm{FFN}(Q_{\mathrm{track}}^{t_0-1}), \mathrm{FFN}(Q_{\mathrm{view}}^{t_0-1}))\)（公式 5）。这让每个 track query 主动从对应同一个人的所有相机视角聚合视觉特征，把"地面定位"和"视图外观"两套互补信息合到一起。消融显示，单纯加一个 2D 视图分支反而掉点（2D 与地面任务训练竞争），只有加上这个交互模块才真正涨点；且交叉注意力优于自注意力（融合更彻底）。

4. 双分支解码：偏移解码器管时序、热图解码器管检测

解码阶段两路并行。偏移解码器用标准多尺度可变形注意力（MSDA）建模相邻帧地面特征的时序对应：以前一帧 track query \(Q_{\mathrm{track}}^{t_0-1}\) 为查询、当前帧地面特征 \(\hat{Q}^{t_0}\) 为参考，并以前一帧检测位置 \((x^{t_0-1},y^{t_0-1})\) 作为可变形采样的参考点 \(\hat{Q}_{\mathrm{track}}^{t_0} = \mathrm{MSDA}(Q_{\mathrm{track}}^{t_0-1},\hat{Q}^{t_0},(x^{t_0-1},y^{t_0-1}))\)（公式 6），再过轻量 MLP 头回归地面运动偏移 \(O^{t_0} = [\delta x,\delta y]^T\)（公式 7）。热图解码器则把当前帧多尺度地面特征用 FPN 上采样融合到最高分辨率，过卷积回归头输出人群中心热图 \(H^{t_0} = \mathrm{ConvHead}(\mathrm{FPN}(\hat{Q}^{t_0}))\)。检测热图给"人在哪"，偏移给"往哪动"，二者合成连续轨迹。

损失函数 / 训练策略¶

联合优化地面/图像两域的热图分类损失与地面运动偏移的回归损失，并用不确定性加权自适应平衡两支。 - 热图损失：在每个目标中心放高斯响应构造 GT 热图 \(H^*\)，对预测热图用 focal loss \(\mathcal{L}_{\mathrm{ground}} = \mathrm{FocalLoss}(H,H^*)\)；另加同形式的图像级监督项 \(\mathcal{L}_{\mathrm{img}}\) 预测各视角的人体中心热图。 - 偏移回归损失：仅对有效中心位置（\(C^*_{xy}=1\)）施加 \(\ell_1\) 损失 \(\mathcal{L}_{\mathrm{track}} = \frac{1}{K}\sum_{x,y}\|O_{xy}-O^*_{xy}\|_1\)，保证对活跃轨迹的稀疏监督。 - 总损失（不确定性加权）：\(\mathcal{L}_{\mathrm{all}} = 10e^{-\sigma_c}\mathcal{L}_{\mathrm{ground}} + e^{-\sigma_t}\mathcal{L}_{\mathrm{track}} + \mathcal{L}_{\mathrm{img}} + \sigma_c + \sigma_t\)，其中 \(\sigma_c\)、\(\sigma_t\) 是中心支与跟踪支的可学习不确定性参数，让网络自动校准两支相对贡献。

训练设置：ResNet18 特征提取 + Deformable DETR 风格编解码器；图像 resize 到 1280×720；50 epoch，初始学习率 0.01；4 张 RTX 4090，batch size = 1。

实验关键数据¶

主实验¶

在两个新提出的大数据集上对比 SOTA（MOTA、IDF1 为主指标）：

数据集	方法	MOTA↑	MOTP↑	IDF1↑	MT↑	ML↓
MVCrowdTrack	EarlyBird	54.56	30.46	53.84	24.48	14.22
MVCrowdTrack	MVFlow	49.82	46.79	44.06	22.22	37.04
MVCrowdTrack	TrackTacular	62.86	29.23	58.71	40.81	10.20
MVCrowdTrack	MVTrackTrans	63.87	40.59	59.06	42.85	8.16
CityTrack	EarlyBird	48.85	21.83	32.15	17.33	13.9
CityTrack	MVFlow	38.19	6.94	27.89	8.92	24.88
CityTrack	TrackTacular	43.37	23.23	32.49	20.43	12.38
CityTrack	MVTrackTrans	55.39	22.71	34.41	25.07	12.69

在大数据集上本文 MOTA/IDF1/MT 全面第一：CityTrack 上 MOTA 较次优的 EarlyBird 高 +6.5、较 TrackTacular 高 +12。指标说明：MT/ML 是"成功跟踪 >80% / <20% 生命周期"的轨迹占比；正样本关联距离阈值大数据集设 \(r=2\) m、小数据集 \(r=1\) m。

数据集对比（说明新基准的"大"）：

数据集	分辨率	视角数	人数	帧数	FPS	场景(m²)	平均轨迹长
MultiviewX	1920×1080	6	360	400	2	25×16	44
Wildtrack	1920×1080	7	313	400	2	36×12	30
CityTrack	2704×1520	3	950	2588	4	64×76	228
MVCrowdTrack	5312×2988	7	342	4122	4	120×80	176

在小数据集上则只是"comparable"：Wildtrack 上 MVTrackTrans 91.2 MOTA（加两帧融合+卡尔曼的变体† 93.6），优于 ReST/MCBLT/EarlyBird/REMP，但低于 MVTrajecter（94.3）；MultiviewX 上甚至 IDF1 偏低（72.1，†版 86.3）。作者坦言模型优势集中在大场景。

消融实验（均在 CityTrack）¶

配置	MOTA↑	IDF1↑	说明
Baseline（无 2D 视图分支）	54.92	34.11	仅地面分支
+ View Prediction Branch	53.17	32.65	仅加 2D 热图分支，反而掉点
++ View Interaction (Ours)	55.39	34.41	再加视图-地面交互模块
交互用 SelfAtt	55.38	33.64	视图/地面 query 自注意力融合
交互用 CrossAtt (Ours)	55.39	34.41	交叉注意力，IDF1 更高
Coordinate regression 监督	40.71	31.45	稀疏 query + 直接坐标回归
Heatmap regression (Ours)	55.39	34.41	稠密热图监督

关键发现¶

单加 2D 视图分支会掉点（MOTA 54.92→53.17）：2D 检测任务与地面平面任务在训练时相互竞争；必须配上 View-Ground Interaction 才能把视图信息有效用起来（→55.39）。这是"交互模块"而非"多分支"本身在涨点的直接证据。
交叉注意力 > 自注意力：CrossAtt 让 track query 主动从 view query 取信息、融合更彻底，IDF1 34.41 vs 33.64。
热图监督 >> 坐标回归：MOTA 55.39 vs 40.71，差距巨大。作者解释多视角投影会把地面特征拉伸、引入噪声，稠密热图监督比稀疏坐标回归更能引导模型抵抗这种噪声。
Transformer 在大场景优势明显、小场景不明显：大数据集上对 CNN 方法全面领先，小数据集仅 comparable，说明该架构的收益来自大场景复杂时空关联。

亮点与洞察¶

"地面定位 + 视图外观"的显式互补很巧：作者点破了 BEV 离散采样丢外观、单视图缺定位这对矛盾，用交叉注意力（track query 为 Q、多相机 view query 为 K/V）让二者直接对话，比堆 ReID 模块更轻、更端到端。
消融把"分支 vs 交互"拆得很干净：通过"加分支反而掉点、加交互才涨点"这组对照，明确证明性能来自跨域融合机制本身，而不是单纯多了一路监督——这种诚实的负结果对照很有说服力。
数据集贡献含金量高：把场景从几十米推到 120×80 m、序列从几百帧到 4000+ 帧、轨迹长度从 ~30 到 176~228，直接暴露了 CNN 方法在长时跟踪上的脆弱（MVFlow 在大数据集崩到 38 MOTA），为这个任务建了更接近真实的标尺。
可迁移思路：把"稀疏跟踪 query × 多相机稠密视图特征"做交叉注意力补全外观，可迁移到任意 BEV 检测/跟踪（如自动驾驶多相机感知）中外观信息退化的场景。

局限与展望¶

小场景上不占优：Wildtrack/MultiviewX 上低于 MVTrajecter，MultiviewX 的 IDF1 还明显偏低（72.1），说明方法的优势强依赖大场景，普适性有待加强。
依赖精确标定与同步：多高度体素采样和投影融合都建立在已知内外参与帧同步之上，标定误差在大场景下的影响未讨论。
只用相邻两帧的短时序：核心模型只看 \(t_0\!-\!1\) 与 \(t_0\) 两帧，长时遮挡恢复需靠 †变体外挂卡尔曼滤波，端到端的长程关联（如 MCBLT 的多尺度时序、MeMOT 的记忆）尚未纳入。
batch size = 1、ResNet18 backbone：受高分辨率多视角输入显存限制，训练规模和 backbone 容量都较小，可能未充分发挥 Transformer 潜力。
改进方向：把视图-地面交互扩展到多帧记忆、引入更强的长时关联策略，并验证对标定噪声的鲁棒性。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 Transformer 多视角人群跟踪模型 + 视图-地面交叉注意力，模块组合新颖但都基于成熟构件。
实验充分度: ⭐⭐⭐⭐ 两个新大数据集 + 4 项消融把"分支/交互/注意力类型/监督方式"拆得清楚；但小数据集上不占优略削弱说服力。
写作质量: ⭐⭐⭐⭐ 结构清晰、公式完整、消融对照诚实，含负结果。
价值: ⭐⭐⭐⭐ 大场景数据集 + 代码开源，把任务推向真实场景，对社区有较强基础设施价值。