Tri-Modal Fusion Transformers for UAV-based Object Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/radlab-sketch/trimodal-uav-det (有)
领域: 目标检测 / 多模态融合
关键词: 无人机检测、三模态融合、热红外、事件相机、层级Transformer

一句话总结¶

针对无人机在弱光、运动模糊、场景剧变下单一传感器失效的问题，本文用双流层级 MiT Transformer 把 RGB、热红外、事件三种模态在主干网络的多个分辨率层级上做门控+token 双向交换融合，配套发布了首个同步对齐的三模态无人机数据集（10,489 帧 / 24,223 个车辆框），通过 61 组消融系统回答了「三模态该在哪一层、用什么算子融合」，并把 mAP 推到 84.24%。

研究背景与动机¶

领域现状：无人机感知在实际飞行中没有任何单一传感器是可靠的——可见光相机在弱光和运动下丢失结构信息，热红外（LWIR）在平台快速机动时饱和或模糊，事件相机虽能保留微秒级时间边缘但信号稀疏且含噪。学界已有大量工作把 RGB 和某一种互补模态配对（RGB-热红外、RGB-事件），但绝大多数检测流水线仍围绕 RGB 或顶多双模态搭建。

现有痛点：没有任何一对模态能在所有恶劣条件下都保持可靠——夜间靠热红外、高速运动靠事件、白天靠 RGB，三者各自只覆盖一部分失效模式。但「把三种模态塞进一个检测器」从未被系统研究过。三模态融合的难点远不止「堆通道」：LWIR 反映的是辐射对比度而非纹理，事件流编码的是无绝对强度的异步时间变化，RGB 提供高分辨率结构却在光照漂移下崩溃——三者在噪声特性、空间对齐敏感度、时间密度、语义可靠性上都不同。

核心矛盾：早融合（input 拼通道）无视这些模态差异，晚融合（高层特征合并）又丧失了在中间层联合塑造表征的能力。Transformer 主干天然提供跨模态交换的接口，但「在哪个分辨率、以什么机制融合」从没被系统探索过。更现实的障碍是：现有 RGB-热红外、RGB-事件数据集都不提供同步的三模态帧或分辨率对齐的标注，没有数据就无法做受控研究。

本文目标：把三模态融合当成一个架构设计空间来研究——拆成三个可控变量：融合放在哪一层（depth）、用什么算子（mechanism）、用哪些模态子集（subset）；同时造一个能支撑这种受控实验的数据集。

切入角度：主干保持各模态独立的流以保住模态特有结构，只在选定的中间层耦合，这样就能干净地研究「何时、何地、如何」融合最有效——所有配置对下游检测头都暴露相同的接口，性能差异只反映融合行为。

核心 idea：用一个双流层级 Transformer 加可插拔融合钩子，把「三模态在哪融、怎么融」变成一个能逐项消融的旋钮，而不是一个固定的端到端黑盒。

方法详解¶

整体框架¶

检测器吃的是一个五通道张量 \(X \in \mathbb{R}^{B \times 5 \times H \times W}\)：通道 0-2 是 RGB，通道 3 是热红外，通道 4 是事件帧。输入被拆成 RGB 流 \(X_{rgb}\) 和「热红外-事件」（TE）流 \(X_{TE}\)，两条流各自过一个权重独立的四阶段 MiT（Mix Transformer）主干，在 stride 为 {4, 8, 16, 32} 的四个层级产出多尺度特征。在选定的若干阶段，主干插入一个融合块——它由 MAGE（模态感知门控交换）和 BiTE（双向 token 交换）两个子模块组成，把两条流整流并合并成单张特征图，且保持空间分辨率和通道宽度不变。融合后的特征送进标准五级 FPN，再接 Faster R-CNN 两阶段检测头。

这套设计的关键巧思是：因为融合不改变特征的形状（stride、width 都不动），所以无论融合放在单层、多层还是全部四层，FPN 和检测头都无需任何改动——这正是「把融合当可插拔算子来消融」能成立的工程前提。论文还比较了「RGB / 热红外 / 事件三条独立流」的三流方案，发现它把参数从 60.01M 涨到 88.18M 却没带来有意义的精度提升，因此默认采用「RGB vs. TE」两流方案，也更契合无人机 SWaP（尺寸/重量/功耗）约束。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["五通道输入<br/>RGB(3)+热红外(1)+事件(1)"] --> B["双流层级 MiT 主干<br/>RGB 流 / TE 流各四阶段"]
    B --> C["模态感知门控交换 MAGE<br/>通道+空间门控整流跨流残差"]
    C --> D["双向 Token 交换 BiTE<br/>对称交叉注意力+深度可分细化"]
    D -->|每个选定阶段输出单张融合图| E["五级 FPN"]
    E --> F["Faster R-CNN 两阶段头<br/>RPN+RoIAlign+分类回归"]
    B -->|未选定阶段各流独立前传| E

关键设计¶

1. 双流层级主干 + 分辨率对齐的融合钩子：把「在哪融」变成可控旋钮

痛点是早/晚融合都无法在中间层有选择地耦合模态，而且没法做受控的「融合深度」研究。本文让 RGB 流和 TE 流各跑一个四阶段 MiT 主干：阶段 1 用 \(7\times7/s4\) 的重叠 patch embedding，阶段 2-4 用 \(3\times3/s2\)；每个 transformer block 用 pre-norm、空间缩减注意力（spatial-reduction attention），并在 FFN 两层线性之间插一个 depthwise \(3\times3\) 卷积来恢复局部空间耦合。两条流走完全相同的分辨率时间表（对 224×224 参考输入是 56→28→14→7，宽度 {64,128,320,512}），保证每个阶段两流形状对齐。每个阶段结尾把 token 重排回特征图，交给融合模块；没被选中融合的阶段就各自独立前传。这样四个阶段就成了四个「分辨率对齐的融合插槽」，既不破坏下游检测器接口，又让「单层 / 多层 / 全层融合」成为可干净对比的实验配置。

2. MAGE 模态感知门控交换：只整流跨流残差，保住各自的模态身份

如果直接把两条流加起来或拼起来，噪声大的模态会污染另一条流。MAGE 的做法是先把两流拼成联合描述子 \(z = [x_{rgb} \,\|\, x_{TE}] \in \mathbb{R}^{B \times 2C \times H \times W}\)，让门控基于两个模态的联合证据而非单流统计来决定。通道门控：对 \(z\) 做全局平均池化和最大池化得到互补的全局摘要，过两层 \(1\times1\) MLP（非线性 + sigmoid）产生有向的逐通道门 \(w^c_{TE\to rgb}, w^c_{rgb\to TE} \in [0,1]\)；空间门控：一个轻量 \(1\times1\to\)非线性\(\to1\times1\) 头从 \(z\) 预测逐像素掩码 \(w^s_{TE\to rgb}, w^s_{rgb\to TE} \in [0,1]\)。整流后的特征是

\[\hat{x}_{rgb} = x_{rgb} + w^s_{TE\to rgb} \cdot \left(w^c_{TE\to rgb} \cdot x_{TE}\right), \quad \hat{x}_{TE} = x_{TE} + w^s_{rgb\to TE} \cdot \left(w^c_{rgb\to TE} \cdot x_{rgb}\right)\]

关键在于：门只调制跨流残差项，每条流自己的恒等路径 \(x_{rgb}\)、\(x_{TE}\) 原封不动。这样既保住了模态特有结构，又只在「两个模态证据一致」的通道和像素处做跨模态增强，在噪声或模态特异区域抑制传输——避免了一条流的杂波被无差别灌进另一条流。

3. BiTE 双向 Token 交换：用对称交叉注意力把整流后的两流融成一张图

MAGE 只是整流，还需要把两条流真正合并。BiTE 把 \(\hat{x}_{rgb}, \hat{x}_{TE}\) 拍平成 token 序列 \(T_{rgb}, T_{TE} \in \mathbb{R}^{B \times N \times C}\)（\(N = HW\)），各自投影出 Query/Key/Value，再用对称交叉注意力更新每条流：\(\tilde{T}_s = T_s + \mathrm{Softmax}\!\left(\frac{Q_s \bar{K}_s^\top}{\sqrt{d_k}}\right)\bar{V}_s\)，其中 \(s \in \{rgb, TE\}\)，下标 \(\bar{s}\) 表示另一条流。更新是残差式的，保住模态特有内容的同时引入跨模态上下文。然后把更新后的 token 拼接成 \(Z = [\tilde{T}_{rgb}; \tilde{T}_{TE}] \in \mathbb{R}^{B \times N \times 2C}\)，重排回图后用一个 depthwise \(3\times3\) 卷积恢复局部性，再用 \(1\times1\) 投影把宽度从 \(2C\) 压回 \(C\)，得到融合图 \(u \in \mathbb{R}^{B \times C \times H \times W}\)。正是这步「压回 \(C\)、保持 stride」让 BiTE 能插在任意深度而下游 FPN/检测头无需改动。消融显示 MAGE 和 BiTE 缺一不可：BiTE-only 只有 76.88% mAP，MAGE-only 81.01%，合起来才到 84.24%。

4. 把融合算子做成可插拔，并用 CSSA / GAFF 撑开设计空间对比

本文的核心贡献不只是一个块，而是把「融合机制」也当成可替换变量。基线 MAGE+BiTE 之外，作者把另两族算子塞进同一套主干做对照：CSSA（通道切换 + 空间注意力）是轻量替代——先用全局平均池化 + 1D 卷积 + sigmoid 给每条流的通道打分，分数低于阈值 \(\tau\) 的通道被另一流同序号通道替换，再用一个小卷积头从拼接后的张量预测空间门逐像素二选一；GAFF（引导式注意力融合）是高容量替代——每条流先过 squeeze-excitation 强调有用通道，再预测有向引导图让两模态互相做位置感知的残差注入，最后用直接或瓶颈 \(1\times1\) 投影合并。三族算子都保持 stride 和宽度，能插在任意钩子。这个设计让论文能在完全相同的主干、检测器、训练设置下，干净地比较「融合深度 × 融合机制」两个轴——结论是 CSSA 适合浅层（s1）早融合、GAFF 适合在深层（s3/s4）选择性使用，而基线 MAGE+BiTE 整体最强。

损失函数 / 训练策略¶

所有模型训 15 epoch，SGD（momentum 0.9，weight decay \(1\times10^{-4}\)），cosine 学习率 + 前 500 iter 线性 warmup，基础学习率 0.02（global batch 16，随 batch 线性缩放）。输入用预对齐的原生分辨率 301×391，padding 到 32 的倍数以兼容 FPN。Anchor、proposal 分配、RoIAlign、损失、检测头设置在所有实验中固定，使性能差异只反映主干融合行为。作者发现更长的训练表并无收益、偶尔轻微过拟合，与数据集规模和 MiT 容量相符。

实验关键数据¶

主实验¶

数据集：10,489 帧、24,223 个车辆框（单类），6,412 白天 + 4,077 夜晚；事件帧由 \(\Delta t \approx 33.3\) ms 时间窗内极性事件 binning 得到。共跑 61 组实验。

主干容量（MAGE+BiTE，三模态输入） —— 性能非单调，MiT-B1 性价比最优：

主干	参数 (M)	mAP	mAP50
MiT-B0	27.79	80.63	97.85
MiT-B1	60.01	84.24	98.95
MiT-B2	82.10	82.91	98.06
MiT-B3	155.40	82.43	98.06
MiT-B4	196.60	79.97	97.93

模态消融与外部基线（均用 MiT-B1 + MAGE+BiTE，外部模型仅 RGB+热红外）：

配置	mAP	mAP50
RGB+热红外（本文双模态最强）	83.42	98.22
热红外+事件	74.86	96.95
RGB+事件	66.32	94.46
YOLOv11-RGBT（外部）	82.08	–
DetFusion（外部）	78.00	–
跨数据集 M3FD（RGB-热红外）	81.79	97.36
跨数据集 RTDOD（RGB-热红外）	69.21	93.87

三模态（84.24%）稳超所有双模态；其中 RGB+热红外（83.42%）已捕获大部分收益，事件主要在「运动模糊漏检恢复」「夜间热杂波误检抑制」这类特定失效场景下补足。

消融实验¶

基线融合块的两个组件（MiT-B1 三模态）：

融合变体	mAP	说明
BiTE-only	76.88	去掉可靠性加权，直接 token 交换，掉 7.36
MAGE-only	81.01	去掉 token 交换，仅做 \(2C\to C\) 合并，掉 3.23
MAGE+BiTE	84.24	完整模型

CSSA 融合深度 × 阈值（节选 τ=0.5）：s1 最佳 83.44%，s2=82.58%、s3=82.80%、s4=83.20%，多阶段（s23=82.32、s34=81.66、s1234=80.91）均不如单阶段——重复跨尺度通道切换反而侵蚀模态特有结构。GAFF 放置：单次插在深层最好（s4=83.41、s3=83.20），多阶段一致更弱；Phase 2 调参后 s3（r=4、shared、bottleneck）可达 84.02%。

白天/夜晚训练（MiT-B1 三模态，mAP）：

训练集	All	Day	Night
仅白天	79.0	85.0	70.5
仅夜晚	77.5	72.0	84.5
全天	82.24	84.0	80.0

关键发现¶

BiTE 比 MAGE 更关键：单独 BiTE-only 掉到 76.88，说明「整流后再做 token 级双向交换」是融合质量的主力；但两者协同才到峰值，MAGE 的门控整流为 BiTE 提供了干净的输入。
融合深度是决定性变量，且机制依赖深度：轻量 CSSA 偏好浅层（s1 早融合最好），高容量 GAFF 偏好深层（s4/s3 选择性融合），多阶段反复融合普遍掉点——这是全文最有价值的工程结论。
更大主干不等于更好：B4（196.6M）甚至跌破 B0，说明在中等规模检测数据集 + 固定训练表下，超过 B1 的容量转化不成泛化，反而过拟合。
模态贡献有强弱：热红外是最有信息量的副模态（RGB+热红外 83.42 远超 RGB+事件 66.32），事件是「锦上添花」而非主力，主要在特定失效区救场。
光照多样性必须进训练集：单一光照训练会过拟合该光照，全天训练才在白天/夜晚间取得更均衡的折中。

亮点与洞察¶

「融合即设计空间」的方法论很干净：通过让融合块严格保持 stride 和宽度，作者把「深度 × 机制 × 模态子集」三个轴解耦成可独立旋的旋钮，下游检测器零改动——这让 61 组消融的结论真正可比，是多模态融合论文里少见的受控实验范式，值得迁移到其他多传感器任务。
门控只动残差、不动恒等路径这个细节很巧妙：它在「跨模态增强」和「保护模态身份不被杂波污染」之间给了一个结构性而非学出来的保证，比简单相加/拼接更鲁棒。
数据集本身是硬贡献：首个同步、预对齐、分辨率一致标注的 RGB-热红外-事件无人机数据集，半自动标注协议（白天 YOLO 提案 + 人工复核，夜间在热红外平面纯手标）和 10.9% 漏检审计都做得扎实，填补了三模态受控研究的数据空白。
「事件相机在哪救场」给出了可解释的画面：把事件的价值定位到「运动模糊漏检恢复」和「夜间热杂波误检抑制」两类具体场景，而非笼统说更好，对实际部署很有指导意义。

局限与展望¶

单类、单场景：数据集只标了「车辆」一个类、且都在城市校园采集，泛化到多类、多场景（行人、复杂地形）尚未验证。
事件收益边际：三模态相对 RGB+热红外只有「modest gain」，在工程上是否值得多挂一个事件相机（增加 SWaP 成本）需要按场景权衡——论文也承认大部分收益来自 RGB+热红外。
静态帧化的事件表示：事件被 binning 成固定 33.3ms 窗的激活图，丢掉了事件相机最核心的异步/微秒时间分辨率，本质上把事件降格成了「另一张图」；作者在结论里也把「时间三模态融合」列为未来工作。
训练表偏短：15 epoch、固定 schedule 下大主干过拟合，无法判断在更大数据/更长训练下结论是否依旧（如 B2+ 是否真不如 B1）。
可改进方向：自适应模态选择（按帧/区域动态决定信任哪个模态）、保留事件异步性的时序融合，是顺理成章的下一步。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化的三模态（RGB-热红外-事件）无人机检测框架+数据集，方法论（融合即设计空间）干净；单个融合块本身是已有思路的组合而非全新机制。
实验充分度: ⭐⭐⭐⭐⭐ 61 组受控消融覆盖主干容量、融合深度、机制、模态子集、跨数据集、昼夜，结论扎实且可比。
写作质量: ⭐⭐⭐⭐ 动机和设计空间叙述清晰，公式和消融逻辑严谨；个别地方（事件帧化的局限）可更显性讨论。
价值: ⭐⭐⭐⭐ 数据集+受控基准对三模态融合社区是实打实的基础设施，工程结论（B1 最优、深度依赖机制、热红外为主力）对部署有直接指导。