Learning to See through Illumination Extremes with Event Streaming in Multimodal Large Language Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 多模态VLM
关键词: 事件相机, 极端光照, 多模态大模型, 自适应融合, 特征对齐

一句话总结¶

针对多模态大模型在过曝/极暗场景下 RGB 信息不可逆退化、产生幻觉的问题，Event-MLLM 引入事件流作为互补模态，用一个从 DINOv2 分支学到的「光照指示器」自适应调控事件-RGB 融合，再用「光照矫正损失」把融合特征对齐到正常光照语义，使模型在 0.05×–20× 的极端亮度下仍能稳定推理与计数。

研究背景与动机¶

领域现状：多模态大模型（MLLM）把强视觉编码器接到大语言模型上，已经能做开放问答、细粒度视觉推理等一大类任务，但绝大多数模型隐含假设输入是「理想光照」下的清晰 RGB 图像。

现有痛点：一旦遇到过曝或近乎全黑这类极端光照，RGB 图像会发生不可逆的结构与语义信息丢失，模型不仅看不清关键细节，还会编造出根本不存在的物体（幻觉），在计数、定位等任务上崩盘。现有缓解手段大多是「事后补救」：要么先用图像增强 pipeline 预增强（容易引入伪纹理、扭曲语义），要么把 MLLM 当控制器去调外部增强工具（间接改善但不增强模型自身鲁棒性），要么用专门的低光编码器/质量评估模块去检测曝光问题（无法保证内容级理解一致）。

核心矛盾：这些方法本质上都是「reactive」——试图恢复已经退化的信息，而不是在 MLLM 推理过程中主动防止信息丢失。而 RGB 传感器在饱和或欠曝时，物理上已经丢掉了信息，恢复无从谈起。

切入角度：事件相机异步工作、微秒级时间分辨率、动态范围超过 120 dB，记录的是亮度变化而非绝对强度，因此在 RGB 传感器饱和/失效时仍能保留丰富的结构线索。低层视觉（去噪、去模糊、HDR 重建）早已证明 RGB+事件融合能恢复细节，但这套范式还从未被引入 MLLM 做推理与指令跟随。

核心 idea：把事件流引入 MLLM，让模型学会「在什么光照下、该多大程度依赖事件信息」——用一个可学习的光照指示器动态加权事件-RGB 融合，并用一个特征空间的矫正损失把融合特征拉向正常光照的语义，从而把极端光照下丢失的结构「蒸馏」回来。

方法详解¶

整体框架¶

Event-MLLM 接收双视觉输入流：一张退化的极端光照帧 \(X_{extreme}\) 和对应的事件帧 \(X_{event}\)。原始视觉编码器 \(E_{vision}\) 从两者分别抽取高层语义特征 \(F_{extreme}\)、\(F_{event}\)；一个冻结的 DINOv2 编码器处理 \(X_{extreme}\) 得到刻画光照退化模式的特征 \(F_{illu}\)（即光照指示器）。训练阶段额外引入一张正常光照帧 \(X_{original}\)，由 \(E_{vision}\) 抽出 \(F_{original}\) 作为「监督锚点」。三类特征送入若干可学习 MLP，在光照指示器引导下融合成统一视觉表征 \(F_{fusion}\)，并被 \(F_{original}\) 通过光照矫正损失监督，使融合特征逼近正常光照下的语义。\(F_{fusion}\) 经投影层映射进 LLM 语言空间，做端到端指令跟随微调。推理时不需要正常光照帧：模型只用 \(X_{extreme}\) 和 \(X_{event}\) 即可自适应融合出 \(F_{fusion}\) 完成全光照推理。整套训练分两阶段：先训融合模块做特征对齐，再用 LoRA 微调整个 MLLM。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["极端光照帧 X_extreme<br/>+ 事件帧 X_event"] --> B["视觉编码 + DINOv2<br/>抽取 F_extreme / F_event / F_illu"]
    B --> C["光照指示器引导的特征融合<br/>F_illu 调控事件→RGB 融合得 F_fusion"]
    C -->|"训练阶段：正常帧 F_original 监督"| D["光照矫正损失<br/>F_fusion 对齐正常光照语义"]
    D --> E["两阶段训练<br/>先对齐融合模块，再 LoRA 微调 MLLM"]
    C -->|"推理阶段：仅用 F_fusion"| F["投影进 LLM<br/>全光照视觉推理 / 计数"]
    E --> F

关键设计¶

1. 光照指示器引导的自适应特征融合：用可学习信号决定「何时依赖事件」

痛点在于：光照退化在空间和时间上都是不均匀的，固定权重的事件-RGB 融合无法因地制宜。作者不用任何手工固定权重，而是从 DINOv2 分支学出一个光照指示器 \(F_{illu} = F_A(E_{DINOv2}(X_{extreme}))\)，它编码全局光照退化模式，直接调控事件特征该以多大力度注入退化的 RGB 特征。具体融合分两步拼接：先把光照指示器 \(F_{illu}\) 与事件特征 \(F_{event}\) 拼接——这一步把鲁棒的事件信息与具体光照条件绑定，让模型在指示器标示的不利光照下，有针对性地从事件里抽取互补信息；再把这个组合表征与极端 RGB 特征 \(F_{extreme}\) 拼接，送入最终融合 MLP：

\[F_{fusion} = F_{fusion}(F_{extreme}, \text{Concat}[F_{illu}, F_{event}])\]

之所以选 DINOv2 做指示器来源，是因为它的自监督特征对光照退化模式敏感且与具体内容解耦，比起直接用主编码器特征更能纯粹地表达「曝光退化程度」。

2. 光照矫正损失：把正常光照语义蒸馏进融合特征

在没有干净参考图可用的推理场景下，怎么引导模型朝「信息丰富的语义」而非「冗余相关」去融合，是个难题。作者用训练时可得的正常光照帧提供监督：先用冻结的 \(E_{vision}\) 抽出正常帧特征 \(F_{original} = E_{vision}(X_{original})\)，再让融合特征与它做 MSE 对齐：

\[\mathcal{L}_{IC} = \lVert F_{fusion} - F_{original} \rVert_2^2\]

最小化这个差异，等于强迫融合模块重建出与正常光照场景语义一致的特征。这样模型学到的是「主动从事件里补偿 RGB 退化」的能力，而非被动恢复像素。关键在于这是一种自监督能力：训练完成后，推理时不再需要 \(X_{original}\)，模型已能自主完成光照矫正，只凭极端光照帧和事件帧就能输出对齐到正常语义的融合表征。

3. 两阶段训练策略：先对齐再指令微调

如果把「特征融合」和「指令跟随」搅在一起一步到位地训，融合模块还没学会对齐语义、LLM 就被迫去拟合噪声特征，收敛困难。作者拆成两阶段：① 自适应特征融合阶段只训融合模块里的可学习 MLP，用 \(\mathcal{L}_{IC}\) 把正常光照语义蒸馏进 \(F_{fusion}\)，得到一个鲁棒且预对齐的视觉输入；② 指令跟随微调阶段冻结/对齐好视觉特征后，用 LoRA 微调整个 Event-MLLM 做指令任务。消融（见 Table 3）显示，这种「先对齐特征、再微调」的解耦显著简化了模型收敛，比直接做像素级 pre-fusion 或特征级 post-fusion 都强很多。

损失函数 / 训练策略¶

核心训练目标是光照矫正损失 \(\mathcal{L}_{IC}\)（MSE）。第一阶段用 Adam 优化器、batch size 4、学习率 0.001 训 30 个 epoch 训练融合 MLP；第二阶段 LoRA 微调整个 MLLM 训 1 个 epoch。骨干用 Qwen-3B / Qwen-7B，硬件为 RTX 5090D 与 A800。⚠️ 部分超参以原文为准。

实验关键数据¶

数据集是作者自建的首个「正常帧 + 极端光照帧 + 事件帧」三元组指令跟随数据集，含 2,241 个样本、10,129 个问答对，每个样本设计 17 个亮度等级（0.05× 到 20×），从 4 个时空对齐的事件-RGB 配对数据集出发，用 GPT-4o + 人工核验生成细粒度描述。Benchmark 含两个任务：多选题（综合场景理解，可多个正确选项）和物体计数（精确枚举）。所有指标在 17 个亮度等级上取平均。

主实验¶

方法	类型	多选 Acc.↑	多选 F1↑	计数 Acc.↑	计数 MAE↓
LLaVA-7B	通用 MLLM	18.43	65.39	67.84	0.9957
InternVL	通用 MLLM	31.50	75.46	72.56	0.8641
EventGPT	事件专用	3.16	73.60	67.41	1.0015
Q-Instruct	光照感知	15.86	65.09	66.87	0.9803
Baseline-7B (Qwen)	事件增强基线	44.71	81.95	72.73	0.5303
Ours-7B	事件增强	53.13	85.43	74.66	0.4557

多选任务上 Ours-7B 比次优的 Baseline-7B 高 8.42% Acc / 3.48% F1；计数任务 74.66% Acc 超过 Baseline-7B 的 72.73% 与 InternVL 的 72.56%。从 3B 到 7B，多选/计数 Acc 从 34.48%/71.08% 跃升到 53.13%/74.66%，说明方法可随规模放大。

消融实验¶

配置 (Qwen-7B)	多选 Acc.↑	多选 F1↑	计数 Acc.↑	计数 MAE↓
Baseline（两组件都无）	44.71	81.95	72.73	0.5303
+ 仅光照矫正（无 LoRA）	51.90	84.83	74.23	0.4645
Ours（光照矫正 + LoRA）	53.13	85.43	74.66	0.4557

融合策略对比（Qwen-7B）：像素级 Pre-fusion 仅 14.85% 多选 Acc（最差，说明像素叠加产生非自然图像、自然图编码器抽不出正确特征）；特征级 Post-fusion 32.24%；本文两阶段方法 53.13%，证明「先对齐、再 LoRA」的价值。

关键发现¶

光照矫正模块和 LoRA 微调对两种骨干都带来渐进式增益，且 Qwen-7B 的提升幅度大于 Qwen-3B——大容量模型从额外模态和复杂对齐中获益更多。
像素级 pre-fusion 几乎拖垮性能，揭示「直接把事件和 RGB 在像素层叠加再喂模型」是错误路线，必须在特征/语义层融合。
t-SNE 与余弦相似度分析显示：未矫正时视觉编码器特征在极端亮度下相似度从 0.98 掉到约 0.65；融合后不同亮度的特征会聚拢到正常光照特征附近，验证了语义对齐确实发生。

亮点与洞察¶

从「事后恢复」转向「推理时主动补偿」：用事件流在融合阶段直接注入结构信息，绕开了 RGB 不可逆退化无法恢复的物理死结，这是相对图像增强/工具调用类方法最本质的范式差异。
光照指示器把「光照评估」和「内容编码」解耦：用 DINOv2 自监督特征专门表达曝光退化、再去调控融合权重，避免了把光照判断和语义理解混在一个编码器里互相干扰，这个解耦思路可迁移到任何需要「条件自适应融合」的多模态场景。
正常光照帧只在训练时当锚、推理时丢掉：把「需要干净参考」的监督转成一种可在推理时自主运行的能力，是该设计最巧妙的地方——既拿到了强监督，又不增加推理时的输入要求。

局限与展望¶

数据集的细粒度描述由 GPT-4o 生成（虽有人工核验），标注质量与多样性可能受生成模型偏好影响；⚠️ 数据规模 2,241 样本相对训练大模型仍偏小。
极端亮度通过对 RGB 做 17 档乘性调整模拟，与真实传感器在过曝/欠曝下的非线性响应、噪声特性可能有差距，真实极端场景下的泛化有待验证。
推理时必须有时空配对的事件相机输入，限制了在仅有普通 RGB 相机的部署场景中的适用性；事件相机本身的成本与可得性也是落地约束。
方法只验证到 7B 规模，更大模型与更多模态（如深度）的协同收益尚未探索。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把事件流引入 MLLM 做极端光照推理，光照指示器 + 矫正损失的组合设计有原创性。
实验充分度: ⭐⭐⭐⭐ 两种规模骨干、三类基线、17 档亮度、消融与可视化齐全，但数据规模偏小、缺真实事件相机极端场景验证。
写作质量: ⭐⭐⭐⭐ 动机与方法叙述清晰，pipeline 图直观；部分符号与超参细节略简。
价值: ⭐⭐⭐⭐ 为 MLLM 在恶劣光照下的鲁棒感知提供了新范式与首个配套数据集/benchmark，落地受事件相机可得性约束。