Measurement Plasticity: Sensor-Level Adaptation for Vision–Language Models¶
会议: ICML2026
arXiv: 2512.12571
代码: 待确认
领域: 多模态VLM(测试时自适应 / 传感器级适应)
关键词: 视觉语言模型, 测试时自适应, 物理提示, 曝光三角, 源域亲和度
一句话总结¶
这篇论文把视觉语言模型(VLM)的测试时自适应(TTA)从"调模型/调 token"搬到了"调相机/调光子"——把相机的曝光三角(ISO、快门、光圈)当作可控的"物理提示",在拍摄阶段就用源域亲和度选出多个物理视图、再经熵过滤和硬投票聚合,无需任何梯度或改模型,就在传感器级分布偏移下显著超过只在数字域做适应的 TTA 方法。
研究背景与动机¶
领域现状:基础模型(尤其 VLM 如 CLIP)越来越多地被部署到与训练语料分布不同的真实环境,催生了"测试时持续自适应"。现有 TTA 几乎都在模型内部动手脚——更新权重、加 adapter、调 prompt、或检索记忆(TPT、PromptAlign、TDA 等),本质都是在"图像已经拍好之后"调整模型怎么解读这张固定的图。
现有痛点:在传感器中介的真实环境里,VLM 拿到的不是网上的干净图,而是相机现拍的图;ISO、快门、光圈这些设置决定了哪些光子能到达编码器。当场景欠曝、过曝或噪声大时,信息在测量阶段就已经不可逆地丢了——后续不管模型怎么自适应,都只能在一张已经退化的测量结果上操作。已有的 ImageNet-ES 基准已经证明,纯数字域适应填不平这种"传感器级鲁棒性鸿沟"。
核心矛盾:因果链是"场景 → 测量 → 表征"。现有 TTA 全卡在"测量 → 表征"这一段,而真正的信息损失发生在"场景 → 测量"这一段——一旦光子没被测到,下游怎么补都补不回来。这就是 Auto-Exposure(AE,相机自动曝光,为人眼优化而非为模型优化)下数字 TTA 的硬性上界。
本文目标:把自适应的"可塑性位置"从模型内部挪到传感器–模型接口,问一个互补的问题——与其把模型适配到输入,不如适配"输入是怎么被测量出来的"。具体要做到:无梯度、不改模型、可在拍摄阶段控制采集。
切入角度:已有的传感器控制工作 Lens(Baek 2025)已经会"按模型置信度逐场景选传感器设置",但作者观察到"只看置信度的单视图选择"容易过度自信地选错——一张偏移的拍摄可能给出很高置信度却诱导出不可靠的 VLM 特征。于是改用"源域亲和度"来选视图,并用多视图投票替代单视图豪赌。
核心 idea:把曝光三角当成物理提示(physical prompt),对同一场景拍多张不同设置的"物理视图",用源域亲和度选出最像源域分布的几张,再对其数字增广做熵过滤、最后硬投票——用"选视图再投票"替代"优化 prompt",把可塑性放到传感器层。
方法详解¶
整体框架¶
MVP(Multi-View Physical-prompt for TTA)是一个纯前向框架:给定一个静态场景,先沿曝光三角(ISO、快门、光圈)用不同相机参数拍出 \(M\) 张物理视图,把它们当作可控的物理提示;然后三步走——(1) 用源域亲和度给每张物理视图打分,选出最像源域统计的 top-\(k\) 张;(2) 对选中视图的数字增广做熵过滤,只留最确定的一小撮;(3) 用零温度硬投票聚合这些视图的预测得最终类别。整个流程不需要梯度、不改 CLIP 权重,只改"呈现给冻结模型的测量分布",把输入推回到模型表征可靠的区域。它特别适合静态、精度敏感的场景,如 CCTV 监控、自动巡检、计算机辅助手术。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["同一场景<br/>沿曝光三角拍 M 张物理视图"] --> B["1. 源域亲和度选视图<br/>视觉 token 统计 vs 源域统计,取 top-k"]
B --> C["每张视图做 N 个数字增广"]
C --> D["2. 熵过滤<br/>只留最低熵的确定子集 F"]
D --> E["3. 硬投票聚合<br/>零温度多视图投票"]
E --> F["最终类别预测"]
关键设计¶
1. 源域亲和度选视图:用"像不像源域"代替"置信度高不高"来选传感器设置
针对的痛点是 Lens 那种"只看置信度选单张"会被过度自信的错误拍摄带偏。作者借鉴 PromptAlign 的思路:好视图应该是其视觉 token 统计最接近源域统计的那张,而不是模型最自信的那张。具体地,每张物理视图 \(v_i\) 先扩出 \(N\) 个数字增广,按置信度取 top-\(\alpha\) 比例得到 \(N'\) 个增广,再从冻结视觉编码器逐层 \(l\) 抽取图像 token embedding 的均值方差 \(\mu_{i,l}, \sigma^2_{i,l}\),与预先算好的源域统计 \((\mu_{s,l}, \sigma^2_{s,l})\) 比距离。源域亲和度分定义为:
其中 \(L\) 是视觉编码器层数。选 \(S_i\) 最大的 top-\(k\) 个设置,即最"源域对齐"的物理视图。因为 CLIP 预训练数据不公开,作者用 ImageNet 当代理源域(附录另测 LAION 统计)。这一步用"无梯度的物理提示选择"替代了"prompt 优化",保留灰盒兼容性、计算量低;直观上就是让模型透过"源域般的视觉证据"去看场景——可视化也显示源域亲和度选出的视图,其注意力图比 AE 或置信度选出的更接近源域。
2. 熵过滤 + 硬投票:先剔除不确定增广,再用零温度投票避开过度自信
即便选中了 top-\(k\) 物理参数,其数字增广里仍可能有因局部光照/视觉上下文波动而不确定、有噪声的样本。作者先用熵 \(H_{i,n}=-\sum_c p_{i,n}(c)\log p_{i,n}(c)\) 衡量每个增广的不确定度(\(p_{i,n}(c)\) 是第 \(i\) 张物理视图第 \(n\) 个增广对类别 \(c\) 的预测概率),在全部 \(k\times N\) 个增广里只保留熵最低的 \(\gamma\%\) 作为最确定子集 \(\mathcal{F}\)。然后对 \(\mathcal{F}\) 做硬投票:
这里 \(\mathcal{C}\) 是类别集合。之所以用硬投票而非"对 softmax 概率平均",是因为多视图平均会被某个过度自信的视图主导、放大 overconfidence;硬投票则一视图一票,既缓解过度自信,又保住多物理视图带来的鲁棒性。
3. 物理多视图作为不可替代的增广轴:传感器变化提供数字增广模拟不出的自由度
这是 MVP 区别于普通多视图 TTA 的根基。作者强调:与其把传感器控制塌缩成单张拍摄,不如对 top-\(k\) 源域亲和度视图投票——因为 ISO、快门、光圈改变的是测量本身,这条"物理增广轴"是事后的裁剪、翻转、光度扰动(如 Albumentations 那套)无法完全模拟的。后处理只能在已测到的光子上变换,而改传感器参数能真正改变"哪些光子被测到",于是同一场景能透过有意义地不同的测量被观察,硬投票预测也因此更鲁棒(附录用 LDA 诊断支撑这一区分)。
实验关键数据¶
主实验¶
在 ImageNet-ES 与 ImageNet-ES-Diverse(均基于 Tiny-ImageNet、含受控光照–传感器变化)上,ViT-B/16 backbone,三种传感器控制协议(AE / AE+光度增广 / Lens 选择后再 TTA)。MVP 在 AE 下大幅超过所有数字 TTA,并在 Lens 管线上再涨一截。
| 方法 | 类别 | ImageNet-ES (AE) | ImageNet-ES-Diverse (AE) |
|---|---|---|---|
| CLIP(零样本) | 预训练 | 48.98 | 37.65 |
| TPT | prompt-TTA | 55.66 | 41.20 |
| PromptAlign | prompt-TTA | 55.45 | 41.51 |
| MTA | 训练free TTA | 56.56 | 41.70 |
| TDA | 训练free TTA | 58.17 | 40.78 |
| ZERO | 训练free TTA | 57.05 | 39.91 |
| MVP(本文) | 物理多视图 | 87.85 | 67.28 |
MVP 相比 AE 下最好的数字 TTA,在 ImageNet-ES / ES-Diverse 上分别至少提升约 29.68 / 25.58 个百分点;相比"Lens + TTA"组合管线也再涨最多约 3.4 个百分点,说明多物理参数比单视图传感器控制更有效。数字光度增广几乎无效,印证"数字扰动复现不了传感器变化的物理效果"。
消融实验(不同采集预算 CSA)¶
候选选择算法(CSA)作为预选策略把传感器参数空间压到更小的 \(M\) 个离散网格,以降低采集延迟。无 CSA 时每场景 27 张视图、约 2.41 秒;CSA1/2/3 分别为 12/6/21 张。
| 配置 | 采集延迟 | IN-ES | IN-ES-Diverse | 说明 |
|---|---|---|---|---|
| Lens(CSA1) | 1.06 s | 84.75 | 61.79 | 单视图传感器控制基线 |
| Lens+ZERO(CSA1) | 1.06 s | 85.43 | 61.49 | Lens 上叠最佳数字 TTA |
| MVP(CSA1) | 1.06 s | 87.27 | 63.79 | 12 张视图 |
| MVP(CSA2) | 0.37 s | 86.65 | 63.79 | 仅 6 张视图,延迟接近 AE |
| MVP(CSA3) | 0.91 s | 87.87 | 64.41 | 21 张视图 |
关键发现¶
- 信息损失发生在测量阶段、不可后补:AE 下 CLIP 严重退化、各种数字 TTA 只有边际增益,数字光度增广也无效——这从反面证明必须在拍摄阶段引入传感器级多样性。
- 源域亲和度优于置信度:用"像不像源域"选视图避开了 Lens"过度自信选错"的失败模式,注意力图也更贴近源域。
- 减少采集仍鲁棒:即便用 CSA 把视图压到 6 张(CSA2,延迟≈AE),MVP 仍保持高精度,说明它在低采集预算下也实用,可落地到采集成本敏感的真实部署。
- 延迟–精度权衡更优:无 CSA 时 MVP/Lens 以约 4× 延迟换 ≥23.3 pp 精度;加 CSA 后 MVP 在低延迟下仍领先所有 Lens+TTA 基线。
亮点与洞察¶
- 把 TTA 从"token 搬到光子"是真正新颖的视角:第一个把"测量过程"本身作为持续自适应的一等可塑性位置,提出"测量可塑性(measurement plasticity)"这一概念,给传感器–模型接口开了一类新方法。
- 源域亲和度 + 硬投票的组合很对症:前者修正了置信度选择的过度自信,后者避免 softmax 平均被过度自信视图主导,两个简单设计精准打在"单视图豪赌"的痛点上。
- "物理增广轴"论证有说服力:明确指出改传感器参数能改变"哪些光子被测到",是数字增广在数学上无法等价复现的——这把 MVP 与普通多视图 TTA 划清了界限。
- 无梯度、不改模型、灰盒兼容:对部署友好,CCTV/巡检/手术等静态精度敏感场景可直接用。
局限与展望¶
- 作者明示 MVP 适用于静态、精度敏感场景(CCTV、自动巡检、计算机辅助手术),对快速运动/单帧实时场景这种"对同一场景拍多张"的前提可能不成立。
- 自己发现的局限:源域统计用 ImageNet 当 CLIP 的代理源(预训练数据不公开),代理与真实源域的差距可能影响亲和度选择;评估基准都基于 Tiny-ImageNet 的受控光照–传感器变化,真实户外复杂光照下的泛化仍需验证;多视图采集即使加 CSA 也比纯 AE 贵(延迟更高)。
- 改进思路:作者提出未来应让自适应方法联合作用于模型、prompt、记忆与"产生输入的可控过程",把传感器控制和模型侧 TTA 协同起来,而非二选一。
相关工作与启发¶
- vs Lens(Baek 2025,传感器控制基线):Lens 按模型置信度逐场景选单张最自信的物理拍摄;MVP 改用源域亲和度选 top-\(k\) 多视图并硬投票,规避了 Lens"过度自信选错"的失败模式,主实验上稳定超过 Lens+TTA 组合。
- vs PromptAlign:PromptAlign 在数字域把测试视觉 token 统计对齐到源域统计;MVP 借用同一"源域对齐"思想,但把它用在拍摄前的物理视图选择上,而非事后调 prompt。
- vs 前向式 TTA(TDA、ZERO、MTA 等):它们都无需反传、降低测试开销,但仍是"拍完之后"对 prompt/特征/缓存/预测动手;MVP 的差异在于把适应推到"拍摄阶段",去改变到达编码器的视觉证据本身。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "测量可塑性 / 把曝光三角当物理提示"是 TTA 领域全新的可塑性位置。
- 实验充分度: ⭐⭐⭐⭐ 跨两个传感器偏移基准、多类基线、CSA 预算与延迟分析完整,但仅 Tiny-ImageNet 派生、静态场景。
- 写作质量: ⭐⭐⭐⭐ 因果链"场景→测量→表征"叙事清晰,物理增广 vs 数字增广论证到位。
- 价值: ⭐⭐⭐⭐ 对 CCTV/巡检/手术等传感器中介的精度敏感部署有直接实用价值。