Measurement Plasticity: Sensor-Level Adaptation for Vision–Language Models¶

会议: ICML2026
arXiv: 2512.12571
代码: 待确认
领域: 多模态VLM（测试时自适应 / 传感器级适应）
关键词: 视觉语言模型, 测试时自适应, 物理提示, 曝光三角, 源域亲和度

一句话总结¶

这篇论文把视觉语言模型（VLM）的测试时自适应（TTA）从"调模型/调 token"搬到了"调相机/调光子"——把相机的曝光三角（ISO、快门、光圈）当作可控的"物理提示"，在拍摄阶段就用源域亲和度选出多个物理视图、再经熵过滤和硬投票聚合，无需任何梯度或改模型，就在传感器级分布偏移下显著超过只在数字域做适应的 TTA 方法。

研究背景与动机¶

领域现状：基础模型（尤其 VLM 如 CLIP）越来越多地被部署到与训练语料分布不同的真实环境，催生了"测试时持续自适应"。现有 TTA 几乎都在模型内部动手脚——更新权重、加 adapter、调 prompt、或检索记忆（TPT、PromptAlign、TDA 等），本质都是在"图像已经拍好之后"调整模型怎么解读这张固定的图。

现有痛点：在传感器中介的真实环境里，VLM 拿到的不是网上的干净图，而是相机现拍的图；ISO、快门、光圈这些设置决定了哪些光子能到达编码器。当场景欠曝、过曝或噪声大时，信息在测量阶段就已经不可逆地丢了——后续不管模型怎么自适应，都只能在一张已经退化的测量结果上操作。已有的 ImageNet-ES 基准已经证明，纯数字域适应填不平这种"传感器级鲁棒性鸿沟"。

核心矛盾：因果链是"场景 → 测量 → 表征"。现有 TTA 全卡在"测量 → 表征"这一段，而真正的信息损失发生在"场景 → 测量"这一段——一旦光子没被测到，下游怎么补都补不回来。这就是 Auto-Exposure（AE，相机自动曝光，为人眼优化而非为模型优化）下数字 TTA 的硬性上界。

本文目标：把自适应的"可塑性位置"从模型内部挪到传感器–模型接口，问一个互补的问题——与其把模型适配到输入，不如适配"输入是怎么被测量出来的"。具体要做到：无梯度、不改模型、可在拍摄阶段控制采集。

切入角度：已有的传感器控制工作 Lens（Baek 2025）已经会"按模型置信度逐场景选传感器设置"，但作者观察到"只看置信度的单视图选择"容易过度自信地选错——一张偏移的拍摄可能给出很高置信度却诱导出不可靠的 VLM 特征。于是改用"源域亲和度"来选视图，并用多视图投票替代单视图豪赌。

核心 idea：把曝光三角当成物理提示（physical prompt），对同一场景拍多张不同设置的"物理视图"，用源域亲和度选出最像源域分布的几张，再对其数字增广做熵过滤、最后硬投票——用"选视图再投票"替代"优化 prompt"，把可塑性放到传感器层。

方法详解¶

整体框架¶

MVP（Multi-View Physical-prompt for TTA）是一个纯前向框架：给定一个静态场景，先沿曝光三角（ISO、快门、光圈）用不同相机参数拍出 \(M\) 张物理视图，把它们当作可控的物理提示；然后三步走——(1) 用源域亲和度给每张物理视图打分，选出最像源域统计的 top-\(k\) 张；(2) 对选中视图的数字增广做熵过滤，只留最确定的一小撮；(3) 用零温度硬投票聚合这些视图的预测得最终类别。整个流程不需要梯度、不改 CLIP 权重，只改"呈现给冻结模型的测量分布"，把输入推回到模型表征可靠的区域。它特别适合静态、精度敏感的场景，如 CCTV 监控、自动巡检、计算机辅助手术。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["同一场景<br/>沿曝光三角拍 M 张物理视图"] --> B["1. 源域亲和度选视图<br/>视觉 token 统计 vs 源域统计，取 top-k"]
    B --> C["每张视图做 N 个数字增广"]
    C --> D["2. 熵过滤<br/>只留最低熵的确定子集 F"]
    D --> E["3. 硬投票聚合<br/>零温度多视图投票"]
    E --> F["最终类别预测"]

关键设计¶

1. 源域亲和度选视图：用"像不像源域"代替"置信度高不高"来选传感器设置

针对的痛点是 Lens 那种"只看置信度选单张"会被过度自信的错误拍摄带偏。作者借鉴 PromptAlign 的思路：好视图应该是其视觉 token 统计最接近源域统计的那张，而不是模型最自信的那张。具体地，每张物理视图 \(v_i\) 先扩出 \(N\) 个数字增广，按置信度取 top-\(\alpha\) 比例得到 \(N'\) 个增广，再从冻结视觉编码器逐层 \(l\) 抽取图像 token embedding 的均值方差 \(\mu_{i,l}, \sigma^2_{i,l}\)，与预先算好的源域统计 \((\mu_{s,l}, \sigma^2_{s,l})\) 比距离。源域亲和度分定义为：

\[S_i=-\frac{1}{L}\sum_{l=1}^{L}\Big(\|\mu_{i,l}-\mu_{s,l}\|_2^2+\|\sigma^2_{i,l}-\sigma^2_{s,l}\|_2^2\Big)\]

其中 \(L\) 是视觉编码器层数。选 \(S_i\) 最大的 top-\(k\) 个设置，即最"源域对齐"的物理视图。因为 CLIP 预训练数据不公开，作者用 ImageNet 当代理源域（附录另测 LAION 统计）。这一步用"无梯度的物理提示选择"替代了"prompt 优化"，保留灰盒兼容性、计算量低；直观上就是让模型透过"源域般的视觉证据"去看场景——可视化也显示源域亲和度选出的视图，其注意力图比 AE 或置信度选出的更接近源域。

2. 熵过滤 + 硬投票：先剔除不确定增广，再用零温度投票避开过度自信

即便选中了 top-\(k\) 物理参数，其数字增广里仍可能有因局部光照/视觉上下文波动而不确定、有噪声的样本。作者先用熵 \(H_{i,n}=-\sum_c p_{i,n}(c)\log p_{i,n}(c)\) 衡量每个增广的不确定度（\(p_{i,n}(c)\) 是第 \(i\) 张物理视图第 \(n\) 个增广对类别 \(c\) 的预测概率），在全部 \(k\times N\) 个增广里只保留熵最低的 \(\gamma\%\) 作为最确定子集 \(\mathcal{F}\)。然后对 \(\mathcal{F}\) 做硬投票：

\[\hat{y}=\arg\max_{y\in\mathcal{C}}\sum_{(i,n)\in\mathcal{F}}\mathbf{1}\Big[\arg\max_{c\in\mathcal{C}}p_{i,n}(c)=y\Big]\]

这里 \(\mathcal{C}\) 是类别集合。之所以用硬投票而非"对 softmax 概率平均"，是因为多视图平均会被某个过度自信的视图主导、放大 overconfidence；硬投票则一视图一票，既缓解过度自信，又保住多物理视图带来的鲁棒性。

3. 物理多视图作为不可替代的增广轴：传感器变化提供数字增广模拟不出的自由度

这是 MVP 区别于普通多视图 TTA 的根基。作者强调：与其把传感器控制塌缩成单张拍摄，不如对 top-\(k\) 源域亲和度视图投票——因为 ISO、快门、光圈改变的是测量本身，这条"物理增广轴"是事后的裁剪、翻转、光度扰动（如 Albumentations 那套）无法完全模拟的。后处理只能在已测到的光子上变换，而改传感器参数能真正改变"哪些光子被测到"，于是同一场景能透过有意义地不同的测量被观察，硬投票预测也因此更鲁棒（附录用 LDA 诊断支撑这一区分）。

实验关键数据¶

主实验¶

在 ImageNet-ES 与 ImageNet-ES-Diverse（均基于 Tiny-ImageNet、含受控光照–传感器变化）上，ViT-B/16 backbone，三种传感器控制协议（AE / AE+光度增广 / Lens 选择后再 TTA）。MVP 在 AE 下大幅超过所有数字 TTA，并在 Lens 管线上再涨一截。

方法	类别	ImageNet-ES (AE)	ImageNet-ES-Diverse (AE)
CLIP（零样本）	预训练	48.98	37.65
TPT	prompt-TTA	55.66	41.20
PromptAlign	prompt-TTA	55.45	41.51
MTA	训练free TTA	56.56	41.70
TDA	训练free TTA	58.17	40.78
ZERO	训练free TTA	57.05	39.91
MVP（本文）	物理多视图	87.85	67.28

MVP 相比 AE 下最好的数字 TTA，在 ImageNet-ES / ES-Diverse 上分别至少提升约 29.68 / 25.58 个百分点；相比"Lens + TTA"组合管线也再涨最多约 3.4 个百分点，说明多物理参数比单视图传感器控制更有效。数字光度增广几乎无效，印证"数字扰动复现不了传感器变化的物理效果"。

消融实验（不同采集预算 CSA）¶

候选选择算法（CSA）作为预选策略把传感器参数空间压到更小的 \(M\) 个离散网格，以降低采集延迟。无 CSA 时每场景 27 张视图、约 2.41 秒；CSA1/2/3 分别为 12/6/21 张。

配置	采集延迟	IN-ES	IN-ES-Diverse	说明
Lens（CSA1）	1.06 s	84.75	61.79	单视图传感器控制基线
Lens+ZERO（CSA1）	1.06 s	85.43	61.49	Lens 上叠最佳数字 TTA
MVP（CSA1）	1.06 s	87.27	63.79	12 张视图
MVP（CSA2）	0.37 s	86.65	63.79	仅 6 张视图，延迟接近 AE
MVP（CSA3）	0.91 s	87.87	64.41	21 张视图

关键发现¶

信息损失发生在测量阶段、不可后补：AE 下 CLIP 严重退化、各种数字 TTA 只有边际增益，数字光度增广也无效——这从反面证明必须在拍摄阶段引入传感器级多样性。
源域亲和度优于置信度：用"像不像源域"选视图避开了 Lens"过度自信选错"的失败模式，注意力图也更贴近源域。
减少采集仍鲁棒：即便用 CSA 把视图压到 6 张（CSA2，延迟≈AE），MVP 仍保持高精度，说明它在低采集预算下也实用，可落地到采集成本敏感的真实部署。
延迟–精度权衡更优：无 CSA 时 MVP/Lens 以约 4× 延迟换 ≥23.3 pp 精度；加 CSA 后 MVP 在低延迟下仍领先所有 Lens+TTA 基线。

亮点与洞察¶

把 TTA 从"token 搬到光子"是真正新颖的视角：第一个把"测量过程"本身作为持续自适应的一等可塑性位置，提出"测量可塑性（measurement plasticity）"这一概念，给传感器–模型接口开了一类新方法。
源域亲和度 + 硬投票的组合很对症：前者修正了置信度选择的过度自信，后者避免 softmax 平均被过度自信视图主导，两个简单设计精准打在"单视图豪赌"的痛点上。
"物理增广轴"论证有说服力：明确指出改传感器参数能改变"哪些光子被测到"，是数字增广在数学上无法等价复现的——这把 MVP 与普通多视图 TTA 划清了界限。
无梯度、不改模型、灰盒兼容：对部署友好，CCTV/巡检/手术等静态精度敏感场景可直接用。

局限与展望¶

作者明示 MVP 适用于静态、精度敏感场景（CCTV、自动巡检、计算机辅助手术），对快速运动/单帧实时场景这种"对同一场景拍多张"的前提可能不成立。
自己发现的局限：源域统计用 ImageNet 当 CLIP 的代理源（预训练数据不公开），代理与真实源域的差距可能影响亲和度选择；评估基准都基于 Tiny-ImageNet 的受控光照–传感器变化，真实户外复杂光照下的泛化仍需验证；多视图采集即使加 CSA 也比纯 AE 贵（延迟更高）。
改进思路：作者提出未来应让自适应方法联合作用于模型、prompt、记忆与"产生输入的可控过程"，把传感器控制和模型侧 TTA 协同起来，而非二选一。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "测量可塑性 / 把曝光三角当物理提示"是 TTA 领域全新的可塑性位置。
实验充分度: ⭐⭐⭐⭐ 跨两个传感器偏移基准、多类基线、CSA 预算与延迟分析完整，但仅 Tiny-ImageNet 派生、静态场景。
写作质量: ⭐⭐⭐⭐ 因果链"场景→测量→表征"叙事清晰，物理增广 vs 数字增广论证到位。
价值: ⭐⭐⭐⭐ 对 CCTV/巡检/手术等传感器中介的精度敏感部署有直接实用价值。