AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift¶

会议: NeurIPS 2025
arXiv: 2507.07820
代码: 无（Position Paper）
领域: 感知系统 / 具身AI
关键词: 自适应感知, 范式转变, 传感器优化, 闭环感知, 具身AI

一句话总结¶

这篇立场论文受生物感觉系统的启发，主张AI研究必须从单纯的"扩模型"范式转向"优化输入"——通过在传感器层面动态调整参数（曝光、增益、多模态配置等），使小模型（5M参数的EfficientNet-B0）在理想传感器适应下超越大模型（632M参数的OpenCLIP-H），并提出了从单次感知到闭环感知-运动耦合的渐进式形式化框架。

研究背景与动机¶

当前AI的进步主要依靠扩大模型规模和训练数据集，但这条路径面临多重不可持续的根本性挑战：

环境代价巨大：仅训练GPT-3就消耗约1.287 GWh电力、排放约552吨CO2，相当于一辆车行驶超过100万公里。随着模型继续增大，环境成本呈指数增长。

公平性问题：只有资金雄厚的机构才能训练和部署前沿模型，将创新机会集中在少数精英组织，加剧全球数字鸿沟。

泛化失败：在大而静态的数据集上训练的模型，面对真实世界中的传感器变化、光照变化、天气变化等协变量偏移时频繁失败。现有鲁棒性基准不能充分捕捉这种复杂性。

生物系统提供了另一种思路：人类感觉系统在神经处理之前和之中就进行了大量自适应调整。瞳孔在200ms内可调节2-8mm直径（16倍光增益变化），眼球扫视在3-5ms内重定向注视区，暗适应恢复灵敏度，睫状肌调节从10cm到无穷远的对焦。这些都是在"传感器层面"解决感知问题，而不是让大脑更大。但人工传感器几乎完全是静态的——相机使用固定或粗步长的光圈、固定的量子效率和CFA，麦克风的动态范围只有人耳的一半。

核心立场：AI不仅需要"更大的大脑"，更需要"更灵敏的感官"。自适应感知（adaptive sensing）是在传感器层面动态优化参数以产生对模型最友好的输入，这是后处理方法（域适应、测试时适应等）无法替代的——因为一旦模拟信号被数字化，传感器配置造成的信息损失就不可逆。

方法详解¶

整体框架¶

作为立场论文，本文不提出单一方法，而是构建了一个从现有证据到未来路线图的完整论证：（1）总结自适应感知的初步实证证据（Lens框架）；（2）提出从简单到复杂的四阶段形式化框架（无自适应MDP→单次感知→连续感知→感知-运动耦合）；（3）规划跨领域应用场景（人形机器人、医疗、自动驾驶、农业、环境监测）；（4）分析技术和伦理挑战并提出研究方向。

关键设计¶

Lens框架——已有的实证基础:
- 功能：第一个"模型友好"的测试时输入适应框架，在图像分类任务上验证自适应感知的可行性
- 核心思路：基于VisiT评分动态响应场景特征，为神经网络选择最优的传感器参数配置。在ImageNet-ES和ImageNet-ES-Diverse基准上评估
- 关键发现：自适应感知可提升准确率高达47.58个百分点，且无需任何模型修改；在理想传感器适应下，5M参数的EfficientNet-B0可超越632M参数的OpenCLIP-H（后者使用了160倍更多的训练数据）；更有趣的是，对模型最优的图像与对人类最优的图像是不同的——这意味着传统的"人类视觉友好"自动曝光策略对AI模型来说是次优的
- 设计动机：Lens证明了核心假说的可行性，但仅限于单次感知的静态分类场景
渐进式闭环感知框架:
- 功能：将自适应感知从简单的单次分类扩展到连续的闭环具身AI场景
- 核心思路——四阶段渐进设计：
  - 阶段1（基线MDP）：标准 \(\mathcal{M}=(S,A,P_E,R)\)，传感器配置固定为 \(o_{fixed}\)，不做自适应
  - 阶段2（单次自适应感知）：增广随机过程 \(\mathcal{P}=(S,O,P'_E,Q_M)\)，无动作策略，仅优化传感器配置。从k个候选配置中通过感知质量度量 \(Q_M\) 选最优：\(o^*_{t+1} = \arg\max_i Q_M(s^{(i)}_{t+1}, o^{(i)}_{t+1})\)
  - 阶段3（连续感知MDP）：将单次扩展为序列决策，感知策略 \(\pi_{sense}(o_{t+1}|s_t,o_t,Q_M)\) 在连续时步中学习最优传感器轨迹
  - 阶段4（感知-运动耦合）：联合MDP \(\mathcal{M}=(S,A,O,P_E,Q_M)\)，同时优化动作策略和感知策略，奖励为 \(r_{t+1} = R_{task}(s_t,a_t) + \lambda Q_M(s_t,o_t)\)
- 设计动机：直觉来自婴儿学习——婴儿通过连续的感知-运动反馈渐进式改善视觉控制，类似地AI agent需要在动态环境中将传感器调整与动作决策耦合
多模态自适应扩展:
- 功能：超越单一传感器，实现跨模态的自适应资源分配
- 核心思路：引入模态权重向量 \(w_t \in \mathbb{R}^N\)（归一化），感知策略同时输出传感器参数和模态权重 \((o_{t+1}, w_{t+1}) = \pi_{multi-sense}(o_{t+1}, w_{t+1} | s_t, o_t, w_t, Q_M)\)。例如人形机器人在站立时重心前移时增加脚趾压力传感器的权重，侧向推时增加脚踝本体感受器的权重
- 稀疏奖励场景：引入中间感知质量度量（如抓握稳定性 \(Q_{grip}\)、视觉对准度 \(Q_{vis}\)）作为稠密反馈，复合奖励 \(R_t = R_{sparse} + \lambda_{tact} Q_{grip} + \lambda_{vis} Q_{vis}\)，缓解稀疏奖励导致的探索困难

损失函数 / 训练策略¶

框架论文未实际训练模型。提出的奖励设计为任务奖励+感知质量的加权组合，其中权重 \(\lambda\) 控制任务导向和感知质量之间的平衡。多模态场景中各模态的权重 \(\lambda_{tact}\)、\(\lambda_{vis}\) 作为超参数设定。

实验关键数据¶

主实验¶

本文引用的核心实证数据来自先前工作Lens和SenseShift6D:

场景	指标	自适应感知	基线	说明
ImageNet-ES分类	准确率提升	+47.58%p	标准自动曝光	不修改模型架构
模型大小对比	分类准确率	EfficientNet-B0 (5M) ≈/> OpenCLIP-H (632M)	—	50×更小但准确率相当或更高
6D位姿估计	精度和稳定性	多模态自适应 > 单模态 > 工厂默认	—	SenseShift6D验证
目标检测/分割	鲁棒性	自适应曝光 > 固定自动曝光	—	复杂视觉任务的一致性收益

消融实验¶

配置	关键发现	说明
模型特异性	不同模型的最优传感器配置不同	非"一刀切"的通用设置
场景特异性	不同场景需要不同的传感器参数	必须动态适配
与模型改进的关系	自适应感知与模型改进协同增效	不是替代而是互补
人类vs模型友好	对模型最优的图像≠对人类最优	传统自动曝光对AI是次优的

关键发现¶

自适应感知与模型扩大是互补的正交策略：在协变量偏移主导的场景下自适应感知更有效，在语义偏移（如未见类别）场景下模型级适应更有效，两者结合效果最好
闭环设计在动态环境中必要：在低动态环境（单次分类）中独立控制器足够，但在具身AI的动态场景中，感知策略必须与动作策略闭环耦合
50倍模型压缩等效：正确的传感器参数选择可以弥补50倍的参数量差距和160倍的训练数据差距——这从根本上质疑了"scaling is all you need"

亮点与洞察¶

生物类比的说服力极强：人类瞳孔16倍光增益/<200ms调节 vs 相机固定光圈+粗步长ISO的对比表格，一目了然地展示了人工传感器的原始和落后
5M vs 632M的实证最为震撼：如果传感器参数正确调整，50倍小的模型可以胜过用160倍更多数据训练的大模型。这不仅是技术发现，更是对整个AI发展范式的根本性挑战
四阶段渐进式形式化设计合理：从无自适应→单次→连续→感知-运动耦合，每一步都有清晰的数学定义和直觉解释，为研究社区提供了完整的路线图
跨领域应用视角：从人形机器人到医疗影像到自动驾驶到农业监测，论证了自适应感知的普遍适用性
对"模型友好≠人类友好"的发现意味着几十年来基于人类视觉偏好设计的自动曝光/自动增益算法对AI应用来说可能全都是错的

局限与展望¶

核心实证主要来自图像分类：在更复杂的任务（检测、分割、具身交互、语言模型）上的证据非常有限，论文的大部分内容是愿景和框架而非实验验证
闭环框架完全是概念性的：从阶段2往后（连续感知、感知-运动耦合、多模态自适应）都没有任何实验实现，只有数学形式化
传感器参数空间的可扩展性：随着模态数量和参数维度增加，搜索空间指数增长，如何高效探索未讨论解决方案
依赖硬件生态配合：需要传感器厂商开放API控制接口，这涉及商业利益和知识产权问题
与域适应的边界模糊：论文声称"自适应感知解决协变量偏移，域适应解决语义偏移"，但实际场景中两者交织，如何判断何时用哪种策略缺乏实用指导
未讨论自适应延迟成本：在实时系统中，传感器参数搜索本身的时间开销可能抵消部分收益

评分¶

新颖性: ⭐⭐⭐⭐⭐ 范式级视角转换——从"扩大模型"到"优化输入"，思想层面极具启发性
实验充分度: ⭐⭐⭐ 作为立场论文以论证和路线图为主，自有实验非常有限
写作质量: ⭐⭐⭐⭐⭐ 论证层层递进，生物类比精准有力，形式化清晰
价值: ⭐⭐⭐⭐ 方向正确且重要，但需要大量后续实证工作来兑现其承诺