跳转至

AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift

会议: NeurIPS 2025
arXiv: 2507.07820
代码: 无(Position Paper)
领域: 感知系统 / 具身AI
关键词: 自适应感知, 范式转变, 传感器优化, 闭环感知, 具身AI

一句话总结

这篇立场论文受生物感觉系统的启发,主张AI研究必须从单纯的"扩模型"范式转向"优化输入"——通过在传感器层面动态调整参数(曝光、增益、多模态配置等),使小模型(5M参数的EfficientNet-B0)在理想传感器适应下超越大模型(632M参数的OpenCLIP-H),并提出了从单次感知到闭环感知-运动耦合的渐进式形式化框架。

研究背景与动机

当前AI的进步主要依靠扩大模型规模和训练数据集,但这条路径面临多重不可持续的根本性挑战:

环境代价巨大:仅训练GPT-3就消耗约1.287 GWh电力、排放约552吨CO2,相当于一辆车行驶超过100万公里。随着模型继续增大,环境成本呈指数增长。

公平性问题:只有资金雄厚的机构才能训练和部署前沿模型,将创新机会集中在少数精英组织,加剧全球数字鸿沟。

泛化失败:在大而静态的数据集上训练的模型,面对真实世界中的传感器变化、光照变化、天气变化等协变量偏移时频繁失败。现有鲁棒性基准不能充分捕捉这种复杂性。

生物系统提供了另一种思路:人类感觉系统在神经处理之前和之中就进行了大量自适应调整。瞳孔在200ms内可调节2-8mm直径(16倍光增益变化),眼球扫视在3-5ms内重定向注视区,暗适应恢复灵敏度,睫状肌调节从10cm到无穷远的对焦。这些都是在"传感器层面"解决感知问题,而不是让大脑更大。但人工传感器几乎完全是静态的——相机使用固定或粗步长的光圈、固定的量子效率和CFA,麦克风的动态范围只有人耳的一半。

核心立场:AI不仅需要"更大的大脑",更需要"更灵敏的感官"。自适应感知(adaptive sensing)是在传感器层面动态优化参数以产生对模型最友好的输入,这是后处理方法(域适应、测试时适应等)无法替代的——因为一旦模拟信号被数字化,传感器配置造成的信息损失就不可逆。

方法详解

整体框架

作为立场论文,本文不提出单一方法,而是构建了一个从现有证据到未来路线图的完整论证:(1)总结自适应感知的初步实证证据(Lens框架);(2)提出从简单到复杂的四阶段形式化框架(无自适应MDP→单次感知→连续感知→感知-运动耦合);(3)规划跨领域应用场景(人形机器人、医疗、自动驾驶、农业、环境监测);(4)分析技术和伦理挑战并提出研究方向。

关键设计

  1. Lens框架——已有的实证基础:

    • 功能:第一个"模型友好"的测试时输入适应框架,在图像分类任务上验证自适应感知的可行性
    • 核心思路:基于VisiT评分动态响应场景特征,为神经网络选择最优的传感器参数配置。在ImageNet-ES和ImageNet-ES-Diverse基准上评估
    • 关键发现:自适应感知可提升准确率高达47.58个百分点,且无需任何模型修改;在理想传感器适应下,5M参数的EfficientNet-B0可超越632M参数的OpenCLIP-H(后者使用了160倍更多的训练数据);更有趣的是,对模型最优的图像与对人类最优的图像是不同的——这意味着传统的"人类视觉友好"自动曝光策略对AI模型来说是次优的
    • 设计动机:Lens证明了核心假说的可行性,但仅限于单次感知的静态分类场景
  2. 渐进式闭环感知框架:

    • 功能:将自适应感知从简单的单次分类扩展到连续的闭环具身AI场景
    • 核心思路——四阶段渐进设计:
      • 阶段1(基线MDP):标准 \(\mathcal{M}=(S,A,P_E,R)\),传感器配置固定为 \(o_{fixed}\),不做自适应
      • 阶段2(单次自适应感知):增广随机过程 \(\mathcal{P}=(S,O,P'_E,Q_M)\),无动作策略,仅优化传感器配置。从k个候选配置中通过感知质量度量 \(Q_M\) 选最优:\(o^*_{t+1} = \arg\max_i Q_M(s^{(i)}_{t+1}, o^{(i)}_{t+1})\)
      • 阶段3(连续感知MDP):将单次扩展为序列决策,感知策略 \(\pi_{sense}(o_{t+1}|s_t,o_t,Q_M)\) 在连续时步中学习最优传感器轨迹
      • 阶段4(感知-运动耦合):联合MDP \(\mathcal{M}=(S,A,O,P_E,Q_M)\),同时优化动作策略和感知策略,奖励为 \(r_{t+1} = R_{task}(s_t,a_t) + \lambda Q_M(s_t,o_t)\)
    • 设计动机:直觉来自婴儿学习——婴儿通过连续的感知-运动反馈渐进式改善视觉控制,类似地AI agent需要在动态环境中将传感器调整与动作决策耦合
  3. 多模态自适应扩展:

    • 功能:超越单一传感器,实现跨模态的自适应资源分配
    • 核心思路:引入模态权重向量 \(w_t \in \mathbb{R}^N\)(归一化),感知策略同时输出传感器参数和模态权重 \((o_{t+1}, w_{t+1}) = \pi_{multi-sense}(o_{t+1}, w_{t+1} | s_t, o_t, w_t, Q_M)\)。例如人形机器人在站立时重心前移时增加脚趾压力传感器的权重,侧向推时增加脚踝本体感受器的权重
    • 稀疏奖励场景:引入中间感知质量度量(如抓握稳定性 \(Q_{grip}\)、视觉对准度 \(Q_{vis}\))作为稠密反馈,复合奖励 \(R_t = R_{sparse} + \lambda_{tact} Q_{grip} + \lambda_{vis} Q_{vis}\),缓解稀疏奖励导致的探索困难

损失函数 / 训练策略

框架论文未实际训练模型。提出的奖励设计为任务奖励+感知质量的加权组合,其中权重 \(\lambda\) 控制任务导向和感知质量之间的平衡。多模态场景中各模态的权重 \(\lambda_{tact}\)\(\lambda_{vis}\) 作为超参数设定。

实验关键数据

主实验

本文引用的核心实证数据来自先前工作Lens和SenseShift6D:

场景 指标 自适应感知 基线 说明
ImageNet-ES分类 准确率提升 +47.58%p 标准自动曝光 不修改模型架构
模型大小对比 分类准确率 EfficientNet-B0 (5M) ≈/> OpenCLIP-H (632M) 50×更小但准确率相当或更高
6D位姿估计 精度和稳定性 多模态自适应 > 单模态 > 工厂默认 SenseShift6D验证
目标检测/分割 鲁棒性 自适应曝光 > 固定自动曝光 复杂视觉任务的一致性收益

消融实验

配置 关键发现 说明
模型特异性 不同模型的最优传感器配置不同 非"一刀切"的通用设置
场景特异性 不同场景需要不同的传感器参数 必须动态适配
与模型改进的关系 自适应感知与模型改进协同增效 不是替代而是互补
人类vs模型友好 对模型最优的图像≠对人类最优 传统自动曝光对AI是次优的

关键发现

  • 自适应感知与模型扩大是互补的正交策略:在协变量偏移主导的场景下自适应感知更有效,在语义偏移(如未见类别)场景下模型级适应更有效,两者结合效果最好
  • 闭环设计在动态环境中必要:在低动态环境(单次分类)中独立控制器足够,但在具身AI的动态场景中,感知策略必须与动作策略闭环耦合
  • 50倍模型压缩等效:正确的传感器参数选择可以弥补50倍的参数量差距和160倍的训练数据差距——这从根本上质疑了"scaling is all you need"

亮点与洞察

  • 生物类比的说服力极强:人类瞳孔16倍光增益/<200ms调节 vs 相机固定光圈+粗步长ISO的对比表格,一目了然地展示了人工传感器的原始和落后
  • 5M vs 632M的实证最为震撼:如果传感器参数正确调整,50倍小的模型可以胜过用160倍更多数据训练的大模型。这不仅是技术发现,更是对整个AI发展范式的根本性挑战
  • 四阶段渐进式形式化设计合理:从无自适应→单次→连续→感知-运动耦合,每一步都有清晰的数学定义和直觉解释,为研究社区提供了完整的路线图
  • 跨领域应用视角:从人形机器人到医疗影像到自动驾驶到农业监测,论证了自适应感知的普遍适用性
  • 对"模型友好≠人类友好"的发现意味着几十年来基于人类视觉偏好设计的自动曝光/自动增益算法对AI应用来说可能全都是错的

局限与展望

  • 核心实证主要来自图像分类:在更复杂的任务(检测、分割、具身交互、语言模型)上的证据非常有限,论文的大部分内容是愿景和框架而非实验验证
  • 闭环框架完全是概念性的:从阶段2往后(连续感知、感知-运动耦合、多模态自适应)都没有任何实验实现,只有数学形式化
  • 传感器参数空间的可扩展性:随着模态数量和参数维度增加,搜索空间指数增长,如何高效探索未讨论解决方案
  • 依赖硬件生态配合:需要传感器厂商开放API控制接口,这涉及商业利益和知识产权问题
  • 与域适应的边界模糊:论文声称"自适应感知解决协变量偏移,域适应解决语义偏移",但实际场景中两者交织,如何判断何时用哪种策略缺乏实用指导
  • 未讨论自适应延迟成本:在实时系统中,传感器参数搜索本身的时间开销可能抵消部分收益

相关工作与启发

  • 与域适应/测试时适应的本质区别在于操作时点:自适应感知在信号数字化之前操作,可保留后处理无法恢复的信息
  • 与主动感知(改变机器人视角)的区别:自适应感知调整传感器内部参数而非外部位置
  • 与物理信息模拟(PINNs/DSE)的区别:后者是事后模拟,无法恢复已丢失的传感器级信息
  • 对资源受限场景(边缘计算、可穿戴设备、微型无人机)特别有启发:与其部署更大模型,不如配备更智能的传感器
  • 自适应感知与模型压缩/高效推理的潜在协同值得深入探索

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 范式级视角转换——从"扩大模型"到"优化输入",思想层面极具启发性
  • 实验充分度: ⭐⭐⭐ 作为立场论文以论证和路线图为主,自有实验非常有限
  • 写作质量: ⭐⭐⭐⭐⭐ 论证层层递进,生物类比精准有力,形式化清晰
  • 价值: ⭐⭐⭐⭐ 方向正确且重要,但需要大量后续实证工作来兑现其承诺