Image Quality Assessment for Embodied AI¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=azj53PLJRL
代码: https://github.com/aiben-ch/EmbodiedIQA
领域: 具身智能 / 图像质量评估 / 数据集与基准
关键词: Embodied AI, Image Quality Assessment, VLM, VLA, Robot Perception, Benchmark

一句话总结¶

首次把图像质量评估（IQA）从"预测人眼偏好"扩展到"预测机器人能否用这张图把任务干成"，基于 Mertonian 系统搭出 感知-认知-决策-执行（Perception-Cognition-Decision-Execution） 四步流水线，构建了含 36.9k 失真图像对、5.53M 细粒度标注（15 个 VLM + 15 个 VLA + 1.5k 真机实验）的 Embodied-IQA 数据库，并用 15 种主流 IQA 方法证明：现有为人眼设计的质量指标在具身场景下严重失效。

研究背景与动机¶

领域现状：具身智能（Embodied AI）近年发展飞快，但大多还停在实验室里。一旦进入真实世界，镜头抖动、噪声、压缩、光照变化等各种失真就会让"在实验室调通的抓取任务"突然失败。一个自然的诉求是：能否像流媒体里用 IQA 给图像打分一样，给具身场景的每张图打一个"机器人可用性"分数，提前把低质量图像过滤掉？

现有痛点：传统 IQA 都是 human-oriented——收集人类对失真图像的主观偏好，再训练客观指标去拟合。但人眼视觉系统（HVS）、通用机器视觉系统（MVS）和机器人视觉系统（RVS）三者的敏感点完全不同：(1) HVS 对噪声/压缩敏感，但这些对机器的下游任务几乎无影响，而亮度/对比度恰好相反；(2) 通用机器的"感知质量"只取决于检测/分割这类认知任务的表现，但机器人在认知之后还有决策和执行两步——上一步保真不代表下一步成功。

核心矛盾：HVS 和 MVS 都可看作 Newtonian 系统（给定状态和控制就能精确预测下一步），而 RVS 是 Mertonian 系统——认知里差一个字，决策的位姿可能天差地别；决策里偏 1 厘米，执行就可能撞上障碍物。这种"逐级不可预测"的放大效应，使得已有任何 IQA 方法都无法直接迁移到具身场景。

本文目标：第一次正式提出 "IQA for Embodied AI" 这一课题，给未来具身场景提供可靠的感知质量指标。

核心 idea：用机器人下游任务的成功率来定义图像质量——把失真对认知、决策、执行三步的负面影响逐级量化，并用大规模 VLM/VLA/真机标注把这套主观分数固化成数据库，验证现有 IQA 的失效程度。

方法详解¶

整体框架¶

本文不是提出一个新 IQA 模型，而是建立一套主观打分体系 + 数据库 + 基准。核心是借用社会学里的 Mertonian Law，把具身智能的视觉链路拆成 Perception→Cognition→Decision→Execution 四步，并为每一步指定一个"打分主体"：Perception 对应相机（任务定义），Cognition 对应 VLM（人脑），Decision 对应 VLA（小脑），Execution 对应机械臂（运动系统）。一张失真图的质量 = 它在这条链路上把任务"带偏"了多少。

flowchart LR
    A[Perception 感知<br/>相机/任务定义<br/>每张图标 5 个任务] --> B[Cognition 认知<br/>15 个 VLM<br/>文本输出比对]
    B --> C[Decision 决策<br/>15 个 VLA<br/>7-DoF 位姿比对]
    C --> D[Execution 执行<br/>UR5 真机臂<br/>成功/欧氏距离/急停]
    ref[Reference 图] -.对比.-> B
    dis[Distorted 图] -.对比.-> B
    D --> Q[Perception Quality<br/>质量指标]

整条链路的打分逻辑都建立在 reference/distorted 图像对 上：同一任务，分别喂参考图和失真图给同一个主体，比对两者输出的差异——差异越大，说明这种失真对机器人危害越大，图像质量越低。

关键设计¶

1. Mertonian 系统下的四步流水线：为什么机器人需要单独的 IQA。 本文最根本的设计是论证 RVS 不能复用 HVS/MVS 的评价范式。HVS 和 MVS 之所以能用现成 IQA，是因为它们是 Newtonian 的——决策和执行过程鲁棒、可预测。但机器人的决策与执行并不完全跟随认知：认知层一个字符的偏差会被决策层放大成位姿的剧变，决策层 1cm 的路径偏移会让执行层撞到障碍。正因这种逐级放大的不可预测性，必须把 Cognition、Decision、Execution 三步分开打分，而不能像通用机器 IQA 那样只看认知层的检测/分割精度。这一理论框架是后续整个数据库设计的根。

2. Embodied-IQA 数据库与失真体系。 收集 1,230 张高质量参考图（先用 Q-Align 过滤掉本身就有失真的图），覆盖 Sim2Real（真实/仿真）、第一/第三人称视角、5 类主体 × 5 类背景，保证多样性。对每张参考图施加 30 种失真、归并为 7 大类（Blur 模糊、Luminance 亮度、Chrominance 色度、Noise 噪声、Compression 压缩、Spatial 空间局部、Others），每种失真设 5 个强度等级（强度按 HVS 感知降质对齐），最终生成 36,900 张失真图。每张参考图人工标注 5 个难度递增的自然语言任务（动词限定在 Cover/Insert/Move/Pick/Place/Pour/Press/Pull/Push/Twist），所有打分都围绕这些任务展开。

3. Cognition 打分：VLM 文本输出的三维比对。 认知对应人脑，用 15 个参数量 <8B 的主流 VLM（InternVL 系列、Qwen2.5-VL、Phi 系列、Ovis 系列等，控制在 8B 以下以保证实时推理）来完成。要求每个 VLM 用约 10 个词解答预设任务，然后比对参考图与失真图两份输出句子的差异。差异从 accuracy、recall、semantics 三个维度刻画，分别用 BLEU、ROUGE、CIDEr 三个经典指标的均值实现。直觉：失真往往在字符层而非语义层影响 VLM（语义分掉得最少，Precision 掉得最多），更容易让模型多吐冗余文本而非丢信息。

4. Decision 打分：VLA 的 7-DoF 位姿拆解。 决策对应小脑，用 15 个 VLA（OpenVLA 系列、Pi0 系列、Octo、CogACT、RT-X-1 等）输出动作。本文首次把 VLA 引入 IQA，把动作质量拆成 7-DoF 的三个维度：前 3 维 position（平移，mm）、中 3 维 rotation（旋转，rad）、最后 1 维 state（夹爪开合，\([0,1]\)）。位置分基于参考/失真结果坐标点的空间距离打分（双臂只取运动幅度更大的臂，丢弃深度等 7-DoF 外信息以对齐不同 VLA）。实验发现三者敏感度不同：State 受失真影响最小，Position 居中，Rotation 最易被破坏——说明失真主要伤的是机械臂的前 6-DoF 而非末端夹爪。

5. Execution 打分：真机三态评分。 执行对应运动系统，用 UR5 机械臂 + Robotiq 2F-140 夹爪（工作半径 85cm）真机跑任务，分三种情形给分：Success 直接给 100；Failure 按执行末端位姿与参考结果的欧氏距离、以厘米为单位扣分；Emergency stop（撞到桌面/墙壁触发中断）直接给 0。考虑真机不可控因素，只执行 5 个难度中最简单的那个任务，确保失败原因来自失真而非任务本身太难。这一步用 1.5k 真机实验把"内在现实"（VLM/VLA 推理）和"外在现实"（真机执行）连起来，验证 5M+ 标注的可靠性。

实验关键数据¶

主实验：15 种 IQA 方法预测 Decision 分（SRCC，节选 Position / 视角维度）¶

组别	方法	Position SRCC↑	Rotation SRCC↑	State SRCC↑	First 视角	Third 视角
Zero-shot	PSNR	0.2762	0.2594	0.2284	0.4059	0.3949
Zero-shot	SSIM	0.4862	0.4246	0.3607	0.5834	0.5478
Zero-shot	Q-Align	0.5325	0.5387	0.3791	0.6658	0.5854
FR	AHIQ	0.7481	0.6454	0.6465	0.8011	0.7989
FR	TOPIQ-FR	0.7748	0.6428	0.6684	0.8307	0.8322
NR	TOPIQ-NR	0.7496	0.5981	0.7036	0.7791	0.8269
NR	CLIPIQA	0.1784	0.0708	0.1348	0.0048	0.2155

Rotation 最难预测，Position 最易；FR 整体优于 NR（NR 普遍 <0.6）。最佳的 TOPIQ-FR 也仅 SRCC≈0.75，而同样方法在传统 HVS IQA 上能到 ~0.9——断崖式下滑直接证明现有指标不适配具身场景。

关键发现与消融¶

维度	结论
模型间一致性（SRCC）	VLM 间约 0.3、VLA 间约 0.25，远低于 HVS 的 >0.6——单一模型当主体远远不够，必须聚合多模型偏好
冻结指标失效	LPIPS / DISTS / CLIPIQA 主参数基于 HVS 冻结，训练后甚至不如 zero-shot baseline，反向印证 HVS↔RVS 鸿沟
失真等级	5 个绝对失真等级下 IQA 性能几乎不变——说明按 HVS 划等级不合理，应按 RVS 自身的 JND 划分
跨库验证	在 VLA 决策分上微调后，HVS 能力崩塌（LIVE 上 SRCC<0.4）；但能预测 VLM 认知分（AHIQ 达 0.7），揭示认知↔决策内在关联
真机相关性	Cognition↔Execution SRCC<0.5；Decision↔Execution SRCC>0.6（0.671）——决策能一定程度代表执行，但真机实验仍不可替代

亮点与洞察¶

问题定义本身就是最大贡献：把"图像好不好看"重定义为"机器人能不能用它把任务干成"，给 IQA 开了一个全新的、面向具身智能的子领域。
Mertonian vs Newtonian 的类比很到位：用"自由意志/逐级放大不可预测"一句话点破了机器人 IQA 与人/通用机器 IQA 的本质差异，为"必须分认知-决策-执行三步打分"提供了理论依据。
首次把 VLA 引入 IQA，并给出 7-DoF 位姿的可操作打分方案；也是 IQA 领域首次做真机执行实验，把"内在推理"和"外在执行"用 SRCC 量化连接。
大规模 + 多主体：36.9k 图像对、5.53M 标注、15 VLM + 15 VLA + 真机，规模和标注维度都超过既有质量库。

局限与展望¶

没给出新 IQA 模型：本文是"提出问题 + 数据库 + 基准"，证明现有方法失效，但 Embodied IQA 该怎么做仍是开放问题（最好的 SRCC 才 ~0.75）。
执行只跑最简单难度：为保证可控，真机只测 5 难度里最简单的一档，更复杂任务下的结论尚未验证。
第一人称结果远差于第三人称，说明 VLA 训练数据里很少整合采样工具与执行器本体，本身是数据偏置而非单纯图像质量问题。
真机相关性仍不够高（Decision↔Execution 0.671），意味着仿真/推理替代不了真机，规模化标注成本仍是瓶颈。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出 IQA for Embodied AI，问题定义全新，Mertonian 框架 + VLA/真机打分体系都是原创。
实验充分度: ⭐⭐⭐⭐ 36.9k 图、5.53M 标注、15+15 模型 + 真机，基准覆盖三维度/视角/Sim2Real/失真等级/跨库，相当扎实；扣分在执行只跑最简难度。
写作质量: ⭐⭐⭐⭐ 动机层层递进（HVS→MVS→RVS），图表丰富；个别小节因图数据密集略显零碎。
价值: ⭐⭐⭐⭐⭐ 为具身智能的真实世界落地提供了急需的质量评价基础设施，开辟了一个可持续研究的新子领域。