Do Vision Models Perceive Illusory Motion in Static Images Like Humans?¶

会议: CVPR 2026
arXiv: 2604.09853
代码: 有
领域: 视觉感知/计算神经科学
关键词: 运动错觉, 光流模型, 人类视觉, 旋转蛇错觉, 生物启发模型

一句话总结¶

本文系统评估了多种光流模型在旋转蛇等静态图像运动错觉上的表现，发现仅人类启发的Dual-Channel模型在模拟眼跳条件下能再现人类感知的旋转运动。

领域现状：DNN在光流估计基准上已超越人类，但在鲁棒性上仍有差距。视觉运动错觉为探测人机差异提供了有力工具，但现有研究集中于动态错觉（如reverse-phi），对静态图像错觉的研究不足。

现有痛点：旋转蛇错觉——一种在完全静态图像中人类强烈感知到旋转运动的现象——现有光流模型能否再现尚不清楚。该错觉依赖于微妙的亮度不对称和注视性眼动。

核心矛盾：标准DNN光流模型在基准测试上表现优异，但其计算策略是否与人类视觉系统共享关键原理仍不明确。

本文目标：评估代表性DNN和人类启发运动模型再现静态图像运动错觉的能力，识别关键计算组件。

切入角度：使用in silico心理物理学方法，在统一实验流水线下系统性比较10种运动估计模型。

核心idea：双通道运动处理、眼动瞬态信号和循环整合是再现人类运动感知的关键机制。

(1) 生成旋转蛇错觉图像和对照图像（灰度/蓝黄/红绿三种配色）；(2) 在静态和模拟眼跳两种条件下评估10种模型；(3) 消融分析识别关键组件。

统一实验流水线:
- 功能：在控制条件下公平比较不同架构的模型
- 核心思路：所有模型使用官方预训练权重，在相同的错觉/对照图像上评估。模拟眼跳通过平移图像产生瞬态视网膜滑移
- 设计动机：确保差异可归因于模型架构而非训练/评估差异
模拟眼跳条件:
- 功能：模拟人类观看旋转蛇时的生理条件
- 核心思路：人类感知旋转蛇错觉时需要眼跳等注视性眼动提供瞬态信号。通过移动图像模拟这种视网膜滑移
- 设计动机：心理物理学研究表明该错觉在固定凝视下显著减弱，眼动是触发错觉的关键
消融分析:
- 功能：识别再现错觉的关键计算组件
- 核心思路：对Dual-Channel模型进行系统消融：(1) 基于亮度的运动信号贡献；(2) 高阶颜色-特征运动信号贡献；(3) 循环注意力机制的角色
- 设计动机：确定哪些计算原理是人类样运动感知的必要条件

纯推理评估，不涉及训练。所有模型使用原始预训练权重。