跳转至

Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

会议: ICLR2026
arXiv: 2505.02872
代码: 待确认
领域: 视频理解
关键词: 眼动追踪, 阅读理解, 信息检索目标解码, 多模态LLM, 认知状态解码

一句话总结

提出从阅读时眼动轨迹解码开放式信息检索目标的新任务,基于 OneStop 眼动数据集(360人、486问题、162段落),开发判别式和生成式多模态模型;RoBERTEye-Fixations 在三选一目标选择上达 49.3%(随机 33%),不同 critical span 达 70.9%;DalEye-Llama/GPT 在目标重建中也显著优于无眼动基线。

研究背景与动机

领域现状:眼动追踪是研究阅读认知的核心方法,但现有工作主要关注"为理解而读"的通用场景,忽略了日常生活中更普遍的信息检索式阅读。

现有痛点:已有的认知状态解码工作仅区分少数预定义阅读模式(如泛读 vs 精读),无法处理开放式、文本特定的信息检索目标。

核心idea:给定一段文本和读者的眼动数据,自动解码读者心中的具体问题——不依赖任何文本之外的先验,仅从注视时长、扫视序列等眼动特征中提取目标信号。

方法详解

整体框架

任务分为两个变体——目标选择(从3个候选问题中选出读者的真实问题)和目标重建(生成读者心中的问题文本)。使用 OneStop 信息检索数据集:每段文本有3个问题,其中2个共享同一 critical span,1个有不同的 critical span。

关键设计 1:判别式模型

  • Reading-Time 加权嵌入相似度:用注视时长加权 RoBERTa 词嵌入,与候选问题计算余弦相似度(基线,表现接近随机)
  • RoBERTEye-Fixations:将逐注视点眼动特征整合到 RoBERTa 中,注意力机制联合处理文本 token 和注视序列,使用 10-fold 交叉验证;支持泛化到新文本和新读者

关键设计 2:生成式模型

  • DalEye-Llama/GPT:将任务描述、文本、眼动轨迹(注视词索引+时长+扫视方向)转为文本提示,微调 Llama 3.1 / GPT-4o-mini 进行问题重建
  • Gemini zero-shot/few-shot:使用相同文本化眼动表示,直接提示 Gemini-3-Pro 进行零样本/少样本生成

关键设计 3:认知可解释性分析

用线性混合效应模型分析 RoBERTEye 性能与11个试验特征的关系:critical span 内阅读时间越长、span 外时间越短 → 模型准确率越高(\(p < 10^{-275}\))。读者越目标导向,解码越容易。

实验关键数据

目标选择精度

模型 All (3选1) 不同Span (2选1) 相同Span (2选1)
随机基线 33.0% 55.3% 49.9%
Haller RNN 41.8% 65.6% 52.1%
RoBERTEye-Fixations 49.3% 70.9% 57.3%

目标重建对比

模型 Question Word Acc BERTScore QA Acc
Text-only Llama(无眼动) 基线 基线 基线
DalEye-Llama 显著优于无眼动 显著优于无眼动 显著优于无眼动
DalEye-GPT 显著优于无眼动 显著优于无眼动 显著优于无眼动
Gemini few-shot 新读者条件下最佳 显著优于无眼动 新读者条件下最佳

关键发现

  • 即使两个候选问题关注文本的同一区域(same span),RoBERTEye 仍能以 57.3% 准确率区分(\(p < 0.001\)),说明眼动包含超越"看哪里"的精细认知信息
  • 眼动序列中注视顺序(fixation order)比单个注视特征更重要——消融分析显示移除词嵌入排序导致最大性能下降
  • 生成任务中眼动信息在新文本泛化场景下仍有显著贡献

亮点与洞察

  • 开创性任务定义:首次将"开放式阅读目标解码"形式化为选择和重建两个任务,且设计了 same-span vs different-span 的精巧难度分层
  • 认知-计算双向桥梁:模型表现可用认知理论解释(目标导向的阅读行为 → 信息过滤 → 更强信号),反之模型也可作为分析工具验证认知假说
  • 数据规模大(105万词级眼动数据),实验评估全面(新读者/新文本/新读者+文本三种泛化评估)

局限与展望

  • 当前准确率(49.3%)距实际应用仍有差距,尤其在 same-span 场景(57.3%)仅略高于随机
  • 仅在英语上实验,跨语言、跨人群(如L2读者、阅读障碍)的泛化性未知
  • 生成模型在新文本场景下性能下降明显,可能需要更好的眼动编码方式

相关工作与启发

  • 与传统任务式阅读研究(skimming、proofreading 等少数预定义模式)不同,本文处理的是上百种文本特定目标
  • 可启发教育系统(实时检测学生阅读目标)、内容个性化(根据用户信息需求调整呈现方式)等应用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义 + 精巧实验设计
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型多基线多评估维度,认知可解释性分析深入
  • 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,从认知科学到NLP的叙事流畅
  • 价值: ⭐⭐⭐⭐ 科学价值大,但实际应用需更高准确率