Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading¶
会议: ICLR2026
arXiv: 2505.02872
代码: 待确认
领域: 视频理解
关键词: 眼动追踪, 阅读理解, 信息检索目标解码, 多模态LLM, 认知状态解码
一句话总结¶
提出从阅读时眼动轨迹解码开放式信息检索目标的新任务,基于 OneStop 眼动数据集(360人、486问题、162段落),开发判别式和生成式多模态模型;RoBERTEye-Fixations 在三选一目标选择上达 49.3%(随机 33%),不同 critical span 达 70.9%;DalEye-Llama/GPT 在目标重建中也显著优于无眼动基线。
研究背景与动机¶
领域现状:眼动追踪是研究阅读认知的核心方法,但现有工作主要关注"为理解而读"的通用场景,忽略了日常生活中更普遍的信息检索式阅读。
现有痛点:已有的认知状态解码工作仅区分少数预定义阅读模式(如泛读 vs 精读),无法处理开放式、文本特定的信息检索目标。
核心idea:给定一段文本和读者的眼动数据,自动解码读者心中的具体问题——不依赖任何文本之外的先验,仅从注视时长、扫视序列等眼动特征中提取目标信号。
方法详解¶
整体框架¶
任务分为两个变体——目标选择(从3个候选问题中选出读者的真实问题)和目标重建(生成读者心中的问题文本)。使用 OneStop 信息检索数据集:每段文本有3个问题,其中2个共享同一 critical span,1个有不同的 critical span。
关键设计 1:判别式模型¶
- Reading-Time 加权嵌入相似度:用注视时长加权 RoBERTa 词嵌入,与候选问题计算余弦相似度(基线,表现接近随机)
- RoBERTEye-Fixations:将逐注视点眼动特征整合到 RoBERTa 中,注意力机制联合处理文本 token 和注视序列,使用 10-fold 交叉验证;支持泛化到新文本和新读者
关键设计 2:生成式模型¶
- DalEye-Llama/GPT:将任务描述、文本、眼动轨迹(注视词索引+时长+扫视方向)转为文本提示,微调 Llama 3.1 / GPT-4o-mini 进行问题重建
- Gemini zero-shot/few-shot:使用相同文本化眼动表示,直接提示 Gemini-3-Pro 进行零样本/少样本生成
关键设计 3:认知可解释性分析¶
用线性混合效应模型分析 RoBERTEye 性能与11个试验特征的关系:critical span 内阅读时间越长、span 外时间越短 → 模型准确率越高(\(p < 10^{-275}\))。读者越目标导向,解码越容易。
实验关键数据¶
目标选择精度¶
| 模型 | All (3选1) | 不同Span (2选1) | 相同Span (2选1) |
|---|---|---|---|
| 随机基线 | 33.0% | 55.3% | 49.9% |
| Haller RNN | 41.8% | 65.6% | 52.1% |
| RoBERTEye-Fixations | 49.3% | 70.9% | 57.3% |
目标重建对比¶
| 模型 | Question Word Acc | BERTScore | QA Acc |
|---|---|---|---|
| Text-only Llama(无眼动) | 基线 | 基线 | 基线 |
| DalEye-Llama | 显著优于无眼动 | 显著优于无眼动 | 显著优于无眼动 |
| DalEye-GPT | 显著优于无眼动 | 显著优于无眼动 | 显著优于无眼动 |
| Gemini few-shot | 新读者条件下最佳 | 显著优于无眼动 | 新读者条件下最佳 |
关键发现¶
- 即使两个候选问题关注文本的同一区域(same span),RoBERTEye 仍能以 57.3% 准确率区分(\(p < 0.001\)),说明眼动包含超越"看哪里"的精细认知信息
- 眼动序列中注视顺序(fixation order)比单个注视特征更重要——消融分析显示移除词嵌入排序导致最大性能下降
- 生成任务中眼动信息在新文本泛化场景下仍有显著贡献
亮点与洞察¶
- 开创性任务定义:首次将"开放式阅读目标解码"形式化为选择和重建两个任务,且设计了 same-span vs different-span 的精巧难度分层
- 认知-计算双向桥梁:模型表现可用认知理论解释(目标导向的阅读行为 → 信息过滤 → 更强信号),反之模型也可作为分析工具验证认知假说
- 数据规模大(105万词级眼动数据),实验评估全面(新读者/新文本/新读者+文本三种泛化评估)
局限与展望¶
- 当前准确率(49.3%)距实际应用仍有差距,尤其在 same-span 场景(57.3%)仅略高于随机
- 仅在英语上实验,跨语言、跨人群(如L2读者、阅读障碍)的泛化性未知
- 生成模型在新文本场景下性能下降明显,可能需要更好的眼动编码方式
相关工作与启发¶
- 与传统任务式阅读研究(skimming、proofreading 等少数预定义模式)不同,本文处理的是上百种文本特定目标
- 可启发教育系统(实时检测学生阅读目标)、内容个性化(根据用户信息需求调整呈现方式)等应用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义 + 精巧实验设计
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型多基线多评估维度,认知可解释性分析深入
- 写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰,从认知科学到NLP的叙事流畅
- 价值: ⭐⭐⭐⭐ 科学价值大,但实际应用需更高准确率