Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading¶

会议: ICLR2026
arXiv: 2505.02872
代码: 待确认
领域: 视频理解
关键词: 眼动追踪, 阅读理解, 信息检索目标解码, 多模态LLM, 认知状态解码

一句话总结¶

提出从阅读时眼动轨迹解码开放式信息检索目标的新任务，基于 OneStop 眼动数据集（360人、486问题、162段落），开发判别式和生成式多模态模型；RoBERTEye-Fixations 在三选一目标选择上达 49.3%（随机 33%），不同 critical span 达 70.9%；DalEye-Llama/GPT 在目标重建中也显著优于无眼动基线。

研究背景与动机¶

领域现状：眼动追踪是研究阅读认知的核心方法，但现有工作主要关注"为理解而读"的通用场景，忽略了日常生活中更普遍的信息检索式阅读。

现有痛点：已有的认知状态解码工作仅区分少数预定义阅读模式（如泛读 vs 精读），无法处理开放式、文本特定的信息检索目标。

核心idea：给定一段文本和读者的眼动数据，自动解码读者心中的具体问题——不依赖任何文本之外的先验，仅从注视时长、扫视序列等眼动特征中提取目标信号。

方法详解¶

整体框架¶

任务分为两个变体——目标选择（从3个候选问题中选出读者的真实问题）和目标重建（生成读者心中的问题文本）。使用 OneStop 信息检索数据集：每段文本有3个问题，其中2个共享同一 critical span，1个有不同的 critical span。

关键设计 1：判别式模型¶

Reading-Time 加权嵌入相似度：用注视时长加权 RoBERTa 词嵌入，与候选问题计算余弦相似度（基线，表现接近随机）
RoBERTEye-Fixations：将逐注视点眼动特征整合到 RoBERTa 中，注意力机制联合处理文本 token 和注视序列，使用 10-fold 交叉验证；支持泛化到新文本和新读者

关键设计 2：生成式模型¶

DalEye-Llama/GPT：将任务描述、文本、眼动轨迹（注视词索引+时长+扫视方向）转为文本提示，微调 Llama 3.1 / GPT-4o-mini 进行问题重建
Gemini zero-shot/few-shot：使用相同文本化眼动表示，直接提示 Gemini-3-Pro 进行零样本/少样本生成

关键设计 3：认知可解释性分析¶

用线性混合效应模型分析 RoBERTEye 性能与11个试验特征的关系：critical span 内阅读时间越长、span 外时间越短 → 模型准确率越高（\(p < 10^{-275}\)）。读者越目标导向，解码越容易。

实验关键数据¶

目标选择精度¶

模型	All (3选1)	不同Span (2选1)	相同Span (2选1)
随机基线	33.0%	55.3%	49.9%
Haller RNN	41.8%	65.6%	52.1%
RoBERTEye-Fixations	49.3%	70.9%	57.3%

目标重建对比¶

模型	Question Word Acc	BERTScore	QA Acc
Text-only Llama（无眼动）	基线	基线	基线
DalEye-Llama	显著优于无眼动	显著优于无眼动	显著优于无眼动
DalEye-GPT	显著优于无眼动	显著优于无眼动	显著优于无眼动
Gemini few-shot	新读者条件下最佳	显著优于无眼动	新读者条件下最佳

关键发现¶

即使两个候选问题关注文本的同一区域（same span），RoBERTEye 仍能以 57.3% 准确率区分（\(p < 0.001\)），说明眼动包含超越"看哪里"的精细认知信息
眼动序列中注视顺序（fixation order）比单个注视特征更重要——消融分析显示移除词嵌入排序导致最大性能下降
生成任务中眼动信息在新文本泛化场景下仍有显著贡献

亮点与洞察¶

开创性任务定义：首次将"开放式阅读目标解码"形式化为选择和重建两个任务，且设计了 same-span vs different-span 的精巧难度分层
认知-计算双向桥梁：模型表现可用认知理论解释（目标导向的阅读行为 → 信息过滤 → 更强信号），反之模型也可作为分析工具验证认知假说
数据规模大（105万词级眼动数据），实验评估全面（新读者/新文本/新读者+文本三种泛化评估）

局限与展望¶

当前准确率（49.3%）距实际应用仍有差距，尤其在 same-span 场景（57.3%）仅略高于随机
仅在英语上实验，跨语言、跨人群（如L2读者、阅读障碍）的泛化性未知
生成模型在新文本场景下性能下降明显，可能需要更好的眼动编码方式

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新任务定义 + 精巧实验设计
实验充分度: ⭐⭐⭐⭐⭐ 多模型多基线多评估维度，认知可解释性分析深入
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，从认知科学到NLP的叙事流畅
价值: ⭐⭐⭐⭐ 科学价值大，但实际应用需更高准确率