跳转至

Adaptive Time Series Reasoning via Segment Selection

会议: ICML 2026
arXiv: 2602.18645
代码: https://github.com/mims-harvard/ARTIST
领域: 时间序列 关键词: 时间序列推理, segment selection, controller-reasoner, self-play RL, 层级策略优化

一句话总结

这篇论文提出 ARTIST,把时间序列问答变成“边推理边选择片段”的序贯决策问题,通过 controller-reasoner 架构和层级自博弈 RL,让模型只读取与问题相关的时间片段并提升推理准确率。

研究背景与动机

领域现状:时间序列任务正在从传统预测、分类、异常检测扩展到自然语言问答式推理。用户给出一个问题,模型需要从时间序列中定位相关区间、比较模式、解释变化,并输出答案。已有方法通常把整条时间序列序列化成文本、渲染成图像,或编码成 embedding 后一次性喂给 LLM。

现有痛点:一次性处理完整时间序列会把大量无关片段混进上下文。对于长序列或多步推理任务,真正有用的信息可能只在几个短区间,且会随着中间推理结论变化。固定视图无法实现“先看一段建立 baseline,再看另一段验证假设”的动态过程。

核心矛盾:模型需要主动选择要看的时间片段,但训练数据通常没有“这个问题该看哪些区间”的标注;同时,如果直接用 token-level RL 优化长推理轨迹,segment selection 的信用分配会被长文本输出稀释。

本文目标:让 LLM 在推理时把时间序列当作可交互资源:先选择一个片段,基于片段推理,再决定继续选择还是停止回答。训练时要分别优化“看哪里”和“怎么回答”。

切入角度:论文把一个模型用 role-specific prompt 分成 controller 和 reasoner。controller 负责选择 temporal segment 和停止条件;reasoner 只基于已选片段生成中间推理和答案。这样可以把证据获取和答案生成拆开,并给两个角色设计不同 reward。

核心 idea:用 controller-reasoner 协作自博弈,把时间序列推理训练成可解释的自适应片段选择过程。

方法详解

ARTIST 的核心是把时间序列推理形式化为一条交互轨迹。给定问题 \(q\) 和时间序列 \(T\in\mathbb{R}^{H\times V}\),controller 在第 \(i\) 轮看到问题、完整序列、已选片段、上一轮 reasoner 的推理和答案,然后输出继续/接受决策。如果继续,它还要选择一个新的连续片段 \(s_i=T_{t_{start}:t_{end}}\)。reasoner 收到累计片段列表 \(S_i\),生成本轮推理 trace 和候选答案。若 controller 选择 ACCEPT,则上一轮 reasoner 的答案成为最终输出。

整体框架

训练分两阶段。第一阶段是 SFT,用人工或自动构造的 structured traces 微调模型,让它学会交替输出自然语言推理和 segment-selection call。第二阶段是 RL,使用 collaborative self-play:同一个策略模型通过不同 prompt 扮演 controller 和 reasoner,生成多条交互轨迹,并用嵌套 rollout 计算两个角色的 reward。

在 RL 中,每个训练样本先采样 \(G\) 条 controller-reasoner interaction trajectories。对每条轨迹的最终 segment list,再让 reasoner 独立采样 \(N\) 次,估计“这些片段能否稳定支持正确答案”。controller 的 reward 主要来自 reliability,即在重复 reasoner 采样下答案正确的比例;reasoner 的 reward 来自最终答案 correctness 和格式合规。最后把 controller advantage 传播到所有 controller 决策 token,把 reasoner advantage 只传播到最终一轮 reasoner 输出。

关键设计

  1. Controller-Reasoner 角色拆分:

    • 功能:把“选择证据”和“基于证据回答”分成两个可单独优化的行为。
    • 核心思路:controller 根据当前状态输出 \(d_i\in\{\mathrm{CONTINUE},\mathrm{ACCEPT}\}\) 和新片段 \(s_i\);reasoner 根据问题和累计片段 \(S_i\) 生成推理 trace 与答案。两个角色共享模型参数,但用不同 prompt 激活不同能力。
    • 设计动机:如果让一个长 chain-of-thought 同时负责选片段和回答,RL 很难知道错误来自选错证据还是推理失败。拆角色后,信用分配更清楚。
  2. Reliability-based controller reward:

    • 功能:避免 controller 被偶然正确的单次答案误导。
    • 核心思路:对同一个 segment list 重复采样 reasoner \(N\) 次,计算正确率 \(D(q,S,y^*)\) 作为 reliability。只有当一组片段能稳定支持正确答案时,controller 才得到高 reward。
    • 设计动机:LLM 生成有随机性,单次答对可能是运气。时间序列片段选择更需要衡量“证据是否足够”,而不是某一次 reasoner 是否刚好猜中。
  3. 层级策略优化与方差引导采样:

    • 功能:把长轨迹信用分配到正确角色和正确阶段。
    • 核心思路:controller 使用 trajectory-level advantage,覆盖所有 interaction rounds;reasoner 只优化 final-round 输出。为了节省显存并选择更有学习信号的 reasoner 组,论文按 correctness 方差 \(r_\sigma\) 进行 variance-guided sampling,优先更新结果差异更大的组。
    • 设计动机:片段选择是长期决策,不能只奖励最后一步;而 reasoner 在固定片段下更像局部问答任务,适合只在最终输出上优化。

损失函数 / 训练策略

SFT 使用 LoRA 在结构化轨迹上训练。RL 阶段使用全参数 fine-tuning,并将 controller reward \(R_{ctl}\) 与 reasoner reward \(R_{rsn}\) 转化为 group-relative advantages 做联合策略更新。实现上,主模型是 Qwen3-4B,时间序列用 5 层 MLP 编码 patch-based 输入;评估中 reasoner temperature 为 0.7,controller temperature 为 1.0。论文主设置关注 univariate time series。

实验关键数据

主实验

主实验覆盖 6 个时间序列推理 benchmark:ETI、RCW、ECG-QA、Sleep-QA、TSQA、TRQA。下表摘取平均和代表数据集结果。

方法 ETI Acc/F1 RCW Acc/F1 ECG-QA Acc/F1 TSQA Acc/F1 TRQA Acc/F1 Avg Acc/F1
OpenTSLM-4B + SFT 82.69 / 82.66 65.49 / 38.29 69.50 / 41.00 47.50 / 35.81 76.25 / 69.36 62.80 / 47.68
ITFormer-4B + SFT 84.62 / 84.60 67.31 / 57.95 57.31 / 49.91 49.50 / 23.62 80.12 / 74.22 62.08 / 51.01
ARTIST + SFT 85.12 / 85.11 69.75 / 61.46 56.31 / 55.68 60.06 / 57.13 82.26 / 62.32 63.61 / 56.61
ARTIST + SFT + RL 87.03 / 87.10 77.00 / 50.00 69.81 / 52.67 62.00 / 58.66 83.06 / 78.02 69.26 / 57.61
相对最强基线提升 +2.41 / +2.50 +3.11 / +3.51 +3.14 / +3.89 +12.50 / +11.91 +2.94 / +3.80 +6.46 / +6.60

消融实验

消融在 ECG-QA 和 RCW 上报告 accuracy,直接检验核心模块。

配置 ECG Acc RCW Acc Avg Acc 说明
ARTIST 69.81 77.00 73.41 完整 controller-reasoner + reliability + 层级 RL
Reasoner Only 65.33 62.88 64.11 去掉 controller,处理静态输入,平均下降 9.30
Controller-only RL 60.81 68.13 64.47 冻结 reasoner,无法适应 controller 动态片段分布
w/o Reliability Reward 52.50 51.44 51.97 最大跌幅,说明单次正确性会误导片段选择
w/o Trajectory-based Objective 55.19 67.06 61.13 myopic controller 学不到多轮片段组合策略
w/o Variance-guided Sampling 68.13 72.75 70.44 方差引导采样提供更有效的 reasoner 学习信号

关键发现

  • ARTIST 平均准确率比每个数据集上的最强 baseline 提高 6.46 个百分点,说明动态片段选择不是只带来可解释性,也实实在在提升答案质量。
  • RL 相比 SFT 继续提升平均准确率,从 63.61% 到 69.26%。这说明 segment selection 不能只靠示范学习,后训练中的可靠性 reward 能进一步优化“该看哪里”。
  • 数据利用分析显示,更多覆盖不一定更好。Sleep-QA 和 TRQA 在使用约 30-50% 信号时准确率最高;接近全序列使用反而表现更差。
  • 推理成本确实增加:例如 TRQA 上 ARTIST 每例 8 runs 约 1.68 分钟,高于 OpenTSLM/ITFormer 的 1.26/1.29 分钟;但长序列扩展到 12K 时耗时只从 1.880 增至 1.910 分钟,说明成本主要由选中片段和交互轮数决定。

亮点与洞察

  • 这篇论文把时间序列推理从“怎么编码整条序列”转向“推理过程中该看哪一段”,问题定义很到位。很多真实问题确实需要先粗看、再局部放大、最后比较多个片段。
  • Reliability reward 很关键。它把 controller 的目标从“让 reasoner 这次答对”改成“选择足以稳定答对的证据”,更接近信息检索/工具使用的本质。
  • ARTIST 的 segment list 天然提供证据轨迹,便于审查答案依据。这对医疗、金融、环境监测等需要可解释定位的时间序列任务特别重要。

局限与展望

  • 方法推理成本高于单 pass baseline,因为每个问题需要多轮 controller-reasoner 调用。虽然长序列扩展成本增长不大,但短序列或实时场景仍需考虑延迟。
  • 主实验聚焦 univariate time series。多变量、异步采样、缺失值和跨变量因果关系会让 segment selection 更复杂。
  • 片段选择是否总是可解释仍需谨慎。controller 选择的片段能提供证据线索,但不等价于严格因果解释。
  • Sleep-QA 上 tokenized ARTIST 明显落后于 TimeMaster+RL,而 VLM backbone 版本能追上,说明输入模态和预训练先验仍是强影响因素。

相关工作与启发

  • vs ChatTS / OpenTSLM / ITFormer: 这些方法重点是把时间序列编码给 LLM;ARTIST 重点是推理时动态选取片段,避免固定全局表示。
  • vs VL-Time / TimeMaster: 视觉化方法利用图像先验处理时间序列;ARTIST 不依赖整图一次性理解,而是工具式选择片段。
  • vs Dynamic Visual Search: 图像搜索通常有空间区域和显式目标,时间序列片段的意义依赖相对基线和前后比较,因此更需要多轮上下文感知选择。
  • vs 普通 self-play RL: 许多 self-play 方法用 proposer/solver 的即时目标;ARTIST 的 controller 是长期片段策略,需要 trajectory-level objective。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把时间序列推理和 adaptive segment selection 结合得很自然,问题设定有拓展性。
  • 实验充分度: ⭐⭐⭐⭐☆ 覆盖 6 个 benchmark 和多类 baseline,但多变量场景仍缺失。
  • 写作质量: ⭐⭐⭐⭐☆ 方法框架清楚,附录实验较多,主线需要读者跟住 controller/reasoner 的 credit assignment。
  • 价值: ⭐⭐⭐⭐⭐ 对长时间序列问答、医学监测和可解释 temporal reasoning 都有直接启发。