TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=DewXWSvQPH
代码: https://github.com/magwiazda/TimeSeriesExamAgent
领域: 时间序列 / 评测基准 / LLM推理 / Agent
关键词: 时间序列推理、自动出题、多智能体、LLM-as-Judge、领域基准

一句话总结¶

本文提出一套"可扩展造题"方法：先用人工模板 + 合成时间序列搭出域无关的 TimeSeriesExam 选择题基准，再用多智能体框架 TimeSeriesExamAgent 把这套思路推广到任意真实数据集——让生成器 LLM 写"出题模板"（Python 函数）、再经三级验证过滤，最终自动生成与人工基准多样性相当的领域专属推理题；实验发现即便最强 VLM 在这些题上平均准确率也只有 51.5%。

研究背景与动机¶

领域现状：LLM/VLM 已经被广泛用于时间序列的预测、异常检测、分类等任务，并取得不错的成绩。于是一个根本问题浮出水面——这些模型到底是真的"理解"了时间序列背后的抽象概念（趋势、信噪、因果），还是只是靠领域捷径在蒙？为回答这个问题，社区陆续提出了一批时间序列推理评测基准。

现有痛点：现有基准几乎都是人工策划的，存在三个老毛病：(1) 构造昂贵、难以扩展；(2) 只覆盖很窄的领域或单一技能（如 ECG-QA、ECG-Expert-QA 只管心电图，EngineMT-QA 只管工业场景）；(3) 想给自己的新数据集造一套评测，需要领域专家逐题标注，而专家根本没时间。这让"想全面评测自己模型"的研究者陷入无米之炊。

核心矛盾：自动出题（用 LLM 直接生成问答对）看似是扩展性的解药，但质量与多样性无法保证——LLM 生成的题往往需要大量人工返修，反而抵消了自动化的好处；而且大多数现成的 agent 出题框架并非为时间序列设计，难以生成"条件于数值数据"的题目。可扩展和高质量/领域贴合之间存在矛盾。

本文目标：把问题拆成两步——先证明"模板化造题"在受控合成数据上可行（域无关、可控），再把这套范式自动推广到真实领域数据集，且只需专家提供极少输入。

切入角度：作者观察到，模板把"问题结构"和"具体实例"解耦了——只要有一小批设计良好的模板，就能通过变参数、换上下文自动批量生成多样题目。于是把"专家直接出题"这件难事，转化成"让 LLM 出模板、再机器化验证模板"，把人的工作量压到最低。

核心 idea：用"生成模板 + 三级验证"代替"直接生成样本 + 人工返修"——让生成器 LLM 写出可参数化采样的出题函数，再通过结构检查、内容判官、能力对齐过滤三道关卡筛掉坏模板，从而在任意数据集上规模化造出可靠的时间序列推理题。

方法详解¶

整体框架¶

全文有两个递进的产物。第一个是 TimeSeriesExam：一个人工策划、配置化的合成选择题基准，作为"概念验证"，用来证明模板化造题在受控环境下确实能批量生成多样、可控、能区分模型能力的题目，同时暴露出"LLM 在抽象时间序列推理上仍然很弱"这一现象。第二个是 TimeSeriesExamAgent：一个多智能体框架，把模板化范式从合成数据推广到真实领域数据集，由 Generation Agent 和 Verification Agent 协同迭代——生成器写出题模板，验证器三级把关，被拒模板带着反馈回炉，直到产出或被丢弃。

TimeSeriesExam 这一侧的机制是：用一个合成时间序列生成器，从基础模式池（周期/非周期/随机过程）里采样若干分量，用加法/乘法/序列三种组合方式拼成具有已知属性的时间序列；每道题对应一个模板（含问题、选项、ICL 示例、可选提示与术语定义），每个选项都挂一个"假设该选项为真"的合成生成器，从而批量产出"随机但答案精确"的题；再用 Item Response Theory (IRT) 迭代优化题目参数，最大化对候选模型的区分度。

TimeSeriesExamAgent 这一侧是一条"生成 → 验证 → 反馈回炉"的循环管线，框架如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：数据集类 D<br/>+ 任务描述 T"] --> B["模板化合成基准<br/>TimeSeriesExam<br/>（提供造题范式）"]
    B --> C["生成模板而非样本<br/>Generator LLM 写出题函数"]
    C --> D["三级渐进验证<br/>① 结构检查"]
    D -->|可执行| E["② 内容判官<br/>LLM-as-Judge"]
    D -->|执行失败| C
    E -->|相关/无歧义| F["③ 能力对齐过滤<br/>弱模型胜则丢弃"]
    E -->|不合格| C
    F -->|区分度合格| G["输出：领域专属<br/>推理题库（3000+）"]
    F -->|过简/噪声| C

关键设计¶

1. 模板化合成基准 TimeSeriesExam：把"答案精确"焊死在生成过程里

直接让 LLM 出时间序列推理题的最大风险是"题与答不自洽"——生成的曲线未必真有题目声称的属性。本文用一套合成时间序列组合模型从根上解决这点：基础模式分三类——非周期模式（线性、指数，用于加趋势）、周期模式（正弦、锯齿、方波，用于加周期）、随机过程（AR、MA 等，用于刻画自然时变）；再用三种组合算子拼装——加法（叠趋势+季节）、乘法（用趋势放大季节）、序列拼接（模拟相位/regime 切换），最后按模板需要注入白噪声/红噪声或异常（翻转、变速、截断等传感器失效）。

关键巧思在于每个选项都绑定一个"假设该选项为真"的生成器：例如题问"该序列是否平稳"，选项 (A) Yes 就挂一个随机平稳序列生成器，(B) No 挂一个非平稳生成器。这样"正确答案"和"被生成的数据"天然一致，可以规模化产出随机但答案精确的题。基准覆盖五大类推理——模式识别、噪声理解、相似性比较、异常检测、因果（Granger 因果），每类再细分子类（平稳性、regime 个数、信噪比、shape/分布比较等），共 100+ 个与时序专家共同校验的模板。生成后再用 IRT 做多轮精修，把题目参数优化到能最大化区分候选 LLM 的能力——这一步把"模板化能造可控题"和"题目有区分度"两件事都坐实了。

2. 生成模板而非样本：让 Agent 输出"出题函数"以获得可扩展性与抗错性

把 TimeSeriesExam 推广到真实数据集时，最自然的想法是让 LLM 直接对着数据出问答对，但这既不可扩展、又容易出人为错误。本文受 TimeSeriesExam 启发，让 Generation Agent 生成模板而不是样本——具体是让生成器 LLM 输出一个 Python 函数 question(num_samples) -> List[QAPair]，函数内部既定义问题与选项格式，又封装"在数据集里挑哪些记录、怎么算答案"的逻辑（通过用户提供的 Dataset Handler 的 getDataframe() / query(id) 等接口取数）。

这样设计的好处是：一个模板能参数化采样出任意数量实例（实验里每模板采 4–5 个），把"出一道题"的成本摊薄成"写一次逻辑"；而且生成器以数据集结构 + 领域概念为条件产出多样模板，覆盖面比逐题硬写更广。输入侧用户只需给两样东西——带最少加载代码的数据集类 D，和一段自然语言任务描述 T（可含出题指引、数据集背景等），专家投入被压到最低。

3. 三级渐进验证：用结构、内容、能力三道关卡过滤坏模板

LLM 生成经常产出错误或不相关的输出，所以 Verification Agent 设计了一条多级过滤链，任一级不过就带反馈回炉重生成；迭代有最大次数上限，超限则永久丢弃该模板，避免反复失败把上下文和成本撑爆。三级分别是：

① 结构检查（Structure check）：先验证生成的模板能否成功执行（语法、输出格式），把"技术性失败"和"内容性失败"隔开，让后续判官只面对可运行的候选。② 内容验证（Content verification）：用 LLM-as-a-judge 评估模板是否合格——问题是否相关、是否有歧义、是否真的需要看时间序列才能答。为缓解单模型偏置，本文借鉴 G-Eval（给概率化、可解释的打分）和 panel-based 评测（多模型组陪审团聚合，降低 intra-model bias）。③ 能力对齐过滤（Capability-Aligned Filtering）：把候选模板发给一组能力高低不同的"考生 LLM"做题，依据教育学的专家逆转效应（expertise reversal effect）判断——如果弱模型平均准确率反而高于强模型，说明这题多半是有缺陷/有噪声而非真有区分度，永久丢弃；如果准确率随模型能力单调上升、或所有模型都很差（可能确有难度），则保留。这一步把 TimeSeriesExam 里的 IRT 思路下沉到了单模板粒度。

一个完整示例¶

以给 PTB-XL 心电图数据集造题为例：用户提供 PTB-XL 的数据集类（实现 query(id) 取第 i 条记录）和一句任务描述"生成评估心电推理的题"。Generator LLM 产出一个模板函数，比如问"该记录里存在哪种房室传导异常？(A)…(B)…(C)…(D)…"，函数内部规定"从数据集里挑符合条件的 ECG 记录、按标签算正确选项"。模板先过①结构检查——能否跑通、输出是否是合法 QAPair 列表；通过后进②内容判官——这题是否需要真看波形、选项是否有歧义；最后进③能力对齐过滤——让 gpt-4o、GPT-5 等强弱不一的模型试做，若发现弱模型反而答得更准则判定该模板有问题丢弃。通过三关的模板被采样 4–5 个实例并入题库，整个过程一道合格模板的 API 成本约 $0.09，最终在五个真实数据集上攒出 3000+ 道题（PTB-XL 151、MIT-BIH 197、MIMIC-IV W 205、YFinance 209、WeatherBench2 95）。

实验关键数据¶

主实验：SOTA 模型在自动生成的题上集体翻车¶

在五个真实数据集（医疗 MIT-BIH / PTB-XL / MIMIC-IV Waveform、金融 YFinance、气象 WeatherBench2）上测六个 VLM，随机猜测基线为 0.25：

模型	MIT-BIH	PTB-XL	MIMIC-IV W	YFinance	WeatherBench2	平均
random guess	0.25	0.25	0.25	0.25	0.25	0.25
gpt-4o	0.416	0.424	0.385	0.586	0.389	0.440
o3-mini	0.442	0.477	0.356	0.555	0.379	0.442
Qwen2.5-VL-Instruct	0.411	0.490	0.439	0.572	0.368	0.456
Gemma-3-27b-it	0.497	0.517	0.370	0.534	0.232	0.430
GPT-5	0.533	0.450	0.424	0.617	0.547	0.515
Gemini-2.5-Pro	0.614	0.457	0.400	0.624	0.453	0.510

即便最强的 GPT-5 平均也只有 51.5%，所有模型平均准确率均低于 55%。GPT-5 在气象题上表现好、但在医疗题上明显更弱，说明通用推理能力未必能跨域迁移，尤其当任务需要领域专长和对生理信号的细粒度解读时。同时 GPT-5 在所有类别上都严格优于 GPT-4o，说明该基准能有效区分同家族模型的能力差异。

多样性与质量评测¶

多样性（随机抽 50 题算两两嵌入距离 / 归一化 Levenshtein 距离，越大越多样）：

基准	嵌入距离	归一化 Levenshtein
ECG-QA（人工）	0.207 ± 0.079	0.519 ± 0.157
TimeSeriesExamAgent（本文）	0.301 ± 0.070	0.542 ± 0.039

质量（G-Eval 陪审团给 1–10 分，四维度）：

域	基准	专属性	无歧义	领域相关	可答性
金融	TimeSeriesExamAgent	8.29	7.24	8.89	8.57
医疗	ECG-QA	5.60	5.77	8.17	8.47
医疗	TimeSeriesExamAgent	8.43	8.40	9.00	9.10

本文自动生成的题在多样性上与人工 ECG-QA 相当甚至更高，质量四维度全面超过 ECG-QA（尤其专属性、可答性）。

微调迁移实验¶

用 TimeSeriesExamAgent 在 PTB-XL 上生成 2000 条训练样本微调 Qwen2.5-VL-3B-Instruct，在 ECG-QA 的 MIMIC-IV QA 测试集（12000 题，严格隔离数据来源）上测：

方法	General	Parsable
随机作答	34.9%	34.9%
Base（未微调）	21.8%	34.6%
Fine-tuned-confounded（用金融/气象题训）	39.7%	42.3%
Fine-tuned（用 ECG 题训）	47.0%	49.7%

用本文生成的同域 ECG 题微调后，准确率从 21.8% 升到 47.0%；而用其他域题微调（confounded，隔离掉"学到结构"的混淆因素）只到 39.7%，说明提升不只是学会答题格式，而是确实学到了可迁移的推理技能。

关键发现¶

迭代精修很高效：多数被接受的模板在 1–2 轮验证内通过；失败模板早丢，不会陷入不稳定的反馈死循环；一道合格模板约 $0.09。
两类主要失败模式：感知（输入分辨率 DPI、文本 vs 视觉模态的选择会影响表现，最佳输入方式因题而异）和组合推理（模型不是栽在简单识别，而是栽在需要多步推理的题上）。
失败模式是系统性而非随机的，因而可诊断、可纠正。

亮点与洞察¶

"选项绑定生成器"是保证答案精确的核心 trick：把"正确答案"直接编码进数据生成过程，让合成题天然自洽，避免了 LLM 直接出题"题答不一致"的通病——这个思路可迁移到任何需要可控合成数据的评测构造。
生成模板而非样本：把"出 N 道题"摊薄成"写一个可参数化采样的函数"，既省成本又抗人为错误，是把出题任务规模化的关键抽象。
用"专家逆转效应"反向筛题很巧妙：以"弱模型是否反超强模型"作为模板有缺陷的信号，把心理测量学/教育学的判别思想直接用作质量过滤器，比单纯靠 LLM 判官更稳。
把 IRT 从 TimeSeriesExam 的全局精修下沉到 TimeSeriesExamAgent 的单模板能力对齐过滤，体现了"同一套区分度思想在两个尺度复用"的设计连贯性。

局限与展望¶

TimeSeriesExam 仅限合成数据上的域无关技能，无法直接评估真实领域的专门推理；这正是 Agent 版本要补的，但合成与真实之间仍有 gap。
验证高度依赖 LLM-as-a-judge，尽管用了 G-Eval + 多模型陪审团缓解偏置，判官本身的盲区/偏好仍可能漏放或误杀模板。
能力对齐过滤的判据"弱模型反超即丢弃"是启发式的——对"所有模型都差"的题选择保留，可能把真正坏题和真正难题混在一起，需要更细的区分。
迁移实验只在 ECG 单域、单一小模型（Qwen2.5-VL-3B）上验证，跨域、跨规模的可迁移性还需更多证据。
改进方向：作者指出在领域专属基准上要做好，可能需要带显式工具调用和结构化推理的多模态 agent 流水线，而非单纯堆大模型。

评分¶

新颖性: ⭐⭐⭐⭐ 把"模板化合成 + 生成模板而非样本 + 三级能力对齐验证"组合成时序自动造题管线，思路清晰且对症。
实验充分度: ⭐⭐⭐⭐ 覆盖 5 数据集 6 模型，并补了多样性、质量、微调迁移三类佐证，但迁移实验规模偏小。
写作质量: ⭐⭐⭐⭐ 两段式叙事（PoC → Agent）逻辑顺，图示清楚；部分细节散落附录。
价值: ⭐⭐⭐⭐ 给"想给自己数据集造时序推理评测"的研究者提供了低专家成本的可扩展工具，且揭示了当前 VLM 时序推理的真实短板。