CTBench: Cryptocurrency Time Series Generation Benchmark¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=RzT2sombPD
代码: https://github.com/MilleXi/CTBench/
领域: 时序生成 / 量化金融 / Benchmark
关键词: 加密货币、时序生成、双任务评测、统计套利、金融指标

一句话总结¶

CTBench 是第一个专门面向加密货币市场的时序生成（TSG）基准，用 452 个币种的小时级数据、13 个金融指标和"预测效用 + 统计套利"双任务评测框架，系统横评了 5 大家族 8 个 SOTA 生成模型，揭示出"统计保真度高 ≠ 真能赚钱"这一核心权衡，并给出按市场行情选模型的实操指南。

研究背景与动机¶

领域现状：时序生成（Time Series Generation, TSG）已经是数据增强、异常检测、隐私保护、域适应等下游任务的基础工具，核心目标是合成出能保留真实数据时间依赖和结构特征的序列。但现有 TSG 基准和方法绝大多数针对医疗、移动轨迹、传感器这类非金融领域；即使做金融，也主要盯着股票数据，且常常带着"规则交易时段、宏观信号稳定、整体平稳"这类传统市场假设。

现有痛点：加密货币是一类极端的金融时序——24/7 不间断交易、没有内在估值锚、受投机和碎片化流动性驱动而剧烈波动、行情切换（牛市/崩盘/盘整）极快。这些性质直接违反了 FinTSB、FinTSBridge 等近期金融基准的内置假设。作者把现有工作的不足归纳为三点：(1) 领域泛化窄——只覆盖股指（SPX、CSI300）这类低波动、限时交易的传统资产，几乎不支持 crypto；(2) 任务范围窄——多数只做分类和预测，忽视生成本身以及套利、市场中性这类 crypto 特有的交易任务；(3) 缺 crypto 专用评测——TSGBench 只看统计保真，FinTSB 的金融指标有限，都没考虑连续交易、重尾风险和可执行的信号质量。

核心矛盾：一个生成模型在统计意义上"重建误差低/分布像"，并不等于它生成的数据拿去交易能赚钱。统计保真度（fidelity）和交易盈利能力（tradability）之间存在系统性的权衡，而现有基准只测前者、不测后者，因此无法指导真实部署。

本文目标：构建一个能同时衡量"合成数据的预测保真"和"合成数据的可交易性"的 crypto 专属基准，把生成质量和金融效用绑在一起评。

切入角度：作者的关键观察是——要检验合成数据有没有用，最直接的办法不是看它分布像不像，而是把它真的喂进两条交易管线走一遍：一条用合成数据训练预测器再去真实市场交易，一条用模型重建出残差去做均值回归套利。哪个模型生成的数据能让下游策略真赚钱，才算真有用。

核心 idea：用一个"双任务（预测效用 + 统计套利）+ 13 个金融指标"的评测框架，把 TSG 模型放进真实交易场景里横评，用经济收益而非重建误差来衡量生成质量。

方法详解¶

整体框架¶

CTBench 不是一个新的生成模型，而是一条把"加密货币数据 → TSG 模型 → 两类交易任务 → 金融指标"串起来的评测流水线。它统一了五个模块：(1) crypto 专属数据集（452 个币种的小时级 OHLC + 量化因子特征）；(2) 双任务评测（预测效用 Predictive Utility 与统计套利 Statistical Arbitrage）；(3) 交易策略（横截面动量、长头部分位、按比例配权三种）；(4) 金融指标套件（13 个指标分 6 大类）；(5) TSG 模型库（GAN/VAE/扩散/流/混合五家族 8 个模型 + 经典基线）。

整条管线采用滚动窗口（walk-forward）回测协议来贴近真实交易：给定训练窗口大小 \(w\) 和测试步长 \(s\)，切分偏移 \(\tau \in \{w, w+s, \dots\}\)，每个 \(\tau\) 切出训练段 \(R^{(\tau)}_{\text{train}}=[r_{\tau-w+1},\dots,r_\tau]\) 和测试段 \(R^{(\tau)}_{\text{test}}=[r_{\tau+1},\dots,r_{\tau+s}]\)，每个窗口前都重训模型。每个 TSG 模型 \(g\) 在两种模式下被使用：生成模式从高斯噪声采样合成序列 \(R_{\text{gen}}=g(z),\ z\sim\mathcal{N}(0,I)\)；重建模式把真实序列重建回去 \(\hat{R}=g(R)\)。这两种模式恰好对应下面两个任务。组合的价值演化为 \(V_t=V_{t-1}\times(\eta_t\cdot r_t)\)，其中 \(\eta_t\) 是每小时在各资产上的配权向量。

关键设计¶

1. Crypto 专属数据集：把"真·加密货币市场"做成可直接评测的标准输入

针对"现有基准只有股指、没有 crypto"的痛点，CTBench 从 Binance 抓取所有以 USDT 计价的现货交易对的历史小时级数据，时间跨度 2020 年 1 月到 2024 年 12 月，刻意覆盖牛市、崩盘、盘整等多种行情。经过剔除缺失记录、只保留 USDT 对的标准化清洗，最终保留 452 个币种。每个资产在每个小时点用四个标准字段表示 \(x_{i,t}=[O_{i,t},H_{i,t},L_{i,t},C_{i,t}]\)（开高低收），堆叠成多资产数组 \(D\in\mathbb{R}^{n\times(l+1)\times 4}\)，并以收盘价定义小时对数收益 \(r_{i,t}=\log\frac{C_{i,t}}{C_{i,t-1}}\)，得到收益矩阵 \(R\in\mathbb{R}^{n\times l}\)。在此之上还抽取了量化交易里常用的 \(d\) 维特征——Alpha101 因子、布林带、RSI、移动平均等，用同一套特征管线作用于真实数据和合成数据 \(\Phi(R)\in\mathbb{R}^{n\times l\times d}\)，保证两边可比。这个设计的价值在于：它把高波动、24/7、强横截面分散的真实 crypto 市场，整理成了"分析就绪"的标准化矩阵，让任何 TSG 模型都能在同一份数据上被公平评测。

2. 双任务评测框架：用两条真实交易管线把"生成质量"翻译成"经济收益"

这是 CTBench 最核心的创新，直接回应"统计保真 ≠ 能赚钱"的矛盾。它设计了两个互补的任务，分别考察合成数据保留"预测信号"和"可交易结构"的能力。

预测效用（Predictive Utility）走的是生成模式：TSG 模型从噪声生成合成收益 \(R_{\text{gen}}=g(z)\)，抽取特征 \(\Phi(R_{\text{gen}})\) 训练一个预测器 \(f\)（默认用 XGBoost），然后把训练好的 \(f\) 部署到真实测试数据 \(R_{\text{test}}\) 上产生信号，构建一个美元中性（dollar-neutral）的多空组合并按小时再平衡。它检验的是：合成数据训练出来的预测器，能不能在真实市场上产生有经济价值的信号——即合成数据是否保留了可迁移的预测结构。

统计套利（Statistical Arbitrage）走的是重建模式：模型 \(g\) 在真实收益 \(R_{\text{train}}\) 上训练并重建出 \(\hat{R}_{\text{train}}\)，残差 \(\rho_{i,t}=r_{i,t}-\hat{r}_{i,t}\) 被假设服从 Ornstein–Uhlenbeck（OU）均值回归过程，逐资产估计参数 \((\mu_i,\theta_i,\sigma_i)\)。在测试数据上，新残差 \(\epsilon_{i,t}\) 被映射成标准化的 s-score：

\[s_{i,t}=\frac{\epsilon_{i,t}-\mu_i}{\sigma_i/\sqrt{2\theta_i}}\]

再用阈值（\(\gamma=2\)）触发交易、归一化权重，按小时再平衡。它检验的是：模型能不能重建出市场结构、并从残差里分离出可交易的均值回归（市场中性）alpha。两个任务一个测"生成"、一个测"重建"，合起来就把统计保真度和实际交易效用之间的桥搭起来了——一个模型可能在某一边强、另一边弱，单看任何一边都会误判它的真实价值。

3. 金融指标套件：用 13 个 practitioner 关心的指标，多维度量化"保真—盈利—风险—效率"

光看 MSE 这类统计相似度远不足以判断金融用途，所以 CTBench 定义了 13 个核心指标分 6 大类，每一类回答一个交易者真正关心的问题：误差类（MSE 强调波动失配、MAE 对离群更稳健）问"合成收益数值上像不像真的"；排序类（信息系数 IC 测排序相关、信息比率 IR 测其稳定性）问"有没有保住资产间的相对排序"——这对横截面策略至关重要；交易表现类（复合年化增长率 CAGR、夏普比率 SR）问"信号能不能真的赚钱"；风险评估类（最大回撤 MDD、95% 置信下的 VaR、尾部风险 ES）问"会不会爆仓、能不能扛住肥尾"；效率类（训练时间、推理时间）问"能不能支撑实时部署"；可视化类（\(10{,}000\) 初始资金的模拟净值曲线、跨行情的排序图）问"结果在语境上真不真实"。这套指标的意义在于：它逼着评测同时看保真、效用、风险和实用性四个面，而不是用单一统计量给模型排座次——这正是揭示"扩散模型预测最准但交易最差"这类反直觉结论的前提。

4. 策略无关 + 多家族模型库：保证横评结论不被单一策略或单一架构带偏

为了让结论稳健，CTBench 在两个维度上都做了覆盖。交易策略上它是策略无关（strategy-agnostic）的，统一在三种 crypto 常用范式下计算盈利和风险指标：横截面动量（CSM，做多预测前 10% 分位、做空后 10%）、长头部分位（LOTQ，等权买入预测前 20%）、按比例配权（PW，按预测收益比例配资）。这样设计是为了压力测试模型捕捉的是真实市场结构、还是只过拟合了某一种策略。模型库上它横评了 5 大家族 8 个 SOTA 模型——GAN 类（Quant-GAN、COSCI-GAN，因 GAN 不原生支持重建故只用于预测任务）、VAE 类（TimeVAE、KoVAE）、扩散类（Diffusion-TS、FIDE）、流模型（Fourier-Flow）、混合类（LS4），并加入量化金融常用的经典基线 ARMA-GARCH、Bootstrap 和统计套利参考基线 PCA。两个维度的交叉覆盖，让"哪个模型在什么行情下好"的结论建立在足够宽的对照面上，而不是个案。

一个完整示例：一个 TSG 模型在两条管线里如何被打分¶

以 Diffusion-TS 为例走一遍。在预测效用任务里，它从噪声生成一批 2021 年牛市的合成小时收益，CTBench 抽特征、训出 XGBoost 预测器、再拿到真实测试月按小时跑多空组合——结果它的预测误差（MSE）是所有模型里最低的，但 CAGR/夏普却很差，说明"数值像真的"没能转化成"信号能赚钱"。同一个模型在统计套利任务里重建真实收益、拟合 OU 残差、按 s-score 交易，表现落在中游、风险较稳。把这两条管线、四年行情、三种策略、含/不含 0.03% 手续费都跑完，CTBench 才给出"它预测保真强、交易弱"的完整画像——这正是单一统计指标永远看不出来的。

实验关键数据¶

主实验¶

实验在 452 个 USDT 交易对上用 walk-forward 协议跑：每个周期训练 500 天、测试 30 天（预测效用）或 15 天（统计套利），每个窗口前重训。默认零手续费以隔离生成器质量；统计套利任务额外报告 0.03% 手续费（典型交易所成本）下的结果。下表是两任务下的代表性发现（指标方向：CAGR/夏普越高越好，MDD/VaR/ES 越低越好）：

任务	表现突出的模型	关键观察
预测效用·预测误差	Diffusion-TS	MSE/MAE 最低，但几乎不能转化为交易收益
预测效用·交易收益	TimeVAE、COSCI-GAN	保留结构性噪声 → 信号更可执行；TimeVAE 在稳态/均值回归行情、COSCI-GAN 在波动/趋势行情各擅胜场
预测效用·全天候	Fourier-Flow	频率保持结构让它各类指标中上游稳定，适合风险管理型部署
统计套利·收益	KoVAE、LS4	CAGR/夏普突出，但风险维度（回撤、尾部）塌陷，含费后 KoVAE 掉多个夏普位次
统计套利·风控	FIDE	VaR/ES/MDD 最低，但收益接近零或为负（过度正则化压掉了可交易方差）
经典基线	ARMA-GARCH	2021-2023 CAGR 居前，但尾部风险（VaR/ES）始终最差

核心结论：没有任何模型在所有指标上通吃（Figure 1 的雷达排序图直观显示这点），保真、可交易性、稳健性三者构成系统性权衡。

消融实验¶

预测效用任务里"用哪个预测器评分"是关键变量，作者对比了 5 种预测器，验证 TSG 模型的排序是否稳定：

预测器	预测误差(MSE/MAE)	排序保真(IC/IR)	结论
XGBoost（默认）	低	高	误差低 + 排序相关强，对 TSG 模型差异最敏感，最贴合交易消费方式
Linear Regression	高	近零	预测力弱、排序相关几乎为零
Random Forest	较低	差	误差降了但横截面排序能力差
MLP	高	不稳	灵活但跨行情不稳定
Transformer	中	不稳	能捕捉长程模式但产生不了稳定排序

消融说明 XGBoost 提供了最有区分度、最贴近交易的评测信号，因此被定为默认评测器。

关键发现¶

低重建/预测误差不保证交易成功：过度正则化（FIDE）会压掉带 alpha 的方差，而保留结构性噪声的模型（TimeVAE、COSCI-GAN）反而产生更可执行的信号——这是全文最反直觉、最有价值的洞察。
手续费会压缩排名差距：高换手模型（KoVAE）含费后掉多个夏普位次，而残差更平滑、低换手的模型（TimeVAE、Diffusion-TS）排名几乎不变，说明平滑残差天然有更优的费后表现。
行情依赖性强：KoVAE 在波动期突出、平静期落后；LS4 在 2023 盘整大涨却在 2022 高回撤——模型选择必须结合行情特征和运营约束。
效率分层明显：VAE 类最快（TimeVAE 训练 < 1 分钟、推理亚秒级），适合实时；扩散类最慢（迭代去噪），更适合离线批量生成。

亮点与洞察¶

把"生成质量"重新定义为"经济收益"：最巧妙的地方是不再用分布距离评 TSG，而是把合成数据真的送进两条交易管线，用 CAGR/夏普/回撤说话。这个评测哲学可以迁移到任何"合成数据有没有下游价值"的场景（如合成医疗/传感数据训练分类器再测真实任务）。
双任务设计同时覆盖"生成"和"重建"两种用法：预测效用用生成模式、统计套利用重建模式，恰好对应 TSG 模型的两类真实部署方式，避免了只测一边导致的片面结论。
"低误差 ≠ 高收益"的实证：Diffusion-TS 预测最准却交易最差，这个反例几乎是对"重建误差驱动的 TSG 评测范式"的直接证伪，提醒整个领域换评测视角。
可落地的选型表：论文按"趋势市/均值回归市/费敏感/风险偏好/部署效率"五种场景给出推荐模型表，把横评结果直接转成 practitioner 能用的决策表，而非停在排行榜。

局限与展望¶

作者承认的局限：当前预测效用任务只用了 XGBoost 等有限预测器，统计套利只用 OU 这一种残差建模；未来计划引入更先进的预测器、更丰富的残差过程、更多币种、纳入交易量等外生信号，并横评更复杂的生成架构。
数据源单一：全部数据来自 Binance 现货 USDT 对，可能带交易所特定的微结构偏差；跨交易所、含衍生品/永续合约的泛化性未验证。
回测假设理想化：默认零手续费、只额外测 0.03% 一档费率，未充分建模滑点、流动性冲击、做空成本和极端行情下的执行失败；论文自己也声明不构成投资建议、不保证极端事件下的稳健性。
改进思路：可加入资金费率/滑点的更真实成交模型，并把"行情诊断 → 模型选择"自动化成一个 meta 选择器，而非依赖人工读表。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 crypto TSG 基准 + "用交易收益评生成质量"的双任务框架，视角新但属基准类工作。
实验充分度: ⭐⭐⭐⭐⭐ 452 币种、四年四种行情、5 家族 8 模型 + 3 经典基线、3 策略、含/不含费、5 预测器消融，覆盖极全。
写作质量: ⭐⭐⭐⭐ 结构清晰、指标定义到位、选型表实用；图多但部分依赖附录。
价值: ⭐⭐⭐⭐⭐ 开源数据 + 代码 + 决策表，对量化从业者和 TSG 研究者都有直接可用的指导价值。