CTBench: Cryptocurrency Time Series Generation Benchmark¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=RzT2sombPD
代码: https://github.com/MilleXi/CTBench/
领域: 时序生成 / 量化金融 / Benchmark
关键词: 加密货币、时序生成、双任务评测、统计套利、金融指标
一句话总结¶
CTBench 是第一个专门面向加密货币市场的时序生成(TSG)基准,用 452 个币种的小时级数据、13 个金融指标和"预测效用 + 统计套利"双任务评测框架,系统横评了 5 大家族 8 个 SOTA 生成模型,揭示出"统计保真度高 ≠ 真能赚钱"这一核心权衡,并给出按市场行情选模型的实操指南。
研究背景与动机¶
领域现状:时序生成(Time Series Generation, TSG)已经是数据增强、异常检测、隐私保护、域适应等下游任务的基础工具,核心目标是合成出能保留真实数据时间依赖和结构特征的序列。但现有 TSG 基准和方法绝大多数针对医疗、移动轨迹、传感器这类非金融领域;即使做金融,也主要盯着股票数据,且常常带着"规则交易时段、宏观信号稳定、整体平稳"这类传统市场假设。
现有痛点:加密货币是一类极端的金融时序——24/7 不间断交易、没有内在估值锚、受投机和碎片化流动性驱动而剧烈波动、行情切换(牛市/崩盘/盘整)极快。这些性质直接违反了 FinTSB、FinTSBridge 等近期金融基准的内置假设。作者把现有工作的不足归纳为三点:(1) 领域泛化窄——只覆盖股指(SPX、CSI300)这类低波动、限时交易的传统资产,几乎不支持 crypto;(2) 任务范围窄——多数只做分类和预测,忽视生成本身以及套利、市场中性这类 crypto 特有的交易任务;(3) 缺 crypto 专用评测——TSGBench 只看统计保真,FinTSB 的金融指标有限,都没考虑连续交易、重尾风险和可执行的信号质量。
核心矛盾:一个生成模型在统计意义上"重建误差低/分布像",并不等于它生成的数据拿去交易能赚钱。统计保真度(fidelity)和交易盈利能力(tradability)之间存在系统性的权衡,而现有基准只测前者、不测后者,因此无法指导真实部署。
本文目标:构建一个能同时衡量"合成数据的预测保真"和"合成数据的可交易性"的 crypto 专属基准,把生成质量和金融效用绑在一起评。
切入角度:作者的关键观察是——要检验合成数据有没有用,最直接的办法不是看它分布像不像,而是把它真的喂进两条交易管线走一遍:一条用合成数据训练预测器再去真实市场交易,一条用模型重建出残差去做均值回归套利。哪个模型生成的数据能让下游策略真赚钱,才算真有用。
核心 idea:用一个"双任务(预测效用 + 统计套利)+ 13 个金融指标"的评测框架,把 TSG 模型放进真实交易场景里横评,用经济收益而非重建误差来衡量生成质量。
方法详解¶
整体框架¶
CTBench 不是一个新的生成模型,而是一条把"加密货币数据 → TSG 模型 → 两类交易任务 → 金融指标"串起来的评测流水线。它统一了五个模块:(1) crypto 专属数据集(452 个币种的小时级 OHLC + 量化因子特征);(2) 双任务评测(预测效用 Predictive Utility 与统计套利 Statistical Arbitrage);(3) 交易策略(横截面动量、长头部分位、按比例配权三种);(4) 金融指标套件(13 个指标分 6 大类);(5) TSG 模型库(GAN/VAE/扩散/流/混合 五家族 8 个模型 + 经典基线)。
整条管线采用滚动窗口(walk-forward)回测协议来贴近真实交易:给定训练窗口大小 \(w\) 和测试步长 \(s\),切分偏移 \(\tau \in \{w, w+s, \dots\}\),每个 \(\tau\) 切出训练段 \(R^{(\tau)}_{\text{train}}=[r_{\tau-w+1},\dots,r_\tau]\) 和测试段 \(R^{(\tau)}_{\text{test}}=[r_{\tau+1},\dots,r_{\tau+s}]\),每个窗口前都重训模型。每个 TSG 模型 \(g\) 在两种模式下被使用:生成模式从高斯噪声采样合成序列 \(R_{\text{gen}}=g(z),\ z\sim\mathcal{N}(0,I)\);重建模式把真实序列重建回去 \(\hat{R}=g(R)\)。这两种模式恰好对应下面两个任务。组合的价值演化为 \(V_t=V_{t-1}\times(\eta_t\cdot r_t)\),其中 \(\eta_t\) 是每小时在各资产上的配权向量。
关键设计¶
1. Crypto 专属数据集:把"真·加密货币市场"做成可直接评测的标准输入
针对"现有基准只有股指、没有 crypto"的痛点,CTBench 从 Binance 抓取所有以 USDT 计价的现货交易对的历史小时级数据,时间跨度 2020 年 1 月到 2024 年 12 月,刻意覆盖牛市、崩盘、盘整等多种行情。经过剔除缺失记录、只保留 USDT 对的标准化清洗,最终保留 452 个币种。每个资产在每个小时点用四个标准字段表示 \(x_{i,t}=[O_{i,t},H_{i,t},L_{i,t},C_{i,t}]\)(开高低收),堆叠成多资产数组 \(D\in\mathbb{R}^{n\times(l+1)\times 4}\),并以收盘价定义小时对数收益 \(r_{i,t}=\log\frac{C_{i,t}}{C_{i,t-1}}\),得到收益矩阵 \(R\in\mathbb{R}^{n\times l}\)。在此之上还抽取了量化交易里常用的 \(d\) 维特征——Alpha101 因子、布林带、RSI、移动平均等,用同一套特征管线作用于真实数据和合成数据 \(\Phi(R)\in\mathbb{R}^{n\times l\times d}\),保证两边可比。这个设计的价值在于:它把高波动、24/7、强横截面分散的真实 crypto 市场,整理成了"分析就绪"的标准化矩阵,让任何 TSG 模型都能在同一份数据上被公平评测。
2. 双任务评测框架:用两条真实交易管线把"生成质量"翻译成"经济收益"
这是 CTBench 最核心的创新,直接回应"统计保真 ≠ 能赚钱"的矛盾。它设计了两个互补的任务,分别考察合成数据保留"预测信号"和"可交易结构"的能力。
预测效用(Predictive Utility)走的是生成模式:TSG 模型从噪声生成合成收益 \(R_{\text{gen}}=g(z)\),抽取特征 \(\Phi(R_{\text{gen}})\) 训练一个预测器 \(f\)(默认用 XGBoost),然后把训练好的 \(f\) 部署到真实测试数据 \(R_{\text{test}}\) 上产生信号,构建一个美元中性(dollar-neutral)的多空组合并按小时再平衡。它检验的是:合成数据训练出来的预测器,能不能在真实市场上产生有经济价值的信号——即合成数据是否保留了可迁移的预测结构。
统计套利(Statistical Arbitrage)走的是重建模式:模型 \(g\) 在真实收益 \(R_{\text{train}}\) 上训练并重建出 \(\hat{R}_{\text{train}}\),残差 \(\rho_{i,t}=r_{i,t}-\hat{r}_{i,t}\) 被假设服从 Ornstein–Uhlenbeck(OU)均值回归过程,逐资产估计参数 \((\mu_i,\theta_i,\sigma_i)\)。在测试数据上,新残差 \(\epsilon_{i,t}\) 被映射成标准化的 s-score:
再用阈值(\(\gamma=2\))触发交易、归一化权重,按小时再平衡。它检验的是:模型能不能重建出市场结构、并从残差里分离出可交易的均值回归(市场中性)alpha。两个任务一个测"生成"、一个测"重建",合起来就把统计保真度和实际交易效用之间的桥搭起来了——一个模型可能在某一边强、另一边弱,单看任何一边都会误判它的真实价值。
3. 金融指标套件:用 13 个 practitioner 关心的指标,多维度量化"保真—盈利—风险—效率"
光看 MSE 这类统计相似度远不足以判断金融用途,所以 CTBench 定义了 13 个核心指标分 6 大类,每一类回答一个交易者真正关心的问题:误差类(MSE 强调波动失配、MAE 对离群更稳健)问"合成收益数值上像不像真的";排序类(信息系数 IC 测排序相关、信息比率 IR 测其稳定性)问"有没有保住资产间的相对排序"——这对横截面策略至关重要;交易表现类(复合年化增长率 CAGR、夏普比率 SR)问"信号能不能真的赚钱";风险评估类(最大回撤 MDD、95% 置信下的 VaR、尾部风险 ES)问"会不会爆仓、能不能扛住肥尾";效率类(训练时间、推理时间)问"能不能支撑实时部署";可视化类(\(10{,}000\) 初始资金的模拟净值曲线、跨行情的排序图)问"结果在语境上真不真实"。这套指标的意义在于:它逼着评测同时看保真、效用、风险和实用性四个面,而不是用单一统计量给模型排座次——这正是揭示"扩散模型预测最准但交易最差"这类反直觉结论的前提。
4. 策略无关 + 多家族模型库:保证横评结论不被单一策略或单一架构带偏
为了让结论稳健,CTBench 在两个维度上都做了覆盖。交易策略上它是策略无关(strategy-agnostic)的,统一在三种 crypto 常用范式下计算盈利和风险指标:横截面动量(CSM,做多预测前 10% 分位、做空后 10%)、长头部分位(LOTQ,等权买入预测前 20%)、按比例配权(PW,按预测收益比例配资)。这样设计是为了压力测试模型捕捉的是真实市场结构、还是只过拟合了某一种策略。模型库上它横评了 5 大家族 8 个 SOTA 模型——GAN 类(Quant-GAN、COSCI-GAN,因 GAN 不原生支持重建故只用于预测任务)、VAE 类(TimeVAE、KoVAE)、扩散类(Diffusion-TS、FIDE)、流模型(Fourier-Flow)、混合类(LS4),并加入量化金融常用的经典基线 ARMA-GARCH、Bootstrap 和统计套利参考基线 PCA。两个维度的交叉覆盖,让"哪个模型在什么行情下好"的结论建立在足够宽的对照面上,而不是个案。
一个完整示例:一个 TSG 模型在两条管线里如何被打分¶
以 Diffusion-TS 为例走一遍。在预测效用任务里,它从噪声生成一批 2021 年牛市的合成小时收益,CTBench 抽特征、训出 XGBoost 预测器、再拿到真实测试月按小时跑多空组合——结果它的预测误差(MSE)是所有模型里最低的,但 CAGR/夏普却很差,说明"数值像真的"没能转化成"信号能赚钱"。同一个模型在统计套利任务里重建真实收益、拟合 OU 残差、按 s-score 交易,表现落在中游、风险较稳。把这两条管线、四年行情、三种策略、含/不含 0.03% 手续费都跑完,CTBench 才给出"它预测保真强、交易弱"的完整画像——这正是单一统计指标永远看不出来的。
实验关键数据¶
主实验¶
实验在 452 个 USDT 交易对上用 walk-forward 协议跑:每个周期训练 500 天、测试 30 天(预测效用)或 15 天(统计套利),每个窗口前重训。默认零手续费以隔离生成器质量;统计套利任务额外报告 0.03% 手续费(典型交易所成本)下的结果。下表是两任务下的代表性发现(指标方向:CAGR/夏普越高越好,MDD/VaR/ES 越低越好):
| 任务 | 表现突出的模型 | 关键观察 |
|---|---|---|
| 预测效用·预测误差 | Diffusion-TS | MSE/MAE 最低,但几乎不能转化为交易收益 |
| 预测效用·交易收益 | TimeVAE、COSCI-GAN | 保留结构性噪声 → 信号更可执行;TimeVAE 在稳态/均值回归行情、COSCI-GAN 在波动/趋势行情各擅胜场 |
| 预测效用·全天候 | Fourier-Flow | 频率保持结构让它各类指标中上游稳定,适合风险管理型部署 |
| 统计套利·收益 | KoVAE、LS4 | CAGR/夏普突出,但风险维度(回撤、尾部)塌陷,含费后 KoVAE 掉多个夏普位次 |
| 统计套利·风控 | FIDE | VaR/ES/MDD 最低,但收益接近零或为负(过度正则化压掉了可交易方差) |
| 经典基线 | ARMA-GARCH | 2021-2023 CAGR 居前,但尾部风险(VaR/ES)始终最差 |
核心结论:没有任何模型在所有指标上通吃(Figure 1 的雷达排序图直观显示这点),保真、可交易性、稳健性三者构成系统性权衡。
消融实验¶
预测效用任务里"用哪个预测器评分"是关键变量,作者对比了 5 种预测器,验证 TSG 模型的排序是否稳定:
| 预测器 | 预测误差(MSE/MAE) | 排序保真(IC/IR) | 结论 |
|---|---|---|---|
| XGBoost(默认) | 低 | 高 | 误差低 + 排序相关强,对 TSG 模型差异最敏感,最贴合交易消费方式 |
| Linear Regression | 高 | 近零 | 预测力弱、排序相关几乎为零 |
| Random Forest | 较低 | 差 | 误差降了但横截面排序能力差 |
| MLP | 高 | 不稳 | 灵活但跨行情不稳定 |
| Transformer | 中 | 不稳 | 能捕捉长程模式但产生不了稳定排序 |
消融说明 XGBoost 提供了最有区分度、最贴近交易的评测信号,因此被定为默认评测器。
关键发现¶
- 低重建/预测误差不保证交易成功:过度正则化(FIDE)会压掉带 alpha 的方差,而保留结构性噪声的模型(TimeVAE、COSCI-GAN)反而产生更可执行的信号——这是全文最反直觉、最有价值的洞察。
- 手续费会压缩排名差距:高换手模型(KoVAE)含费后掉多个夏普位次,而残差更平滑、低换手的模型(TimeVAE、Diffusion-TS)排名几乎不变,说明平滑残差天然有更优的费后表现。
- 行情依赖性强:KoVAE 在波动期突出、平静期落后;LS4 在 2023 盘整大涨却在 2022 高回撤——模型选择必须结合行情特征和运营约束。
- 效率分层明显:VAE 类最快(TimeVAE 训练 < 1 分钟、推理亚秒级),适合实时;扩散类最慢(迭代去噪),更适合离线批量生成。
亮点与洞察¶
- 把"生成质量"重新定义为"经济收益":最巧妙的地方是不再用分布距离评 TSG,而是把合成数据真的送进两条交易管线,用 CAGR/夏普/回撤说话。这个评测哲学可以迁移到任何"合成数据有没有下游价值"的场景(如合成医疗/传感数据训练分类器再测真实任务)。
- 双任务设计同时覆盖"生成"和"重建"两种用法:预测效用用生成模式、统计套利用重建模式,恰好对应 TSG 模型的两类真实部署方式,避免了只测一边导致的片面结论。
- "低误差 ≠ 高收益"的实证:Diffusion-TS 预测最准却交易最差,这个反例几乎是对"重建误差驱动的 TSG 评测范式"的直接证伪,提醒整个领域换评测视角。
- 可落地的选型表:论文按"趋势市/均值回归市/费敏感/风险偏好/部署效率"五种场景给出推荐模型表,把横评结果直接转成 practitioner 能用的决策表,而非停在排行榜。
局限与展望¶
- 作者承认的局限:当前预测效用任务只用了 XGBoost 等有限预测器,统计套利只用 OU 这一种残差建模;未来计划引入更先进的预测器、更丰富的残差过程、更多币种、纳入交易量等外生信号,并横评更复杂的生成架构。
- 数据源单一:全部数据来自 Binance 现货 USDT 对,可能带交易所特定的微结构偏差;跨交易所、含衍生品/永续合约的泛化性未验证。
- 回测假设理想化:默认零手续费、只额外测 0.03% 一档费率,未充分建模滑点、流动性冲击、做空成本和极端行情下的执行失败;论文自己也声明不构成投资建议、不保证极端事件下的稳健性。
- 改进思路:可加入资金费率/滑点的更真实成交模型,并把"行情诊断 → 模型选择"自动化成一个 meta 选择器,而非依赖人工读表。
相关工作与启发¶
- vs TSGBench: TSGBench 聚焦统计保真度(分布相似性),CTBench 认为统计像不等于能交易,因此引入双任务和 13 个金融指标,把评测落到经济收益上——这是从"分布评测"到"效用评测"的范式转变。
- vs FinTSB / FinTSBridge: 这两个金融基准已推进了评测实践,但仍建立在传统市场假设(规则时段、稳定宏观、整体平稳)上,且金融指标有限;CTBench 针对 crypto 的 24/7、重尾、强横截面分散重做了数据与指标,并补上了套利这类 crypto 特有任务。
- vs 传统金融 TSG(Quant-GAN、TimeGAN 等): 前作主要在股票数据、简化假设下做生成;CTBench 把它们直接拉到真实 crypto 市场的多空交易和均值回归套利里压测,暴露出它们在新行情模态下的实际可交易性差异。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 crypto TSG 基准 + "用交易收益评生成质量"的双任务框架,视角新但属基准类工作。
- 实验充分度: ⭐⭐⭐⭐⭐ 452 币种、四年四种行情、5 家族 8 模型 + 3 经典基线、3 策略、含/不含费、5 预测器消融,覆盖极全。
- 写作质量: ⭐⭐⭐⭐ 结构清晰、指标定义到位、选型表实用;图多但部分依赖附录。
- 价值: ⭐⭐⭐⭐⭐ 开源数据 + 代码 + 决策表,对量化从业者和 TSG 研究者都有直接可用的指导价值。