跳转至

Learning to Bet for Horizon-Aware Anytime-Valid Testing

会议: ICML 2026
arXiv: 2603.19551
代码: https://github.com/egetaga/learning-to-bet (有)
领域: 序贯假设检验 / Anytime-Valid Inference / 有限期最优控制
关键词: 测试鞅, Kelly 下注, 置信序列, 相图, DQN, 有限期决策

一句话总结

本文把"在严格观测上限 \(N\) 下设计 anytime-valid 序贯检验"重新表述为一个状态空间为 \((t,\log W_t)\) 的有限期最优控制问题,从理论上证明 Kelly 下注在"按时进度"的中间带最优、落后时该激进、超前时该保守,得到一张三区"相图",并用一个在大量合成 Beta 分布上训练的统一 DQN agent 自动学到与相图一致的状态依赖策略,在合成与真实数据上同时拿到更高的 deadline-内拒绝率与更窄的置信序列,同时通过 Ville 不等式保持 anytime-validity。

研究背景与动机

领域现状:基于"测试即下注"(testing by betting,shafer2019game/2021;waudby2024estimating)的 e-process / 测试鞅框架已经成为构造 power-one 检验与置信序列的主流,给定假设 \(H_0:\mu_X=m\),定义可预测下注 \(\lambda_n(m)\in[-1/(1-m),1/m]\),让财富过程 \(W_n(m)=W_{n-1}(m)(1+\lambda_n(m)(X_n-m))\)\(H_0\) 下为非负鞅,凭 Ville 不等式 \(\mathbb P(\exists n: W_n\ge 1/\alpha)\le \alpha\) 立刻得到 \(\tau_m=\inf\{n: W_n\ge 1/\alpha\}\) 是 level-\(\alpha\) 停时。waudby2024estimating 提出 PrPlEB、orabona2023tight 用 universal portfolio、voravcek2025star 提出 STaR-Bets 都在这个框架内打磨下注策略。

现有痛点:所有 mainstream 工作都假设观测流 \(\{X_n\}\) 无穷长,但实际场景(在线 A/B、自适应实验、资源/时间受限科研)几乎都有硬上限 \(N\)。Doob/Robbins 风格的纯 anytime 策略对大 \(N\) 仍然太保守;针对固定 \(N\) 调出来的检验在连续监测下又会爆 type-I——这两类方法都没法直面"有 deadline 的连续监测"。

核心矛盾:在 deadline \(N\) 之内最大化拒绝概率,需要的"每步漂移"\((b-\log W_t)/(N-t)\) 是非平稳的,会随当前进度和剩余时间动态变化;但是要保持 anytime-validity,下注必须始终是 \(\mathcal F_{t-1}\)-可测且取值在 \(\Lambda_m\) 内的鞅约束。先前唯一直面这个 setting 的 voravcek2025star 用 STaR(Sequential Target-Recalculating)启发式调下注,没有最优性刻画也无法适应分布形状。

本文目标:(1) 给"horizon-aware 下注"做一个最优控制(DP)形式化;(2) 给出"何时该偏离 Kelly、偏向哪边"的可证明充分条件;(3) 把这套理论翻译成一个能在线学、跨分布通用的下注策略。

切入角度:注意到 Bellman 状态完全由 \((t,\log W_t)\) 决定、动作就是 \(\lambda\);这是一个典型的 finite-horizon 离散 DP——只是动作空间连续、过渡分布 \(P_X\) 未知。对 DP 做局部分析,能在状态平面切出"Kelly 区 / 激进区 / 保守区"的相图,再用 DQN 把分布信息从经验特征中吸收进去。

核心 idea:把 anytime-valid 检验当成最优控制问题做相图刻画,再用一个跨分布通用的 DQN 把相图实现为可执行策略,理论保证 + 学到的策略同时拿走。

方法详解

作者先用 Bellman 递归把问题写干净,证明三条互补的"相图定理",再据此把动作空间收紧到 \(\{\widehat\lambda_t/2,\widehat\lambda_t,\lambda_{\max}\}\) 训练一个通用 DQN。最关键的是策略学习对 anytime-validity 是透明的:validity 只需 \(\lambda_t\in\Lambda_m\) 且可预测,与策略怎么得到无关。

整体框架

  • DP 状态\((t,\log W_t)\),终止条件 \(W_t\ge 1/\alpha\)\(t=N\)
  • 动作\(\lambda_t(m)\in\Lambda_m=[-1/(1-m),1/m]\);实际离散化为 \(\{\widehat\lambda_t/2,\widehat\lambda_t,\lambda_{\max}\}\) 三档("半 Kelly / Kelly / 全压")。
  • 奖励\(R=\mathbb I\{\max_{1\le t\le N}\log W_t\ge \log(1/\alpha)\}\)(稀疏终端奖励),\(\mathbb E[R]=\mathbb P(\tau_m\le N)\) 直接等于 deadline-内拒绝率。
  • Bellman 递归\(V_t(y)=\max_{\lambda\in\Lambda_m}\mathbb E_{X\sim P_X}\big[\mathbb I\{y+h_m(\lambda,X)\ge b\}+\mathbb I\{y+h_m(\lambda,X)<b\}V_{t+1}(y+h_m(\lambda,X))\big]\),其中 \(h_m(\lambda,x)=\log(1+\lambda(x-m))\)\(b=\log(1/\alpha)\)
  • 置信序列\(C_n=\{m\in[0,1]:W_n(m)<1/\alpha\}\),由每个 \(m\)\(\tau_m\) 自动给出 horizon-aware 覆盖保证。

关键设计

  1. \((t,\log W_t)\) 平面相图与三条充分条件:

    • 功能:在最优控制层面刻画"什么时候该偏离 Kelly、偏向哪边",把模糊的"按进度调节"直觉变成可证伪的命题。
    • 核心思路:定义 \(T=N-t\)\(\Delta=TL_{\max}-(b-y)\)(其中 \(L_{\max}=L(\lambda_m^{\text{Kelly}})=\mathbb E[h_m(\lambda_m^{\text{Kelly}},X)]\))作为"按 Kelly 走能富余多少漂移"。定理 3.1(中心带):若 \(\Delta\ge B\sqrt{8T\log T}\),纯 Kelly 以 \(\ge 1-1/T\) 概率撞线;反之若有 \(\rho\) 比例时间偏离 Kelly \(\ge\delta\)、且 \(\Delta\le\rho\epsilon T-B\sqrt{8T\log 2}\),则拒绝概率 \(\le 1/2\)命题 3.4(落后激进):当 \(r=(b-y)/T>\max\{L_{\max},B_K/2\}\)(Kelly 漂移不够、且 Kelly 还撞不进 \(T/2\) 步)时,若存在 \(\lambda^{\text{agg}}>\lambda^{\text{Kelly}}\) 满足 \(I^+(\lambda^{\text{agg}},r)<\frac12 I^+(\lambda^{\text{Kelly}},r)-c_T^+\)(KL rate 比 Kelly 小一半),则激进策略的拒绝概率严格大于 Kelly。命题 3.6(超前保守):当 \(B_K/2<r<L_{\max}\) 时,存在 \(\lambda^{\text{def}}<\lambda^{\text{Kelly}}\) 使失败概率指数小于 Kelly。
    • 设计动机:在 Bellman 递归整体不可解的情况下,给出三块区域的可证明结构——中心 Kelly 带 + 落后激进区 + 超前保守区——既给出最优策略的"形状",也给 DQN 的动作集设计(半 Kelly / Kelly / 全压三档)提供合法性依据:相图说"最优动作就在这三档附近"。
  2. Oracle 相图(DP backward induction)作为参照:

    • 功能:在已知 \(P_X\) 的合成分布上把"理论上的最优动作"算出来当 ground truth,验证理论相图、并给 DQN 提供视觉化对照。
    • 核心思路:把 \((t,\log W_t)\) 平面离散化,从 \(t=N-1\) 出发做 Bellman 反推 \(V_t(y)\)\(\arg\max_\lambda\),动作集固定为 \(\{\lambda_{\max},\lambda^{\text{Kelly}},\lambda^{\text{Kelly}}/2\}\);这是 oracle 版本,需要真分布。结果:在 Beta-mixture 上 oracle 确实呈现"中心 Kelly 带 + 上方半 Kelly 带 + 下方 All-in 带"的三段结构;当问题难度上升(\(m\)\(\mu_X\) 更近),保守带消失、Kelly 带变窄、激进带扩张——和命题 3.4 的"r 更大就更激进"完全一致。
    • 设计动机:理论相图只给出区域之间的相对关系,不给具体边界;oracle DP 提供数值化的最优动作图,可以直接和 DQN 的"modal action map"做视觉对比,验证学到的策略真的复现了相图结构而不是退化为常数动作。
  3. 跨分布通用的 DQN 下注 agent:

    • 功能:在 \(P_X\)\(m\)\(N\) 都未知/变化的实战场景下,用单一策略产出 schedule-aware + distribution-sensitive 的下注。
    • 核心思路:把每次检验当成一个长度 \(\le N\) 的 episode,用稀疏终端奖励 \(R=\mathbb I\{\max_t \log W_t\ge b\}\)\(\mathbb E[R]\) 直接等于 power;状态特征是 \(\mathcal F_{t-1}\)-可测的紧凑向量(经验矩、剩余时间 \(N-t\)、距阈值 \(b-\log W_t\)\(m\)、经验 Kelly 估计 \(\widehat\lambda_t(m)\) 等),动作只 3 档:\(\{\widehat\lambda_t/2,\widehat\lambda_t,\lambda_{\max}\}\);用 Q-learning 学 \(Q(s,a)\),greedy 选最高拒绝概率的动作;只训练一次、跑 500,000 个合成 episode(Beta 与 Beta-mixture,随机化 \(\mu_X,m,N\)),无需对每个新问题重训。
    • 设计动机:相图位置依赖未知 \(P_X\),无法用解析公式表达;又因为 \(\widehat\lambda_t(m)\)\(t\) 小时本身极不稳定,硬性"\(\epsilon\)-greedy 调度"只能在某个分布上调好。把"何时切档"交给 DQN 从特征里读出,相当于把分布敏感性内化进策略;动作集刻意小,对应理论给出的三个区域,既好学也保持可解释。Validity 由 Ville 不等式自动给出,对策略来源完全 agnostic——这是把"DRL 用在统计上"能成立的核心理由。

损失函数 / 训练策略

DQN 用标准 Q-learning(mnih2015human),sparse 终端奖励 \(R\in\{0,1\}\),500k 个 episode 覆盖随机化 \((N,m,P_X)\)\(N\) 从有限集采样、\(P_X\) 从 Beta / Beta-mixture 家族采参;DQN-EB(reward \(=1+(1-t/N)\))与 DQN-U(\(=1-t/N\))作为两个 reward shaping 变体探索"早期拒绝"目标。

实验关键数据

主实验

对比对象:voravcek2025star 的 STaR-Bets / STaR-Hoeffding(唯一现存 horizon-aware 基线),以及 PrPlEB(horizon-agnostic Kelly 类)。

设置 指标 DQN STaR-Bets PrPlEB
Beta-mix conc=6, \(N=100\), \(m=0.45\) \(\mathbb P(\tau\le N)\) 最高 次之 落后
Beta-mix conc=1, \(N=100\), \(m=0.45\) \(\mathbb P(\tau\le N)\) 最高 次之 落后
三种 Beta-mix, \(N=100\) \(C_N\) 宽度 最窄 较宽
真实数据(DNA 甲基化 + 湿度,6 个源) \(\mathbb P(\text{reject})\) 5/6 最高

DQN 是单一策略(只在合成 Beta 上训练),跨 OOD 的 logit-normal、Bernoulli 家族、6 个真实数据源都能保持领先且 type-I 校准合法;STaR-Bets 与 PrPlEB 是 setting-specific。

消融实验

配置 关键观察 说明
3 动作 vs 9 动作 性能相近 动作集与理论相图三档对齐已足够,扩到 9 档无显著增益
DQN(原 reward) terminal power 最强 直接优化 \(\mathbb P(\tau\le N)\)
DQN-EB(\(1+(1-t/N)\) terminal-power 中间,早期更早拒绝 早期 bonus 把拒绝时间前移
DQN-U(\(1-t/N\) 早期拒绝最早,\(N\) 处 power 略降 urgency reward 极端化时间偏置
\(N\in\{250,300,350\}\)(原 DQN,未重训) 仍优于 baseline 表明策略对更长 horizon 有泛化
\(\alpha=0.01\)(重训一次) 同样改进 power \(\alpha\) 训出来的策略不能跨 \(\alpha\),需重训

关键发现

  • DQN 学到的"modal action map"在视觉上严格复现了 oracle 相图:中心 Kelly 带 + 上方半 Kelly 带 + 下方 All-in 带,且边界随分布形状自动平移——说明 DQN 真的把分布信息内化进了状态依赖策略,而不是退化为常数 Kelly。
  • 早期 conservative 是反 Kelly 直觉但正确:\(\widehat\lambda_t(m)\)\(t\) 小时方差大,过早激进会被估计噪声推到不可恢复的低 \(W_t\);DQN 的早期偏保守对应这一估计不确定性。
  • 跨分布迁移成立:合成 Beta 上训练 → logit-normal / Bernoulli / 真实 DNA/湿度数据上都 work,且 anytime-validity(Ville 不等式)不依赖训练分布,全程合法。

亮点与洞察

  • "把 anytime-valid 检验变成有限期最优控制 + 用 DQN 当 betting 策略"是一个非常干净的桥梁:所有 validity 都来自 \(\lambda_t\in\Lambda_m\) + 可预测性,因此策略可以任意复杂、任意黑盒,统计保证仍然成立——这把"统计严谨"与"学习黑盒"解耦得非常彻底。
  • 三条相图定理(中心 Kelly、落后激进、超前保守)用 Hoeffding + Sanov + KL rate 的初等工具就能证明,但给出的指导("动作集只需三档")直接简化了 DQN 设计;这种"理论指导动作空间设计"的范式对其他统计-RL 交叉问题(自适应实验、最优停止)很有借鉴价值。
  • 单一 DQN 跨 \((N,m,P_X)\) 通用 + 在真实 OOD 数据上仍领先,说明把分布不变的"几何位置信息"(\(t/N\)\((b-y)/T\)、empirical Kelly)作为状态特征就足以让策略具备分布鲁棒性,而不必为每个新场景重训。

局限与展望

  • 训练分布限定在 Beta / Beta-mixture,对真正重尾或离散点质量大的分布迁移性仍是 open;论文将"mixed distributions"留作 future work。
  • 动作集只有 3 档,连续动作空间或非对称的负向下注(\(\lambda<0\))没系统探索——对双侧检验和置信序列下界的紧致性可能有进一步空间。
  • DQN 学到的是黑盒策略,比 hand-crafted 规则少了可审计性;在监管严格的场景(临床试验、监管 A/B)部署需要额外的解释 / 验证层。
  • 不同 \(\alpha\) 需要重训(论文展示 \(\alpha=0.01\) 重训一次),未来工作可考虑把 \(\alpha\) 作为状态输入做"通用 \(\alpha\) 策略"。
  • 实验只覆盖有界 \([0,1]\) 均值的检验,对方差/分位数/CATE 这类更一般的统计泛函是否能复用同套相图 + DQN,还需要重新做控制论分析。

相关工作与启发

  • vs voravcek2025star (STaR-Bets):唯一现存的 horizon-aware betting 工作,用 Sequential Target-Recalculating 启发式实时调下注;本文给出最优控制公式 + 相图理论 + DQN 实现,跨分布通用且实测领先。
  • vs waudby2024estimating (PrPlEB):经典的 anytime 下注策略,假设无限 horizon,对有 deadline 场景天然偏保守;本文复用其 e-process / Ville 框架,但在策略上做 horizon-aware 改造。
  • vs koning2026anytime:通过 Doob 鞅把固定样本 test 变成 anytime-valid,路线和本文正交——他们改"如何把固定 test anytime 化",本文改"如何针对 deadline 调整下注",二者理论上可以叠加。
  • vs orabona2023tight (universal portfolio betting):用 universal portfolio 在 horizon-agnostic 上拿到强 regret 保证;本文在 horizon-aware 上引入 DRL 是一条互补路线——universal portfolio 适合 anytime 紧致 CS,DQN 适合 deadline 内最大化 power。