跳转至

Edit-Based Flow Matching for Temporal Point Processes

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FNf9IV1P2L
论文: OpenReview Forum
代码: 文中提到 cs.cit.tum.de/daml/editpp(以官方发布为准)
领域: time_series / learning_theory(当前文件位于 image_generation,应重分类)
关键词: 时间点过程、Flow Matching、编辑操作、条件生成、非自回归采样

一句话总结

论文提出 EDITPP:把时间点过程(TPP)的生成建模成连续时间马尔可夫链(CTMC)上的编辑流,通过插入/删除/替换三类原子编辑把噪声序列逐步运输到目标事件序列,在无条件生成与条件预测任务上达到或接近 SOTA,同时减少编辑步数并显著提速采样。

研究背景与动机

领域现状:TPP 的经典路线是建模条件强度函数 \(\lambda(t \mid \mathcal{H}_t)\),神经方法多采用自回归范式(RNN/Transformer 编码历史,再预测下一事件)。这类方法表达力强,但推理天然串行,长序列时采样慢,且多步预测会累积误差。

现有痛点:近年来出现了非自回归 TPP 生成(例如基于 diffusion/set interpolation 的 ADDTHIN、PSDIFF),能并行地整体修正序列,但它们主要依赖插入与删除两类变换。当真实数据只需“局部挪动时间戳”时,模型往往要用“先删后插”两步间接实现,路径冗长、编辑成本偏高。

核心矛盾:TPP 事件是连续时间上的变长集合,既要保留编辑过程在离散操作层面的可解释性,又要在连续时间上可训练、可采样。若直接在原空间枚举所有从 \(t_s\)\(t_1\) 的编辑路径,条件路径分布会很难积分,训练与推断都容易变成不可 tractable 的组合问题。

本文目标: 1. 在 TPP 上定义一套闭合且可组合的编辑操作,使任何序列变换都可由有限步编辑实现。
2. 用 flow matching 思路在 CTMC 中学习瞬时编辑率,而不是显式回归强度函数。
3. 支持无条件采样与条件采样(尤其 forecasting)的统一框架,并验证质量-效率权衡。

切入角度:作者借鉴离散序列 Edit Flow 的思想,把“插入/删除/替换”迁移到连续时间事件序列;同时引入对齐辅助空间,把“编辑路径难以积分”的问题转成可采样、可监督的局部编辑率匹配问题。

核心 idea:用“连续时间编辑流 + 对齐空间监督”统一 TPP 生成,把传统 diffusion 路线里的 insert/delete 插值扩展为 insert/delete/substitute 三元编辑,从而缩短生成路径、提升编辑效率。

方法详解

整体框架

EDITPP 把一个事件序列记为 \(t = \{t^{(1)},\dots,t^{(n)}\}\)(支持区间 \([0,T]\) 内、按时间排序)。生成时从噪声 TPP 样本 \(t_0 \sim p_{noise}(t)\) 出发,沿连续时间变量 \(s\in[0,1]\) 演化,最终得到 \(t_1 \sim q_{target}(t)\)。核心是学习一个速率模型 \(u_\theta^s(\omega \mid t_s)\),输出在当前序列上执行各类编辑操作 \(\omega\) 的瞬时率。

相比“直接参数化条件强度函数再做点过程采样”,EDITPP 直接参数化“如何改序列”而非“事件强度曲线”,于是任务从强度建模转成编辑动力学建模。通过 Euler 近似离散化 CTMC 后,每一步可以并行采样多个互斥编辑并应用到序列上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A[噪声事件序列 t0] --> B[编辑操作离散化<br/>插入 删除 替换]
    B --> C[对齐辅助空间构造<br/>z0 z1 与最小代价对齐]
    C --> D[编辑率学习<br/>uθs(ω | ts)]
    D --> E[CTMC Euler 采样<br/>并行应用编辑]
    E --> F[条件约束重投影<br/>历史子序列固定]
    F --> G[输出目标序列 t1]

关键设计

1. 连续时间上的三元编辑系统:用 substitute 缩短路径

这篇工作的第一关键点,是把 TPP 生成中的原子操作从“插入+删除”扩展到“插入+删除+替换”。替换操作本质上是“局部 delete-insert 捷径”:当某事件时间戳只需小幅平移时,直接 substitute 可以一次完成,而不必两步绕行。这对应论文里“减少总编辑步数”的主张,也直接解释了其在编辑效率表上的优势。

为了把连续时间事件离散为可枚举编辑,作者在相邻事件间构造 insertion bins,并给 substitution 设定最大移动半径 \(\delta\)。这使“某一步到底是哪种编辑”有了可判定边界,避免同一目标状态由多种编辑解释造成监督歧义。

2. 对齐辅助空间:把不可积路径监督转成可计算局部监督

直接建模 \(p_s(t_s\mid t_0,t_1)\) 需要对所有可能编辑路径求和,组合爆炸。作者引入带空白符 \(\epsilon\) 的对齐空间,把源/目标序列映射成 \(z_0,z_1\),并通过精心设计的代价函数保证最小代价对齐与定义的编辑操作一致。这样每个对齐位点天然对应一种编辑标签(ins/sub/del)。

训练目标采用 Bregman divergence 形式,可理解为“让模型预测的编辑率,匹配对齐样本给出的真实条件编辑率”。论文给出的损失写法可概括为: $$ \mathcal{L}=\mathbb{E}{(z_0,z_1),s,\,p_s(z_s,t_s\mid z_0,z_1)}\Big[\sumu_\theta^s(\omega\mid t_s) -\sum_{z_s^{(i)}\neq z_1^{(i)}}\frac{\dot\kappa_s}{1-\kappa_s}\log u_\theta^s(\omega(z_s^{(i)},z_1^{(i)})\mid t_s)\Big]. $$ 直观上,第一项控制总率规模,第二项把真实编辑事件的对数似然拉高。

3. 条件采样统一化:同一模型同时做 unconditional 与 forecasting

作者给出基于二值时间掩码 \(c(t)\) 的条件采样机制。设条件子序列 \(C(t)\)(例如历史窗口)与补集 \(C'(t)\),采样时强制 \(C(t)\) 沿噪声到目标的插值轨迹演化,而 \(C'(t)\) 自由生成。每个 Euler 步执行“编辑更新 + 条件重投影 + 合并”三段流程,保证历史约束不被破坏。

这点很关键:模型并未专门以 forecasting 监督训练,但通过采样期重条件化即可胜任预测任务,解释了其“无条件训练、条件推理”仍可与强基线竞争的结果。

4. 率参数化与并行采样:在表达力和效率之间取实用平衡

架构上,作者采用 Llama 风格 Transformer + FlexAttention 处理变长序列,无需 padding。事件标量先做 SinEmb 再经 MLP 投影,时间步 \(s\) 与序列长度也以 token 形式注入。输出头分别参数化 \(\lambda_{ins},\lambda_{sub},\lambda_{del}\) 与对应分布 \(Q_{ins},Q_{sub}\)\(\lambda=\exp(\lambda_M\tanh(h))\)\(Q=\mathrm{softmax}(h_Q)\)

该参数化保证速率非负、分布归一化,且与 CTMC 采样公式自然匹配。论文还强调同一步内可并行应用多编辑,实际运行时比先前方法有明显速度优势。

一个完整示例

假设区间 \([0,T]\) 上某真实序列在局部有 3 个关键事件,噪声序列对应区域只对齐出 2 个事件且时间略偏移。若仅用 insert/delete,模型通常需要:删除一个错位事件、再插入新事件,至少两步;EDITPP 可直接 substitute 把错位事件移到正确时间,再补一次 insert 即可完成。

把这个过程放到条件预测里看更直观:给定历史窗口 \(C(t)\) 不变,模型仅在未来窗口 \(C'(t)\) 上执行编辑。每个 Euler 步中,先按 \(u_\theta\) 采样未来编辑,再把历史段投影回约束轨道。这样最终结果既满足历史一致性,又能在未来段做全局非自回归修正。

损失函数 / 训练策略

训练在 7 个真实数据集与 6 个合成数据集上进行,所有模型使用 5 个随机种子并按验证集指标选最优 checkpoint。EDITPP/ADDTHIN/PSDIFF 采用无条件训练,但都可在推理期切到条件任务;比较对象还包括自回归强基线 IFTPP。

评测指标覆盖分布级与任务级两类: 1. 无条件生成:MMD、\(W_1\) over event counts(\(d_l\))、\(W_1\) over inter-event time(\(d_{IET}\))。
2. 条件预测:\(d_{Xiao}\)、MRE、\(d_{IET}\)

实验关键数据

主实验

论文在 13 个数据集(6 synthetic + 7 real-world)上评测。无条件生成里,EDITPP 在总体排名上最佳;条件预测里,EDITPP 与 PSDIFF 大体接近,普遍优于 ADDTHIN,且与 IFTPP 相比在多数据集上更稳健。

任务 指标 EDITPP 结论 对比结论
无条件生成 MMD / \(W_1(d_l)\) / \(W_1(d_{IET})\) 综合排名第一 多数组合下优于或持平 IFTPP/PSDIFF/ADDTHIN
条件预测 \(d_{Xiao}\) / MRE / \(d_{IET}\) 与 PSDIFF 同级、整体强 普遍优于 ADDTHIN,且不少场景优于 IFTPP
采样效率 编辑步数/运行时间 编辑数更少、速度更快 显著快于 PSDIFF 与 ADDTHIN

消融实验

最关键的消融是“编辑效率”与“推理步数-质量曲线”:

配置 指标 结果 说明
PSDIFF(ins+del) 平均编辑数 234.52 无 substitute,路径更长
EDITPP(ins+del+sub) 平均编辑数 199.65 替换操作可替代一部分 delete+insert
固定较少 Euler 步 质量指标 略降 计算更省,适合低延迟场景
提高 Euler 步数 质量指标 改善但边际递减 可做推理时质量-速度权衡

论文给出的编辑数分解:EDITPP 中 insert 137.42、delete 33.08、substitute 29.16,总数低于 PSDIFF(173.48/61.04/0.00,总 234.52)。

关键发现

  • substitute 不是“锦上添花”,而是显著减少路径长度的结构性改进:当事件只需局部平移时,一次替换能省去两步操作。
  • 无条件训练 + 条件推理在该框架下是可行的,说明编辑流学习到的是更通用的序列动力学,而非仅记忆下一步条件密度。
  • 采样步数增加会提升质量,但收益快速递减,给工程部署提供了明确的动态预算旋钮。

亮点与洞察

  • 把“点过程生成”从强度函数视角改写为“编辑动力学”视角。亮点在于它绕开了强度参数化的困难,直接学习如何改序列,和 flow matching 的训练范式更契合。
  • 对齐空间设计很实用。它把原本难以求和的路径问题转成可采样监督,兼顾理论自洽与实现可落地。
  • 条件采样机制简洁。通过掩码定义历史/未来并在每步重条件化,不需要为 forecasting 单独训练一个模型。
  • 从结果看,EDITPP 在“质量不降”的前提下获得明显速度收益,说明“编辑语义更贴合任务”能够转化为真实推理红利。

局限性 / 可改进方向

  • substitution 依赖离散化与阈值 \(\delta\),若数据的时间尺度跨越很大,固定阈值可能不够稳健。可考虑自适应 \(\delta\) 或多尺度替换核。
  • 目前事件主要是时间戳序列设定。面对高维 marks(复杂事件类型/属性)时,编辑空间会迅速膨胀,需要更结构化的因子化编辑参数化。
  • CTMC 的 Euler 近似仍带离散化误差,尽管可用更多步数缓解,但会增加延迟。后续可探索更高阶或自适应步长积分策略。
  • 对齐质量依赖代价设计;若对齐偏差大,监督会被系统性污染。可引入可学习代价或不确定性对齐机制增强鲁棒性。

相关工作与启发

  • vs ADDTHIN / PSDIFF(非自回归 diffusion 风格 TPP): 它们核心是 insert/delete 插值,EDITPP 在此基础上增加 substitute 并做 CTMC 率建模,优势是路径更短、采样更快;潜在代价是多了阈值与操作离散化设计。
  • vs IFTPP(自回归强基线): IFTPP 的单步建模能力强,但多步预测易误差累积且采样串行。EDITPP 通过整体序列编辑在 forecasting 上更稳,且并行性更好。
  • vs 经典强度函数方法(Hawkes/Neural TPP): 经典路线强调 \(\lambda(t\mid\mathcal{H}_t)\) 的可解释性,EDITPP 则转向生成过程可操作性。两者可互补,例如用强度先验约束编辑率。

对后续研究的启发是:在时序生成里,把“状态更新的原子操作”明确化,往往比直接回归连续密度更有工程可控性。尤其在需要条件约束、交互式编辑、或可解释控制的场景,编辑流框架可能比纯 score/denoise 框架更自然。

评分

  • 新颖性: ⭐⭐⭐⭐☆(把 Edit Flow 系统化迁移到 TPP,并给出 substitute+CTMC 的统一训练采样闭环)
  • 实验充分度: ⭐⭐⭐⭐☆(13 数据集、无条件+条件双任务、含效率分析与消融,覆盖较完整)
  • 写作质量: ⭐⭐⭐⭐☆(方法定义与算法流程清晰,附录实验细节较全)
  • 价值: ⭐⭐⭐⭐☆(对事件生成/预测任务有直接实用价值,尤其在并行采样与效率敏感场景)

分类纠偏:本文核心属于时间序列生成与点过程建模,建议从 paper_notes/docs/ICLR2026/image_generation/ 迁移到 paper_notes/docs/ICLR2026/time_series/(或 learning_theory 相关子域),当前目录是标题关键词触发的误分。