DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding¶

会议: NeurIPS 2025
arXiv: 2505.18411
代码: GitHub
领域: 多模态时序建模 / TPP / LLM Benchmark
关键词: temporal point process, multimodal benchmark, Danmaku, LLM evaluation, multi-agent pipeline

一句话总结¶

构建首个多模态时间点过程基准DanmakuTPPBench：DanmakuTPP-Events提供7250个序列共1080万弹幕事件（时间-文本-视频三模态天然对齐），DanmakuTPP-QA通过多智能体pipeline自动生成10类推理问答，系统暴露了经典TPP模型和MLLM在多模态事件动态理解上的显著短板。

研究背景与动机¶

领域现状：时间点过程（TPP）是建模连续时间事件序列的经典框架，广泛应用于社交媒体预测、医疗监测和金融分析。近年LLM/MLLM在多模态推理上取得巨大进展，将TPP建模引入多模态语言模型是值得探索的方向。

现有痛点：现有TPP数据集（Retweet、StackOverflow、Taobao等）仅包含时间戳和事件类别，完全缺乏文本语义和视觉上下文。RNCNIX和Amazon Review虽有文本但缺少视觉信息。没有任何TPP数据集同时包含时间、文本和视觉三个模态，也没有面向TPP理解的QA评估基准。

核心矛盾：多模态能力强（如MLLM在VQA上表现出色）不等于多模态时间事件建模能力强——当前没有基准来评估模型能否联合理解时间动态、文本语义和视觉内容的交互关系。

本文切入：B站弹幕系统是理想的多模态TPP数据源——每条弹幕天然携带精确时间戳（与视频帧对齐）、文本内容（用户即时反应）和对应视频帧，形成完美的三模态对齐。基于此构建DanmakuTPP-Events用于经典TPP建模评估，再通过多Agent pipeline自动构建DanmakuTPP-QA用于深层时序推理评估。

方法详解¶

整体框架¶

DanmakuTPPBench包含两个互补组件：(1) DanmakuTPP-Events——面向经典TPP建模的多模态事件数据集（7250序列、1080万事件、14个视频分类）；(2) DanmakuTPP-QA——面向深层时序推理的多任务问答基准（2605个视频、10类任务），由5个专业化Agent协作自动构建。

关键设计¶

DanmakuTPP-Events数据集构建:
- 功能：从B站2024年Top 100创作者的所有视频中收集弹幕数据，构建首个三模态TPP数据集
- 核心思路：每个弹幕事件建模为四元组 \((t_i, e_i, m_i^{\text{text}}, m_i^{\text{image}})\)——时间戳、事件类型（9类：吐槽、弹幕梗、情感表达等）、弹幕文本和对应视频帧。7250个序列、平均长度1494（远超现有TPP数据集的27-197），覆盖14个视频分类（游戏23%、教育18%、生活12%、动画10%等）
- 设计动机：弹幕是极少数天然同时具备时间-文本-视觉三要素的数据源，无需人工对齐。数据量（1080万事件）和序列长度（平均1494）远超所有现有TPP数据集，为研究长序列多模态事件建模提供了理想的测试平台
DanmakuTPP-QA多智能体构建Pipeline:
- 功能：自动构建10类评估任务（8闭合题+2开放题），涵盖时间预测、情感分析、事件归因等
- 核心思路：5个专业化Agent分工协作——Task-Design Agent（Deepseek-R1）从数据结构出发设计10类任务及其input/output格式；Annotation Agent（Qwen2.5文本+Qwen2.5-VL视觉+RAM物体标注）为事件打标签；Quality-Control Agent（Qwen3）通过多数投票和gap-filling协调并验证标注一致性；Visualization Agent（Qwen2.5-Coder）自动生成Python可视化脚本；Task-Solve Agent（Qwen3+Qwen2.5-VL+Gemma-3多模型投票）生成参考答案
- 设计动机：人工构建大规模多模态QA成本极高，多Agent pipeline在规模和质量间取得平衡。交叉验证+多数投票+人工抽检保证数据质量。测试集答案经过严格人工验证
10类评估任务体系:
- 功能：设计从简单预测到复杂因果推理的梯度式评估任务
- 核心思路：闭合题（8类）——弹幕爆发计数(ACC)、下一弹幕/爆发时间预测(RMSE)、平均情感极性评估(RMSE)、情感极性预测(RMSE)、事件类型推断(ACC)、爆发触发类型预测(ACC)。开放题（2类）——全局情感动态分析(LLM-Eval打分0-1)、爆发因果归因分析(LLM-Eval)。数据划分：训练集2005、验证集300、测试集300
- 设计动机：任务难度从数值预测到逻辑推理再到因果归因层层递进，全面评估模型的时间感知、文本理解和跨模态推理能力

损失函数 / 训练策略¶

作为benchmark论文，不提出新训练方法。经典TPP模型使用EasyTPP框架默认设置训练。MLLM评估采用zero-shot推理，随机采样3个视频帧作为视觉输入。Fine-tuning实验用LoRA在Qwen2.5-VL-3B上进行（单GPU RTX 4090，3 epoch，lr=1e-4）。

实验关键数据¶

主实验¶

模型	T-1(ACC↑)	T-2(RMSE↓)	T-4(RMSE↓)	T-7(ACC↑)	T-8(ACC↑)
Qwen2.5-7B	0.33	27.64	0.65	10.67	32.67
Qwen2.5-72B	0.67	1.28	0.30	16.00	43.83
Qwen3-30B-A3B	0.67	1.33	0.20	23.00	43.67
DeepSeek-V3	25.00	1.30	0.34	13.67	34.50
Qwen2.5-VL-72B	0.33	1.14	0.28	15.98	47.17
Gemma3-27B	0.33	1.33	0.28	15.67	36.17
Fine-tuned VL-3B	27.0	1.35	0.05	15.33	43.00

消融实验¶

配置	T-4 RMSE↓	T-5 RMSE↓	T-6 RMSE↓	说明
最佳预训练模型	0.20	0.26	0.20	Qwen3-30B/DeepSeek-V3/Gemma3
Fine-tuned VL-3B	0.05	0.16	0.08	误差降低4-6倍，小模型微调大幅超越
Fine-tuned VL-3B@T-3	220.43	—	—	但时间预测任务过拟合严重

经典TPP模型：NHP在log-likelihood（0.799）和RMSE（0.932）上均最优，但注意力模型（THP 0.619、AttNHP 0.550）log-likelihood较低。

关键发现¶

MLLM在多模态TPP理解上并不一致优于纯文本LLM：Qwen2.5-VL-72B仅在部分任务上最优，Llama-3.3-70B在时间预测（T-2 RMSE=1.11）上更好
模型规模效应显著：Qwen2.5系列从7B到72B，T-2 RMSE从27.64降至1.28
小模型微调在情感任务上大幅超越大模型零样本（T-4 RMSE: 0.05 vs 0.20），但在时间预测上可能过拟合（T-3严重退化）
开放题上Qwen2.5-VL-72B和Qwen3-235B领先，任务9（情感动态分析）得分0.48、任务10（因果归因）得分0.52——远未饱和
弹幕爆发因果归因（Task-10）最具挑战性，需同时理解视频内容变化、用户情感演变和事件触发机制

亮点与洞察¶

数据源选择精妙：弹幕是极少数天然三模态对齐的数据源，每条弹幕自带精确时间戳、文本和对应视频帧，无需任何人工对齐操作。这种数据设计的insight具有示范意义。
多Agent pipeline设计成熟：5个专业化Agent各司其职+交叉验证+多数投票，可推广到其他领域的benchmark自动构建。特别是Task-Design Agent用推理模型（R1）设计任务、Task-Solve Agent用多模型投票生成答案的范式很有参考价值。
揭示了一个重要gap："多模态理解能力强"≠"多模态时间事件建模能力强"——当前MLLM虽在VQA/图像理解上强大，但面对长序列时间动态分析仍有根本局限。

局限与展望¶

数据域集中在B站弹幕生态，文化背景和用户行为有平台偏见，泛化到其他语言/文化场景需验证
自动QA生成依赖LLM能力上限，任务定义和参考答案可能存在噪声
仅提供benchmark未提出新的强建模方法——缺少在此数据上设计的多模态TPP模型
事件类型仅9类，不同视频分类的弹幕行为差异可能需要更细粒度的类型划分
MLLM仅采样3帧作为视觉输入，更密集的帧采样或视频编码器可能改善效果

评分¶

新颖性: ⭐⭐⭐⭐ 首个多模态TPP benchmark，数据源选择独特且自然
实验充分度: ⭐⭐⭐⭐ 覆盖经典TPP模型和多种LLM/MLLM，任务设计丰富
写作质量: ⭐⭐⭐⭐ 数据构建流程清晰完整，实验分析到位
价值: ⭐⭐⭐⭐ 填补多模态TPP评估空白，连接TPP和LLM两个社区