PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension¶

会议: ACL 2025
arXiv: 2412.11906
代码: https://github.com/OuyangKun10/PunchBench
领域: 多模态VLM
关键词: punchline comprehension, multimodal benchmark, humor, sarcasm, chain-of-question

一句话总结¶

本文提出PunchBench，一个包含6,000个图文对和54,000个问答对的多模态幽默/讽刺理解基准，通过同义/反义标题生成消除语言捷径，同时提出Simple-to-Complex Chain-of-Question (SC-CoQ)策略，在所有模型和问题格式上一致性提升punchline理解能力。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在视觉问答、图像描述等事实性理解任务上取得了显著进展，但对幽默和讽刺等punchline（笑点/讽刺点）的理解能力尚未得到充分评估。
现有痛点：现有punchline理解基准存在三大缺陷：(1) 语言捷径——模型仅依赖文本中的偏置词或不一致性就能答对，无需真正理解图文交互；(2) 问题格式单一——仅用一种QA形式，无法全面评估模型鲁棒性；(3) 内容域狭窄——仅聚焦卡通等单一领域，覆盖不足。
核心矛盾：现有基准的设计缺陷导致无法区分"模型真正理解了punchline"和"模型利用了数据捷径"，评估结果的真实性存疑。
本文目标 (1) 如何构建一个消除语言捷径、多问题格式、多领域的准确全面基准？(2) MLLM与人类在punchline理解上的差距有多大？(3) 如何提升MLLM的punchline理解能力？
切入角度：通过对标题进行同义/反义替换，生成modified标题以消除捷径偏差；同时从认知科学中"由简到难"的学习过程汲取灵感，设计SC-CoQ提示策略。
核心 idea：用同义/反义标题消除评测捷径，用由简到难的问题链提升MLLM的punchline理解。

方法详解¶

整体框架¶

PunchBench的构建分四步：(1) 从已有数据集和多媒体平台收集图文对并人工标注；(2) 生成同义和反义标题消除捷径；(3) 构建两层任务的多格式指令（感知层和推理层）；(4) 人工质量检查。在此基础上，提出SC-CoQ策略来改进模型表现。

关键设计¶

同义/反义标题生成（Synonymous & Antonymous Captions）:
- 功能：消除模型可能利用的文本捷径
- 核心思路：使用gpt-3.5-turbo对原始标题进行词替换（将情感词、动作词等替换为同义词/反义词）生成同义和反义标题。对于包含语义冲突成分的标题（如"I'm so glad! What a disgusting day!"），先用LLM识别冲突部分再分别处理。同义标题保持与原标题相同的punchline标签，反义标题作为对比
- 设计动机：实验证明CogVLM2等模型能正确判断原始标题是否包含punchline，但面对同义/反义变体时性能大幅下降，说明模型依赖特定词汇而非真正理解
双层多格式任务设计:
- 功能：从感知到推理多角度全面评估punchline理解
- 核心思路：感知层（Punchline Perception）包含Yes/No QA（判断是否有punchline）、Matching QA（在两个标题中选出有punchline的）、Multi-option QA（四选一理解）；推理层（Punchline Reasoning）包含Yes/No QA（判断推理句是否正确解释了punchline）、Matching QA（选择正确解释）、Generation QA（自由生成解释）。每种格式都配有多种指令模板，并随机化选项顺序
- 设计动机：单一问题格式无法全面评估——实验表明模型可能在Yes/No QA上表现好但Matching QA上失败，暴露了性能的不一致性
Simple-to-Complex Chain-of-Question (SC-CoQ):
- 功能：通过由简到难的问题序列逐步提升MLLM的punchline理解
- 核心思路：在任务内部和任务之间组织从简单到复杂的问题链。具体地，先让模型回答感知层的简单问题（如Yes/No），再逐步过渡到推理层的复杂问题（如生成解释），利用前面简单问题的回答作为上下文辅助后续复杂问题的作答
- 设计动机：复杂的punchline理解可分解为多个子技能（识别punchline存在→选择正确标题→解释原因），先掌握简单子技能再进阶，比直接面对复杂问题更有效

实验关键数据¶

主实验 — Punchline Perception¶

模型	参数量	Yes/No (SC-CoQ)	Matching (SC-CoQ)	Multi-choice (SC-CoQ)
GPT-4o	-	80.7	67.9	53.1
GPT-4V	-	78.1	65.0	51.9
Qwen2-VL-72B	72B	76.1	62.9	51.7
Aria	3.5B×8	74.5	63.6	50.8
CogVLM2	19B	71.3	60.8	46.3
LLaVA	7B	64.8	57.1	39.1
Human	-	98.3	97.7	90.7

SC-CoQ vs. 其他提示方法 (GPT-4o Perception Yes/No)¶

方法	Accuracy
Zero-shot	77.5
CoT	78.6
3-shot	79.2
SC-CoQ	80.7

关键发现¶

MLLM与人类在punchline理解上存在巨大差距：最强模型GPT-4o在Perception Yes/No上为80.7%，人类为98.3%；Multi-choice上差距更大（53.1% vs 90.7%）
SC-CoQ在所有模型和所有问题格式上都一致优于zero-shot、CoT和few-shot方法，且P值均<0.01，统计显著
模型在面对同义/反义标题时性能显著下降，证实了语言捷径确实存在
开源模型中Qwen2-VL-72B和Aria表现最好，接近GPT-4V水平；小模型（2B-7B）在多选题上仅略高于随机（25%）
推理层任务（Generation QA）难度最大，GPT-4o也仅有约53%

亮点与洞察¶

同义/反义标题是消除文本捷径的巧妙设计——比简单删除文本更精确地测试了"图文交互理解"能力，这个思路可以迁移到其他多模态基准中
SC-CoQ的核心洞察是punchline理解是一个层次化能力：先感知存在性，再定位关键元素，最后推理原因。这种由简到难的范式比直接chain-of-thought更符合认知规律
人类在质量检查中500条指令仅1条标为"无法回答"，证明了数据集的高质量

局限与展望¶

数据集主要覆盖英语punchline，跨语言/跨文化的幽默理解未涉及
SC-CoQ增加了推理步骤和token消耗，实际应用时效率需考量
Generation QA的评估依赖参考答案相似度，可能无法完全捕捉多样化的正确解释
未探索微调策略——SC-CoQ仅作为推理时策略，训练时结合可能效果更好
6,000个图文对的规模虽不小，但每个域的分布和难度分布未详细分析
对punchline的定义（幽默+讽刺）可能遗漏其他需要深层理解的修辞（如反语、夸张）

评分¶

总体评价: 构建了高质量多模态幽默/讽刺理解基准，SC-CoQ策略具有实用价值
新颖性: ⭐⭐⭐⭐ 同义/反义标题消除捷径的设计和SC-CoQ策略都有新意
实验充分度: ⭐⭐⭐⭐⭐ 12个模型、6种问题格式、4种提示方法的全面评估
写作质量: ⭐⭐⭐⭐ 结构清晰，示例和图表丰富
价值: ⭐⭐⭐⭐ 填补了MLLM punchline理解评估的空白