PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings¶
会议: ACL 2025
arXiv: 2506.00481
代码: https://github.com/holi-lab/PVP_Personalized_Visual_Persuasion
领域: 其他
关键词: 视觉说服, 个性化, 说服策略, 心理特征, 数据集
一句话总结¶
构建了首个将图像说服策略与 2,521 位标注者心理特征(人格/价值观/道德基础)关联的大规模数据集 PVP(28,454 张图像、596 条行为消息、9 种说服策略),并在"个性化说服图像生成"和"说服力自动评估"两个基准任务上验证了心理特征对提升说服效果的关键作用。
研究背景与动机¶
领域现状:视觉说服(visual persuasion)利用视觉元素影响认知、情绪和行为,在广告、政治传播、公共健康等领域至关重要。既有数据集涵盖 meme 说服技巧检测、广告理解、政治图像分析等方向,但多数聚焦于"图像本身包含哪些说服技巧"这一分类/检测问题。
现有痛点:现有视觉说服数据集存在四大局限——(1) 大多缺乏说服力评分,无法用于训练/评估说服系统;(2) 以 meme 和符号学为核心,理解依赖深层文化知识,不适合日常场景的即时视觉冲击应用;(3) 话题覆盖窄,集中在政治、堕胎、枪支等争议性话题,通用性差;(4) 完全忽略了观看者的个体差异——同一张图对不同心理特征的人说服力截然不同,但没有数据集收集观看者的心理画像。
核心矛盾:说服的本质是个性化的,没有"一刀切"的方法。然而,现有数据集只关注"图像端"的策略标签,缺少"人端"的心理特征,无法支撑个性化说服系统的研发。
本文目标 (1) 构建大规模数据集,将图像说服策略、说服力评分与观看者心理特征三者关联;(2) 定义两个下游任务——个性化说服图像生成和说服力自动评估——并建立基准 baseline。
切入角度:作者从心理学和传播学理论出发(计划行为理论、大五人格、Schwartz 价值观、道德基础理论),用理论驱动的方式设计 9 种说服策略并全面刻画标注者的心理画像,让数据集具有坚实的理论基础而非纯经验驱动。
核心 idea:通过将 9 种理论驱动的说服策略与 2,521 位标注者的三维心理画像绑定,构建首个支持个性化视觉说服研究的大规模数据集。
方法详解¶
整体框架¶
数据集构建 pipeline 分六步:消息(目标行为)生成 → 9 种说服策略定义 → 前提(premise)生成 → 双源图像收集(DALLE 生成 + Google 检索)→ 说服力评分标注 → 标注者心理特征问卷。输入为 596 条行为消息(覆盖 20 个日常话题),输出为 28,454 张图像及其对应的多标注者评分和心理特征。基于该数据集,提出两个下游任务:(1) 给定消息和目标观看者心理特征,生成个性化说服图像;(2) 给定图像和目标观看者心理特征,自动预测说服力分数。
关键设计¶
-
理论驱动的 9 种说服策略体系:
- 功能:为每条行为消息提供 9 个不同说服角度的图像覆盖,使数据集能系统性地分析策略效果
- 核心思路:基于计划行为理论和论证理论,定义 5 大维度——感知人设(Perceived Persona,他人如何看你)、内部情感(Internal Emotion,你自己的情感反应)、外部情感(External Emotion,他人的情感反应)、后果(Consequence,行为带来的正/负面后果)、从众(Bandwagon,大众都在做)。前四类各分正面(获益框架)和负面(损失框架),加上仅正面的从众策略,共 9 种。每条消息 × 9 策略 × 3 前提 × 2 图像来源 = 54 张候选图像
- 设计动机:既覆盖认知维度(后果、从众)也覆盖情感维度(内部/外部情感),正负框架的区分直接来自心理学中框架效应的经典发现,确保策略空间的系统性和理论完备性
-
双源图像收集与质量过滤:
- 功能:为每个前提生成/检索视觉表达准确、多样性高的说服图像
- 核心思路:先用 GPT-4o 将每个前提转化为 DALLE 生成 prompt 和 Google 搜索词,分别获取一张 AI 生成图像和一张真实检索图像。然后通过人工 + GPT 双重过滤流程验证每张图像是否能准确传达目标前提,同时过滤文字过多的 Google 图像(因视觉说服不应依赖文字)。平均每条消息淘汰约 6 张不合格图像,最终保留 28,454 张
- 设计动机:DALLE 图像对前提的匹配更精确(评分略高),Google 图像更自然真实;两者互补可增加多样性,也为后续分析 AI 生成 vs 真实图像的说服效果差异提供了对照
-
多维心理特征标注与均衡采样:
- 功能:为每位标注者建立完整的心理画像,使说服力评分能与个体差异关联分析
- 核心思路:2,521 位标注者完成三套标准心理量表——BFI-10(大五人格:开放性/尽责性/外向性/宜人性/神经质)、PVQ-21(Schwartz 10 种价值观)、MFQ-30(5 种道德基础)。此外记录标注者是否已在日常中实践目标行为(Habit)。采样上按性别 × 年龄段(20s/30s/40s/50s)均衡招募,每位标注者仅参与一条消息的标注(最多评 54 张图),每张图由 4 位不同标注者独立评分
- 设计动机:单一人格量表不足以刻画个体差异——价值观和道德基础从不同角度影响说服接受度。一人一消息的设计避免了标注者的学习效应和过度影响,4 人评分则保证了一定的统计可靠性
训练策略¶
评估器任务中,比较了 GPT-4o、GPT-4o-mini 的零样本推理和 LLaMA3-8B-Instruct 的微调。微调使用 QLoRA,输入为消息 + 图像描述 + 心理特征文本,输出为 0-10 的说服力分数。生成器任务中,LLaMA3 仅在说服力 >8 分的高分图像上微调,避免低质量样本拉低生成质量。生成器的输出是图像描述(text prompt)而非直接生成图像,以便解耦"理解说服特性"和"图像生成质量"两个维度。
实验关键数据¶
主实验:说服力评估器¶
| 模型 | 输入格式 | Spearman ↑ | Pearson ↑ | NDCG ↑ | RMSE ↓ |
|---|---|---|---|---|---|
| GPT-4o | 图像(多模态) | 0.19 | 0.19 | 0.39 | 3.90 |
| GPT-4o-mini | 图像(多模态) | 0.13 | 0.11 | 0.35 | 4.01 |
| GPT-4o | 图像描述(纯文本) | 0.16 | 0.17 | 0.37 | 3.81 |
| GPT-4o-mini | 图像描述(纯文本) | 0.15 | 0.13 | 0.36 | 3.84 |
| LLaMA3-8B 零样本 | 图像描述 | 0.07 | 0.06 | 0.34 | 3.71 |
| LLaMA3-8B 微调 | 图像描述 | 0.25 | 0.25 | 0.42 | 3.40 |
消融实验:心理特征类型对评估器的影响¶
| 心理特征输入 | Spearman ↑ | Pearson ↑ | NDCG ↑ | RMSE ↓ |
|---|---|---|---|---|
| PVQ-21(价值观) | 0.25 | 0.25 | 0.42 | 3.40 |
| BFI-10(大五人格) | 0.23 | 0.24 | 0.43 | 3.66 |
| MFQ-30(道德基础) | 0.25 | 0.24 | 0.42 | 3.48 |
| 无心理特征 | 0.23 | 0.23 | 0.43 | 3.78 |
生成器性能¶
| 模型 | 平均说服力分 ↑ | 标准差 |
|---|---|---|
| GPT-4o | 4.45 | 2.41 |
| GPT-4o-mini | 4.59 | 2.30 |
| LLaMA3-8B 微调 | 4.77 | 2.37 |
关键发现¶
- 心理特征确实有用:加入 PVQ-21 后 Spearman 从 0.23 提升到 0.25,RMSE 从 3.78 降至 3.40,且价值观(PVQ)对说服力预测最有效,超过人格和道德基础
- 小模型微调碾压大模型零样本:LLaMA3-8B 微调后全面超越 GPT-4o 和 GPT-4o-mini,说明 PVP 数据集的训练价值高
- 负面内部情感策略最有说服力(均分 5.83),但受人格影响最大:高神经质者更敏感(相关 +0.57),高尽责性者反感(相关 -0.51)
- 正面策略整体更"安全":与人格特征的相关性弱,适合面向未知受众的通用说服
- 已有习惯的认知失调效应:已实践目标行为者评分均值 5.0,未实践者仅 4.3,可能源于避免认知失调的心理机制
- 生成器的主要错误:(1) 图像描述与目标消息错位;(2) 未能准确理解目标心理特征,尤其是价值观维度
亮点与洞察¶
- 首次在视觉说服中引入"人端"信息:之前所有数据集只关注"图像端"(策略标签、内容分析),PVP 通过三套心理量表构建 2,521 人的多维画像,真正让个性化说服的研究成为可能。这一思路可迁移到任何需要考虑用户差异的内容生成任务。
- 理论驱动的策略设计值得借鉴:不是拍脑袋定义几种策略,而是从计划行为理论和论证理论系统推导出 5 维 × 正负框架的策略空间,保证了覆盖面和可解释性。
- 生成器 = 文本描述 + 独立图像模型的解耦设计巧妙:将"理解什么样的图像有说服力"与"能不能生成高质量图像"解耦,让评估更公平,也让方法适用于任何图像生成后端。
局限与展望¶
- 标注者全为韩国人,结论的跨文化泛化性存疑;作者计划扩展到其他文化背景
- 使用自报说服力评分(0-10)而非实际行为改变测量,与真实说服效果可能存在差距
- 评估器的绝对相关性仍然偏低(最佳 Spearman 仅 0.25),作为生成器的自动指标置信度有限
- DALLE 生成的图像带有 AI 痕迹,在真实应用中可能降低可信度和说服效果
- 每张图仅 4 位标注者评分,个体差异大时统计置信度有限
相关工作与启发¶
- vs Hussain et al. (2017) 广告数据集: 关注广告中的说服技巧识别(符号学、情感诉求等),但无说服力评分和观看者特征。PVP 补齐了"人端"的完整心理画像维度
- vs Liu et al. (2022): 有说服力评分但仅覆盖堕胎/移民/枪支 3 个争议话题,且无标注者心理特征;PVP 覆盖 20 个日常话题并提供三维心理画像
- vs Dimitrov et al. (2021) meme 数据集: 聚焦 meme 中的说服技巧分类(如 loaded language、name calling),需要深层文化知识;PVP 使用直觉可理解的情境图像,适用范围更广
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将三维心理特征与视觉说服系统化连接,数据集设计有理论深度
- 实验充分度: ⭐⭐⭐ 数据分析详尽且有策略×人格的交互分析,但评估/生成模型实验偏初步,最佳相关性偏低
- 写作质量: ⭐⭐⭐⭐ 理论框架清晰,数据构建流程严谨,心理学背景交代充分
- 价值: ⭐⭐⭐⭐ 为个性化视觉说服研究提供了首个综合资源,数据集可复用性强