PVP: An Image Dataset for Personalized Visual Persuasion with Persuasion Strategies, Viewer Characteristics, and Persuasiveness Ratings¶

会议: ACL 2025
arXiv: 2506.00481
代码: https://github.com/holi-lab/PVP_Personalized_Visual_Persuasion
领域: 其他
关键词: 视觉说服, 个性化, 说服策略, 心理特征, 数据集

一句话总结¶

构建了首个将图像说服策略与 2,521 位标注者心理特征（人格/价值观/道德基础）关联的大规模数据集 PVP（28,454 张图像、596 条行为消息、9 种说服策略），并在"个性化说服图像生成"和"说服力自动评估"两个基准任务上验证了心理特征对提升说服效果的关键作用。

研究背景与动机¶

领域现状：视觉说服（visual persuasion）利用视觉元素影响认知、情绪和行为，在广告、政治传播、公共健康等领域至关重要。既有数据集涵盖 meme 说服技巧检测、广告理解、政治图像分析等方向，但多数聚焦于"图像本身包含哪些说服技巧"这一分类/检测问题。

现有痛点：现有视觉说服数据集存在四大局限——(1) 大多缺乏说服力评分，无法用于训练/评估说服系统；(2) 以 meme 和符号学为核心，理解依赖深层文化知识，不适合日常场景的即时视觉冲击应用；(3) 话题覆盖窄，集中在政治、堕胎、枪支等争议性话题，通用性差；(4) 完全忽略了观看者的个体差异——同一张图对不同心理特征的人说服力截然不同，但没有数据集收集观看者的心理画像。

核心矛盾：说服的本质是个性化的，没有"一刀切"的方法。然而，现有数据集只关注"图像端"的策略标签，缺少"人端"的心理特征，无法支撑个性化说服系统的研发。

本文目标 (1) 构建大规模数据集，将图像说服策略、说服力评分与观看者心理特征三者关联；(2) 定义两个下游任务——个性化说服图像生成和说服力自动评估——并建立基准 baseline。

切入角度：作者从心理学和传播学理论出发（计划行为理论、大五人格、Schwartz 价值观、道德基础理论），用理论驱动的方式设计 9 种说服策略并全面刻画标注者的心理画像，让数据集具有坚实的理论基础而非纯经验驱动。

核心 idea：通过将 9 种理论驱动的说服策略与 2,521 位标注者的三维心理画像绑定，构建首个支持个性化视觉说服研究的大规模数据集。

方法详解¶

整体框架¶

数据集构建 pipeline 分六步：消息（目标行为）生成 → 9 种说服策略定义 → 前提（premise）生成 → 双源图像收集（DALLE 生成 + Google 检索）→ 说服力评分标注 → 标注者心理特征问卷。输入为 596 条行为消息（覆盖 20 个日常话题），输出为 28,454 张图像及其对应的多标注者评分和心理特征。基于该数据集，提出两个下游任务：(1) 给定消息和目标观看者心理特征，生成个性化说服图像；(2) 给定图像和目标观看者心理特征，自动预测说服力分数。

关键设计¶

理论驱动的 9 种说服策略体系:
- 功能：为每条行为消息提供 9 个不同说服角度的图像覆盖，使数据集能系统性地分析策略效果
- 核心思路：基于计划行为理论和论证理论，定义 5 大维度——感知人设（Perceived Persona，他人如何看你）、内部情感（Internal Emotion，你自己的情感反应）、外部情感（External Emotion，他人的情感反应）、后果（Consequence，行为带来的正/负面后果）、从众（Bandwagon，大众都在做）。前四类各分正面（获益框架）和负面（损失框架），加上仅正面的从众策略，共 9 种。每条消息 × 9 策略 × 3 前提 × 2 图像来源 = 54 张候选图像
- 设计动机：既覆盖认知维度（后果、从众）也覆盖情感维度（内部/外部情感），正负框架的区分直接来自心理学中框架效应的经典发现，确保策略空间的系统性和理论完备性
双源图像收集与质量过滤:
- 功能：为每个前提生成/检索视觉表达准确、多样性高的说服图像
- 核心思路：先用 GPT-4o 将每个前提转化为 DALLE 生成 prompt 和 Google 搜索词，分别获取一张 AI 生成图像和一张真实检索图像。然后通过人工 + GPT 双重过滤流程验证每张图像是否能准确传达目标前提，同时过滤文字过多的 Google 图像（因视觉说服不应依赖文字）。平均每条消息淘汰约 6 张不合格图像，最终保留 28,454 张
- 设计动机：DALLE 图像对前提的匹配更精确（评分略高），Google 图像更自然真实；两者互补可增加多样性，也为后续分析 AI 生成 vs 真实图像的说服效果差异提供了对照
多维心理特征标注与均衡采样:
- 功能：为每位标注者建立完整的心理画像，使说服力评分能与个体差异关联分析
- 核心思路：2,521 位标注者完成三套标准心理量表——BFI-10（大五人格：开放性/尽责性/外向性/宜人性/神经质）、PVQ-21（Schwartz 10 种价值观）、MFQ-30（5 种道德基础）。此外记录标注者是否已在日常中实践目标行为（Habit）。采样上按性别 × 年龄段（20s/30s/40s/50s）均衡招募，每位标注者仅参与一条消息的标注（最多评 54 张图），每张图由 4 位不同标注者独立评分
- 设计动机：单一人格量表不足以刻画个体差异——价值观和道德基础从不同角度影响说服接受度。一人一消息的设计避免了标注者的学习效应和过度影响，4 人评分则保证了一定的统计可靠性

训练策略¶

评估器任务中，比较了 GPT-4o、GPT-4o-mini 的零样本推理和 LLaMA3-8B-Instruct 的微调。微调使用 QLoRA，输入为消息 + 图像描述 + 心理特征文本，输出为 0-10 的说服力分数。生成器任务中，LLaMA3 仅在说服力 >8 分的高分图像上微调，避免低质量样本拉低生成质量。生成器的输出是图像描述（text prompt）而非直接生成图像，以便解耦"理解说服特性"和"图像生成质量"两个维度。

实验关键数据¶

主实验：说服力评估器¶

模型	输入格式	Spearman ↑	Pearson ↑	NDCG ↑	RMSE ↓
GPT-4o	图像（多模态）	0.19	0.19	0.39	3.90
GPT-4o-mini	图像（多模态）	0.13	0.11	0.35	4.01
GPT-4o	图像描述（纯文本）	0.16	0.17	0.37	3.81
GPT-4o-mini	图像描述（纯文本）	0.15	0.13	0.36	3.84
LLaMA3-8B 零样本	图像描述	0.07	0.06	0.34	3.71
LLaMA3-8B 微调	图像描述	0.25	0.25	0.42	3.40

消融实验：心理特征类型对评估器的影响¶

心理特征输入	Spearman ↑	Pearson ↑	NDCG ↑	RMSE ↓
PVQ-21（价值观）	0.25	0.25	0.42	3.40
BFI-10（大五人格）	0.23	0.24	0.43	3.66
MFQ-30（道德基础）	0.25	0.24	0.42	3.48
无心理特征	0.23	0.23	0.43	3.78

生成器性能¶

模型	平均说服力分 ↑	标准差
GPT-4o	4.45	2.41
GPT-4o-mini	4.59	2.30
LLaMA3-8B 微调	4.77	2.37

关键发现¶

心理特征确实有用：加入 PVQ-21 后 Spearman 从 0.23 提升到 0.25，RMSE 从 3.78 降至 3.40，且价值观（PVQ）对说服力预测最有效，超过人格和道德基础
小模型微调碾压大模型零样本：LLaMA3-8B 微调后全面超越 GPT-4o 和 GPT-4o-mini，说明 PVP 数据集的训练价值高
负面内部情感策略最有说服力（均分 5.83），但受人格影响最大：高神经质者更敏感（相关 +0.57），高尽责性者反感（相关 -0.51）
正面策略整体更"安全"：与人格特征的相关性弱，适合面向未知受众的通用说服
已有习惯的认知失调效应：已实践目标行为者评分均值 5.0，未实践者仅 4.3，可能源于避免认知失调的心理机制
生成器的主要错误：(1) 图像描述与目标消息错位；(2) 未能准确理解目标心理特征，尤其是价值观维度

亮点与洞察¶

首次在视觉说服中引入"人端"信息：之前所有数据集只关注"图像端"（策略标签、内容分析），PVP 通过三套心理量表构建 2,521 人的多维画像，真正让个性化说服的研究成为可能。这一思路可迁移到任何需要考虑用户差异的内容生成任务。
理论驱动的策略设计值得借鉴：不是拍脑袋定义几种策略，而是从计划行为理论和论证理论系统推导出 5 维 × 正负框架的策略空间，保证了覆盖面和可解释性。
生成器 = 文本描述 + 独立图像模型的解耦设计巧妙：将"理解什么样的图像有说服力"与"能不能生成高质量图像"解耦，让评估更公平，也让方法适用于任何图像生成后端。

局限与展望¶

标注者全为韩国人，结论的跨文化泛化性存疑；作者计划扩展到其他文化背景
使用自报说服力评分（0-10）而非实际行为改变测量，与真实说服效果可能存在差距
评估器的绝对相关性仍然偏低（最佳 Spearman 仅 0.25），作为生成器的自动指标置信度有限
DALLE 生成的图像带有 AI 痕迹，在真实应用中可能降低可信度和说服效果
每张图仅 4 位标注者评分，个体差异大时统计置信度有限

评分¶

新颖性: ⭐⭐⭐⭐ 首次将三维心理特征与视觉说服系统化连接，数据集设计有理论深度
实验充分度: ⭐⭐⭐ 数据分析详尽且有策略×人格的交互分析，但评估/生成模型实验偏初步，最佳相关性偏低
写作质量: ⭐⭐⭐⭐ 理论框架清晰，数据构建流程严谨，心理学背景交代充分
价值: ⭐⭐⭐⭐ 为个性化视觉说服研究提供了首个综合资源，数据集可复用性强