Community-Aware Assessment of Social Textual Engagement and Resonance: A Human-Centric Perspective on User-Generated Content Evaluation¶
会议: ACL2026
arXiv: 2606.01897
代码: 待确认
领域: 多模态评估 / 强化学习对齐
关键词: UGC质量评估, Social-CoT, 社区共鸣, GRPO, 多模态推理
一句话总结¶
这篇论文提出 CASTER 任务与 CASTER-Bench,并用 MEDEA 通过 Social-CoT、SFT 和带 Social Alignment Reward 的过程监督强化学习来模拟社区反应,在 CASTER-Bench 上把 High-Quality F1 提升到 0.650、Macro-F1 提升到 0.749,显著优于传统 VQA 和通用 LMM 基线。
研究背景与动机¶
领域现状:传统视频质量评估主要衡量清晰度、失真、审美和技术质量。近年来 LMM 也开始用于 UGC 质量估计,但大多仍把文本信息当作静态特征,或用普通 CoT 做逻辑分析。
现有痛点:真实 UGC 平台上的“好内容”并不只由画质决定。一个视频可能技术普通,却因叙事、情绪、知识价值或社区文化获得强烈正反馈;也可能播放量很高,却靠标题党、低俗刺激或诱导评论获得流量。仅靠视觉信号或一般多模态推理,很难区分“看起来不错”和“真正让社区产生积极共鸣”。
核心矛盾:平台需要在早期推荐和审核阶段判断内容的内在质量,但新上传内容往往还没有足够评论;模型必须从封面、关键帧、标题、标签、ASR 和元数据中推断潜在社区反应。这要求模型具备类似 Theory of Mind 的社会推理,而不是只做信号质量回归。
本文目标:作者提出 CASTER,把 UGC 质量评估重新定义为“内容是否获得正向社区共鸣”。为此,他们构建 CASTER-Bench,并提出 MEDEA:先模拟多样观众 persona 的 Social-CoT,再聚合成最终高/低质量判断。
切入角度:论文不是让模型直接输出二分类,而是要求它先生成多个“社区评论式”的共情推理路径。训练阶段再用真实高互动评论和专家标签约束这些推理路径,使模型学到更接近真实社区认知的判断标准。
核心 idea:用 Social-CoT 显式模拟“community mind”,再通过 Social Alignment Reward 把生成的社会推理路径对齐到真实用户评论,从而让 UGC 质量评估从画质判断转向社区共鸣建模。
方法详解¶
整体框架¶
论文包含两个核心产物。第一个是 CASTER-Bench:1,485 个长视频 UGC item,覆盖 30 个主要内容类别,每个 item 包含视频帧、封面、标题、标签、分类、ASR transcript 等多模态输入,并由 10 名专业内容运营专家按 Production Quality、Perceived Value、Information Utility、Narrative Excellence 四个维度标注。第二个是 MEDEA:一个多模态评估框架,先从社区评论挖掘 Social-CoT 训练数据,再用 SFT 学习社会推理格式,最后通过 GRPO 和社会对齐奖励优化推理过程。
关键设计¶
-
CASTER 任务与 CASTER-Bench:
- 功能:把 UGC 质量从 aesthetic/technical VQA 转成 community-aware resonance assessment。
- 核心思路:给定 cover image、关键帧、title、tags、category metadata 和 ASR transcript,模型预测内容是否为 High-Quality。数据集包含 1,485 个 UGC item,平均时长 442 秒,总时长 182.5 小时,标签分布为 Excellent 10.6%、Good 17.0%、Average 38.6%、Poor 33.7%。
- 设计动机:长视频 UGC 的价值来自叙事、知识密度和情绪共鸣,传统 8-20 秒短 clip VQA 数据集无法覆盖这些因素。
-
Social-CoT 构造与 Skellam 共识聚合:
- 功能:把真实评论转化为可监督的社会推理路径。
- 核心思路:对未标注 UGC,系统取 top-50 点赞评论,用教师模型筛出 15-20 条与创造性、情绪、叙事相关的反应锚点,再让 Gemini-2.5-Flash 实例化多样 viewer personas 并解释哪些视觉/叙事元素触发这些反应。每条模拟评论被赋予支持或反对 stance,若支持数为 \(X\)、反对数为 \(Y\),则用 \(z=(X-Y)/\sqrt{X+Y}\) 计算 Skellam-normalized consensus;当 \(z\geq1.5\) 时标为 High-Quality,否则为 Low-Quality。
- 设计动机:简单多数投票容易被评论数量和情绪偏差影响,Skellam 标准化能让最终判断更像“有统计意义的社区支持”。
-
过程监督 RL 与 Social Alignment Reward:
- 功能:让模型生成的 Social-CoT 不只是模板化赞美,而是接近真实社区语言和情绪粒度。
- 核心思路:MEDEA 先用 54k Gemini-labeled CoT 样本和 3k human-annotated UGC 做 SFT,再在专家样本上用 GRPO 优化复合奖励 \(r=r_{format}+r_{label}+r_{diversity}+r_{social}\)。其中 \(r_{format}\) 保证输出结构,\(r_{label}\) 奖励最终二分类正确,\(r_{diversity}\) 惩罚重复情绪路径,\(r_{social}\) 将生成 persona 与 held-out 真实高互动评论做 embedding 余弦匹配并取平均。
- 设计动机:只提示通用 LMM 做 Social-CoT 不足以学会平台社区标准;真实评论相似度奖励提供了“社会 grounding”,避免 Social Mode Collapse。
损失函数或训练策略¶
训练分两阶段。SFT 阶段 batch size 256,学习率 \(5e^{-6}\),cosine schedule,decay ratio 0.2。RL 阶段 batch size 64,学习率 \(1e^{-6}\),cosine schedule,PPO clip ratio 0.2,KL coefficient 0.001,entropy coefficient 0.001,rollout number 8,rollout temperature 0.6。推理时 top-k 50、top-p 0.7、temperature 0.6。论文强调 RL 只使用 human-curated samples,以保证强化信号锚定专家标注,而不是继续放大教师模型伪标签偏差。
实验关键数据¶
主实验¶
CASTER-Bench 的 High-Quality 类样本较少,因此 High-Quality F1 是最关键指标。MEDEA 显著优于传统 VQA、标准 LMM、Long-CoT LMM 和纯 prompt 的 Social-CoT 模拟。
| 方法 | HQ Precision | HQ Recall | HQ F1 | Macro-F1 | 备注 |
|---|---|---|---|---|---|
| FastVQA | 0.347 | 0.440 | 0.388 | 0.554 | 传统 VQA |
| MaxVQA | 0.345 | 0.518 | 0.414 | 0.552 | 传统 VQA 最强之一 |
| Qwen3-VL-Plus | 0.366 | 0.893 | 0.519 | 0.542 | 标准 LMM,高召回低精度 |
| GPT-5.2 reasoning | 0.401 | 0.903 | 0.555 | 0.595 | 最强 Long-CoT 基线 |
| Qwen3-VL-Plus social-CoT | 0.380 | 0.766 | 0.508 | 0.578 | prompt 模拟 Social-CoT |
| Claude-4.5-opus social-CoT | 0.371 | 0.810 | 0.510 | 0.561 | prompt 模拟 Social-CoT |
| MEDEA | 0.603 | 0.705 | 0.650 | 0.749 | 完整方法 |
消融实验¶
| 配置 | HQ F1 | Low-Quality F1 | Macro-F1 | 说明 |
|---|---|---|---|---|
| SFT-pseudo-label | 0.487 | 0.686 | 0.587 | 只用伪标签,能学格式但判断弱 |
| SFT-human-label | 0.371 | 0.710 | 0.541 | 人工样本少,召回不足 |
| SFT-w/o-social-CoT | 0.510 | 0.638 | 0.574 | 去掉 Social-CoT 后高质召回高但不稳 |
| RL-pseudo+human | 0.536 | 0.848 | 0.692 | RL 提升整体性能 |
| RL-w/o-social-reward | 0.613 | 0.836 | 0.725 | 缺少社会对齐,易模板化 |
| RL-w/o-social-CoT | 0.421 | 0.821 | 0.621 | 去掉社会推理路径大幅掉点 |
| MEDEA(RL-human-label) | 0.650 | 0.847 | 0.749 | 完整方法 |
成本与模态分析¶
| 分析项 | 关键数据 | 结论 |
|---|---|---|
| token 开销 | MEDEA 平均 1,256 tokens/item;w/o Social-CoT 为 5.6 | 社会推理显著增加生成长度 |
| 推理速度 | MEDEA 0.79 videos/sec;w/o Social-CoT 2.55 videos/sec | 在 4×H800 + vLLM + 8 workers 下吞吐下降明显 |
| 模态消融 | Text-Only Macro-F1 0.698;Vision-Only 0.681;MEDEA 0.749 | 文本和视觉互补,单模态不足 |
| 推理质量 | Faithfulness 4.211 vs 2.471;Diversity 2.743 vs 1.058 | Social Alignment Reward 提升 grounding 与多样性 |
关键发现¶
- 通用 LMM 有 generosity bias:GPT-5.2、Claude-4.5-opus 等模型 High-Quality recall 可超过 90%,但 precision 约 30%-40%,会把普通内容过度解释为好内容。
- 传统 VQA 偏向 Low-Quality 类,High-Quality F1 多在 0.33-0.41,说明画质信号不足以发现社区共鸣。
- 仅 prompt 出 Social-CoT 不能替代训练;Qwen3-VL-Plus social-CoT 的 HQ F1 为 0.508,明显低于 MEDEA 0.650。
- 社会对齐奖励不只是提高分类分数,也减少重复、空泛的“so beautiful”式模板推理。
亮点与洞察¶
- 重新定义 UGC 质量:论文把目标从 signal quality 改成 community resonance,这个任务设定比单纯刷 VQA 分数更贴近平台需求。
- Social-CoT 是可解释中间层:模型不直接给标签,而是先模拟多种观众反应,使错误分析更容易落到具体叙事、情绪或信息价值上。
- 奖励设计抓住了社会语言的真实性:\(r_{social}\) 用真实高互动评论作为锚点,比只奖励标签正确更能约束推理过程。
- 数据集设计考虑真实长视频:平均 442 秒、182.5 小时总时长,明显不同于短 clip 技术质量数据集。
局限与展望¶
- Social-CoT 带来明显推理开销,尽管 MEDEA 参数小于部分 API LMM,实时推荐场景仍需要缓存、蒸馏或早退机制。
- 社会对齐是在特定平台动态上优化的,迁移到不同文化、社区规范或内容生态时可能需要重新标注和对齐。
- 二分类 High/Low 过于粗糙,社区共鸣本身是连续、多维且随时间变化的。
- 当前依赖丰富多模态 metadata;在只有标题、只有封面或评论极稀疏的场景中效果仍需验证。
- 未来可以扩展到多级质量、分社区偏好建模、时间动态共鸣预测,以及更轻量的 Social-CoT 蒸馏模型。
相关工作与启发¶
- vs FastVQA / DOVER / MaxVQA / Q-Align / FineVQ: 传统和现代 VQA 关注视觉技术/审美质量;CASTER 关注内容是否触发真实社区正反馈。
- vs Long-CoT LMM: 长推理模型会产生详细分析,但没有社区标准训练时容易过度宽容;MEDEA 用专家标签和真实评论约束这种偏差。
- vs prompt-only Social-CoT: 只给模型提示词能改善部分社会视角,但训练和 reward 才能内化“哪些反应是真实、有区分度的”。
- 启发:对推荐、审核和创作者反馈系统,可以把“模拟用户群体反应”作为可解释评估中间层,但必须用真实社区数据和专家标准约束,避免生成漂亮却空洞的评论。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 任务重定义、Social-CoT 和社会对齐奖励结合得很有辨识度。
- 实验充分度: ⭐⭐⭐⭐☆ 主实验、消融、成本、模态和推理质量都较完整;跨平台泛化还缺实证。
- 写作质量: ⭐⭐⭐⭐☆ 故事线强,方法和动机清楚;个别表述如 “GPT-5.2/Gemini-3.0” 带有未来模型色彩,需要读者按论文设定理解。
- 价值: ⭐⭐⭐⭐☆ 对 UGC 推荐和多模态社会推理很有启发,但落地时需要认真处理成本、隐私和平台偏差。