Transforming Podcast Preview Generation: From Expert Models to LLM-Based Systems¶

会议: ACL 2025
arXiv: 2505.23908
代码: 无
领域: LLM/NLP
关键词: podcast preview, LLM application, content understanding, A/B testing, industry deployment

一句话总结¶

Spotify 提出用 LLM（Gemini 1.5 Pro）替代传统多模型特征工程流水线来生成播客预览片段，在离线人工评估和线上 A/B 测试中均显著优于传统系统，用户互动时长提升 4.6%，处理效率提升 5 倍。

研究背景与动机¶

领域现状：播客等长内容的发现和评估对用户来说时间成本高，预览片段是帮助用户快速判断内容是否感兴趣的有效方式。

现有痛点：传统播客预览系统（Legacy ML）依赖复杂的特征工程管线，需要整合话题分析、情感分析、广告检测、语音事件检测、句子边界检测、排序等多个专家模型，维护和迭代成本极高。

核心矛盾：传统系统每新增一个需求或调整标准，都需要重新训练或调整多个模型的权重和聚合逻辑，迭代周期长、灵活性差。

本文解决：用单一 LLM + few-shot prompt 替代整个多模型管线，通过 prompt 迭代替代特征工程，大幅简化架构。

切入角度：利用 LLM 的长文本理解能力和结构化推理，直接从转录文本中选出最佳预览片段，并生成元数据（话题标签、推荐理由等）。

核心 idea：LLM + 句子索引 + few-shot prompt 可以取代传统复杂特征工程管线，更快更好地生成播客预览。

方法详解¶

整体框架¶

播客音频 → 转录文本 → 句子分割与时间戳标注 → LLM（Gemini 1.5 Pro）few-shot 推理选择预览片段 → 后处理裁剪至约 1 分钟 → 输出最终预览。

关键设计¶

句子索引与时间戳标注（Sentencization）
- 基于标点等启发式规则将转录文本分句，并为每句标注起止时间戳
- 设计动机：LLM 需要精确定位片段边界，时间戳索引是从文本空间映射回音频空间的关键桥梁
结构化推理 Prompt
- 引导 LLM 分步推理：先识别节目主题 → 评估各片段的相关性和吸引力 → 生成预览元数据（推荐理由、话题标签）
- 设计动机：结构化推理提升决策透明度和可解释性，也提高预览质量
预览需求约束
- Prompt 中明确列出预览要求：开头有吸引力、逻辑递进、排除广告、首尾完整、情感共鸣、约 1 分钟时长
- 设计动机：将产品设计团队的专业知识编码为 prompt 约束，替代传统系统中的规则引擎
Few-shot 学习
- 在 prompt 中提供人工精选的高质量预览示例
- 设计动机：通过示例让 LLM 学习"好预览"的标准，无需微调
手动 Prompt 迭代
- 由产品和设计团队迭代优化 prompt，在小规模评估集上反复验证
- 设计动机：人类反馈比自动 prompt 工程更适合此类需要审美判断的任务

与传统系统对比¶

维度	Legacy ML 系统	LLM 系统
模型数量	6+ 专家模型	1 个 LLM
输入模态	音频 + 文本	仅文本
处理时间	~100 秒/集	~20 秒/集
迭代方式	模型重训练 + 特征调整	Prompt 修改

实验关键数据¶

表1: 离线人工评估——整体对比与统计检验¶

评估维度	Z-Test 统计量	P-value	LLM 显著更优?
可理解性 (Understandability)	-4.05	5.09e-05	是
上下文清晰度 (Contextual Clarity)	-3.40	0.00067	是
趣味性 (Interest Level)	-4.32	1.59e-05	是

238 个有效标注，LLM 预览优或平的比例为 81.09%，LLM 纯胜率 54.2%
二项检验 p-value = 1.37e-10，LLM 优势在统计上高度显著

表2: 线上 A/B 测试结果¶

指标	提升幅度	说明
用户评估时长/人	+4.6%	统计显著，第 2 周数据
单预览评估时长	+4.0%	统计显著，第 2 周数据
处理效率	5x 提升	100 秒→20 秒

A/B 测试覆盖 67 个英语国家，持续 6 周，LLM 预览占治疗组可见集的 34%

关键发现¶

LLM 在可理解性、上下文清晰度、趣味性三个维度上均统计显著优于传统系统
线上数据验证了离线评估结论，用户确实与 LLM 预览互动更多
仅用文本输入（不需要音频特征），就超越了需要音频+文本的传统系统

亮点¶

真实大规模部署验证：在 Spotify 线上环境服务了数十万个播客预览，A/B 测试覆盖 67 国，说服力强
工程复杂度大幅降低：从 6+ 专家模型管线简化为单 LLM 调用，维护成本和迭代速度质变
处理效率 5 倍提升：20 秒 vs 100 秒，且无需音频信号处理
严谨的评估体系：离线人工评估（20 评估者、238 标注、统计检验）+ 线上 A/B 测试（6 周、67 国），双重验证

局限与展望¶

仅支持英语：目前依赖元数据语言标注进行英语过滤，多语言扩展未探索
依赖商业 LLM：使用 Gemini 1.5 Pro，成本和可控性受限于第三方 API
Prompt 迭代不可自动化：手动优化过程不可复现、不可规模化
无音频信号利用：可能遗漏需要音频线索（如语调、笑声）才能判断的精彩片段
评估指标有限：用户互动时长提升不一定等于真正的内容发现改善，缺少转化率等更深层指标

与相关工作的对比¶

方法	核心思路	数据模态	是否需要多模型	部署规模
传统特征工程	多专家模型聚合	音频+文本	是(6+)	生产级
无监督高光检测	聚类或图方法	视频/文本	部分	研究级
LLM 摘要	抽取/抽象	文本	否	研究级
PodTile (章节生成)	LLM + 索引	文本	否	生产级
本文 LLM 预览	Few-shot LLM + 句子索引	文本	否(单LLM)	生产级(Spotify)

评分¶

新颖性: ⭐⭐⭐ (LLM 替代传统管线思路不算新，但工程落地和双重验证有价值)
实验充分度: ⭐⭐⭐⭐⭐ (离线人工评估+线上A/B测试，统计检验完整，产业级验证)
写作质量: ⭐⭐⭐⭐ (结构清晰，传统vs LLM对比充分，图表直观)
价值: ⭐⭐⭐⭐ (产业应用论文标杆，展示了LLM落地的完整路径和效果)