Personalized Generation In Large Model Era: A Survey¶
会议: ACL 2025 (Findings)
arXiv: 2503.02614
代码: 未公开
领域: 其他
关键词: Personalized Generation, Survey, User Modeling, LLM, Diffusion Model, Multimodal
一句话总结¶
首篇跨模态个性化生成(PGen)系统综述,提出统一的用户中心视角将 NLP/CV/IR 社区的研究纳入同一框架,覆盖文本/图像/视频/音频/3D/跨模态六大模态。
研究背景与动机¶
- 核心观察:大模型时代,内容生成正从通用生成(one-size-fits-all)转向个性化生成(Personalized Generation, PGen),但各社区(NLP、CV、IR)的研究各自为政,缺乏统一视角。
- 已有综述的不足:现有综述要么以模型为中心(如专门讨论 LLM/扩散模型的个性化),要么以任务为中心(如对话生成、角色扮演),没有跨社区的全景式综述。
- 本文定位:首次提出模态无关的统一框架,跨越 NLP/CV/IR 社区边界进行系统化梳理。
方法详解¶
整体框架——统一用户中心视角¶
PGen 依赖两类用户输入:(1)个性化上下文:包含用户偏好的历史数据;(2)多模态指令:文本提示、语音命令等明确表达内容需求的信号。生成模型从个性化上下文中学习偏好,按照指令生成定制化内容。
关键设计——五大个性化上下文维度¶
| 上下文类型 | 说明 | 常见任务 |
|---|---|---|
| 用户画像 | 年龄、性别、职业、地点等 | 对话系统、电商产品图 |
| 用户文档 | 评论、邮件、社交帖子 | 写作助手、个性化推荐 |
| 用户行为 | 搜索、点击、购买等交互 | 推荐系统、信息检索 |
| 个人面部/身体 | 面部结构、体型、表情、动作 | 肖像生成、虚拟试穿 |
| 个性化主体 | 宠物、私人物品等用户特定概念 | Subject-driven 生成 |
三大核心目标¶
- 高质量:生成内容的连贯性、相关性和美感
- 指令对齐:准确遵循用户的多模态指令
- 个性化:与用户偏好和个性化上下文一致
PGen 工作流程¶
用户建模阶段: - 表示学习:编码为稠密嵌入或离散文本表示 - 提示工程:设计任务特定提示组织用户信息 - RAG:过滤无关信息并整合外部相关数据
生成建模阶段: - Step 1 - 基础模型选择:LLM / MLLM / Diffusion Model - Step 2 - 引导机制:指令引导(ICL, instruction tuning)+ 结构引导(adapter, cross-attention) - Step 3 - 优化策略:免调优(模型融合、多轮交互)/ 监督微调(Full or PEFT)/ 偏好优化(RLHF, DPO)
多级分类体系¶
综述按模态→个性化上下文→任务三层组织,覆盖 200+ 篇文献:
| 模态 | 代表性任务 | 代表性方法 |
|---|---|---|
| 文本 | 推荐、写作助手、对话、角色扮演 | LLM-Rec, REST-PG, PAED, CharacterLLM |
| 图像 | Subject-driven T2I, 人脸生成, 虚拟试穿 | DreamBooth, PhotoMaker, IDM-VTON |
| 视频 | Subject-driven T2V, Talking Head, 舞蹈生成 | AnimateDiff, EMO, AnimateAnyone |
| 3D | Image-to-3D, 3D 人脸/人体 | MVDream, DreamBooth3D, DreamWaltz |
| 音频 | 音乐生成, 文本转语音 | UMP, DiffAVA |
| 跨模态 | 个性化字幕/评论, 对话 | MyVLM, Yo'LLaVA |
实验¶
本文为综述论文,不包含原创实验。主要贡献在于系统化的文献梳理和分类。
数据集汇总¶
| 模态 | 代表数据集 |
|---|---|
| 文本 | LaMP, LongLaMP, Amazon Reviews, MovieLens |
| 图像 | DreamBooth 数据集, VITON-HD, DeepFashion |
| 视频 | TikTok Dance, HDTF (Talking Head) |
| 3D | ShapeNet, THuman2.0 |
| 音频 | LibriSpeech, MusicNet |
评估指标总结¶
| 目标 | 指标 |
|---|---|
| 质量 | FID, IS, CLIP Score, BLEU, Perplexity |
| 指令对齐 | CLIP-T, BERT-Score |
| 个性化 | CLIP-I, DINO Score, Face-Sim, 用户研究 |
关键发现¶
- 文本模态的个性化研究最为成熟,图像模态次之,视频/3D/音频模态仍处于早期阶段
- 用户行为和用户文档是文本模态中最常用的个性化上下文,而 CV 领域更依赖个人面部/身体和个性化主体
- PEFT(尤其是 LoRA)已成为跨模态个性化微调的主流策略
亮点¶
- 首次将 NLP/CV/IR 社区的个性化生成研究纳入统一框架,填补了重要的综述空白
- 提出的模态无关工作流程(用户建模→生成建模)为不同社区的研究者提供了共同语言
- 多级分类体系清晰且可扩展,便于定位特定子领域的研究进展
- 展望部分讨论了可扩展性、偏好演化、隐私公平等五大开放挑战
局限性¶
- 作为综述论文,对每个子领域的讨论深度有限,部分新兴方向(如 3D 个性化)的文献覆盖可能不够全面
- 统一框架虽然提供了高层次抽象,但不同模态间的技术差异仍然很大,框架的指导意义有一定局限
- 未对比不同方法的性能数据,缺乏定量的方法对比分析
- 综述截止时间限制,可能遗漏了最新的工作
相关工作¶
- 模型中心综述:Zhang et al. (2024) 专注 LLM 个性化;Zhang et al. (2024) 讨论扩散模型个性化
- 任务中心综述:Chen et al. (2024) 讨论个性化对话;Tseng et al. (2024) 讨论角色扮演
- 基础模型综述:Wu et al. (2024) 综述多模态大语言模型
- 推荐系统综述:Ayemowa et al. (2024) 讨论生成式推荐
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 3 |
| 实验充分性 | N/A (综述) |
| 写作质量 | 4 |
| 总分 | 3.7 |