Bridging Creative Intent and Visual Quality: Creator-Driven Recurrent Video Generation with Agentic Feedback Loops¶

会议: ICML 2026（Workshop on Human-AI Co-Creativity）
arXiv: 2606.18591
代码: 待确认
领域: 视频生成
关键词: 人机协作, 视频生成, 多智能体反馈, 人格化模拟, 迭代精修

一句话总结¶

CHIEF 把创作者放在视频生成迭代循环的中心，用"人格化的多模态 LLM 观众智能体"自动给生成视频写主观影评、再由翻译器把杂乱反馈结构化成可执行的提示词改动，让没有任何拍片经验的中学生也能从 1 分钟短片做到一部 10 分钟有完整剧情的短片。

研究背景与动机¶

领域现状：生成式 AI 让人人都能用自然语言生成文本、图像、视频，AI 生成视频已占新 YouTube 用户所见视频的 21%。

现有痛点：这些视频画质往往很高，却缺乏叙事连贯性和创作方向，时长一长问题急剧恶化。把"闭环自我精修"从代码生成搬到视频生成的框架，靠人类对齐的奖励模型或多个 LLM 评委来替代缺失的自动信号——但这种反馈很窄，只能给出聚合偏好或泛泛批评，捕捉不到真实观众的情绪。

核心矛盾：现有框架从代码生成继承了"自主闭环"假设——代码有单元测试这种客观自动信号，可以无人参与地自我迭代；但视频是主观创作任务，对剧情、场景、叙事的好坏判断本质主观，且应当让创作者表达自己的创作意图，而不是被一个自主系统替代。

本文目标：(1) 把"自主自我精修"换成"人在环路精修"，让创作者主导；(2) 提供能捕捉真实观众情绪的多样化自动反馈；(3) 在从 1 分钟到 10 分钟的不同时长上都能用。

切入角度：作者用近期的 LLM 人类模拟能力，让 LLM 扮演不同背景的真实观众来"看"视频并写主观批评——这正好补上自评（self-evaluation）拿不到的东西。

核心 idea：一个创作者驱动的混合迭代评估框架 CHIEF：系统生成视频 → 人格化智能体模拟观众反馈 → 创作者据此给修订，循环往复；反馈不是冷冰冰的打分，而是带"观众口吻"的主观影评。

方法详解¶

整体框架¶

CHIEF 是一个模块化的智能体视频生成框架，由三个模块迭代协作：视频生成器 (Video Generator)、反馈智能体 (Feedback Agents)、反馈翻译器 (Feedback Translator)。一轮循环是：创作者写脚本 → 视频生成器把脚本切成 8 秒一段的小片、逐片生关键帧再插帧成片、拼成整片 → 人格化反馈智能体"观看"视频、从不同观众视角写主观批评 → 反馈翻译器把海量原始反馈抽成结构化 issue、排序后呈给创作者 → 创作者用自然语言给修订意见 → 翻译器把意见转成下一轮的提示词改动。整个过程把创作者放在方向盘上，反馈智能体只提供观众视角的"外部批评"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["创作者脚本<br/>(切成 8 秒片段描述)"] --> B["视频生成器<br/>提示编排 + 关键帧 + 插帧合成 + 配乐"]
    B --> C["反馈智能体<br/>人格化多模态 LLM 模拟观众观看"]
    C --> D["反馈翻译器<br/>issue 抽取 → 按紧急度排序 → Refiner 改写提示"]
    D -->|创作者给自然语言修订| B
    D --> E["输出视频<br/>1 分钟短片 → 10 分钟短片"]

关键设计¶

1. 视频生成器：分治式"关键帧 + 插帧"流水线，靠提示编排锚定一致性

针对长视频跨片不一致的痛点，视频生成器用分治策略：把脚本切成 8 秒一段的片段描述，逐段生成再拼接。核心是 Prompt Orchestrator，它把"同一套环境和角色描述"锚定到所有片段提示里，保证跨片一致；对每段构造关键帧提示（给文生图）、片段提示（给视频插帧）、可选配乐提示。生成流程是两阶段：先用文生图模型生成关键帧，再用视频模型在相邻关键帧对之间插帧得到片段。插帧天然促进跨片连贯——每个边界关键帧既是上一片的终点又是下一片的起点。由于片段独立生成，任意一段可单独重生而不动其余部分。配乐由文生音模型对每段生成多个风格选项、创作者挑选并对齐（仅在短片案例中启用）。

2. 反馈智能体：人格化多模态 LLM 模拟真实观众，分"普通观众 / 影评人"两类

针对"奖励模型/LLM 评委反馈太窄、抓不到真实观众情绪"的痛点，反馈智能体让多模态 LLM扮演带人格的观众来看视频。人格不是直接复制评论，而是把某用户的评论历史（每个人格用 30 条评论）喂给 LLM 生成一个 persona，再用另一个 LLM 批评并迭代改进这个 persona（借鉴 Self-Refine 思想），从而捕捉用户的"语气和评论风格"而非照抄具体句子。智能体分两个类别提供互补反馈：观众人格智能体（评论数据来自 YouTube API）关注局部问题和观众情绪；影评人智能体（数据来自 Rotten Tomatoes、卫报等完整影评）关注叙事结构和电影感。反馈在关键帧级和片段级两个粒度生成，且因为各智能体独立运行，反馈生成可在众多人格间并行。论文给的实际例子很生动——影评人吐槽地铁场景"过于戏剧化、缺乏真实的拥挤挣扎感"，普通观众则吐槽"谁会在灯火通明的地铁站用手机手电筒看地图？"，两类视角既有重叠又各有侧重。

3. 反馈翻译器：把杂乱反馈抽成 issue 元组、排序，再用自然语言 Refiner 改提示

海量主观反馈如果直接喂回去会淹没系统，所以反馈翻译器先做 Issue Extraction：用 LLM 把原始反馈拆成结构化 issue 元组，每个元组含"描述 + 高层类别（叙事/节奏/角色/视觉/技术）+ 紧急度（低/中/高）"。直接摘要会得到一个钝化的总结、漏掉关键问题，而结构化元组保留细节并支持排序过滤。Aggregation & ranking 按类别独立汇总、各类用最高频 issue 代表，每个摘要给一句综述 + 三条代表性抱怨 + 支持数，关键帧级和片段级分别汇总以提供局部与全局反馈；支持数不够的归为次要问题单独列。最后 Refiner 是一个自然语言提示改写接口：拿当前提示 + 反馈，产出融入反馈的新提示——全程自然语言，创作者无需懂提示工程。

4. 两种运行模式：自主精修（带 Planner）vs 创作者把关的影片生成

CHIEF 按创作者介入深度提供两种配置。自主精修 + 创作者监督：适合约 1 分钟的短片，系统闭环自动处理局部问题（物理瑕疵、提示遵从失败），以原始脚本为语义锚防止漂移；其中 Planner（仅此模式启用）像创作者一样接收摘要反馈、指挥 Refiner，并输出两阶段计划——先修结构问题（角色相对位置等）、再修风格问题（光照色调一致性），保证"结构正确先于风格精修"；还有一个独立智能体做跨帧一致性安全检查，不过关就让 Refiner 重写。创作者驱动的影片生成：适合更长更复杂的视频（如 10 分钟短片），采用创作者把关式精修——每次精修和重生都要创作者批准，且一致性锚点从"脚本"换成"创作者选定的前一关键帧"（同时作为视觉参考喂给关键帧生成器），让长弧线里"第 2 场出现的角色到第 11 场长得一样"；因为重生一个关键帧可能级联影响后续场景的视觉连贯，所以由创作者门控这一步以防意外连锁改动。

实验关键数据¶

评估设置¶

作者刻意不用 VBench、VBench 2.0、VideoReward 等标准基准——这些基准沿预设维度评单条短片、奖励视觉保真和聚合人类偏好，但无法衡量一段视频是否兑现了它的叙事意图。CHIEF 的成功标准更主观，因此以两种配置的定性观察为主。

配置	场景	评估方式	关键结果
自主精修 + 监督	1 分钟短片（Interview / Sausage Heist）	20 影评人 + 30 观众人格智能体，5 轮迭代	局部视觉瑕疵逐轮被修复并累积
创作者驱动影片	10 分钟剧情短片（中学生制作）	真人现场观众评分	CHIEF 版 4.1/5 vs 基线 2.4/5

定性发现（关键帧逐轮演进）¶

案例	基线问题	精修后
Interview·关键帧1	站台半空、单个主体	密集通勤人群 + 运动模糊，营造高峰氛围
Interview·关键帧2	误加的手机手电筒效果	去掉手电、人群密度增长
Interview·关键帧3	漂浮的包（artifact）	后续迭代中移除
Film·Core	通用实验室、被动旁观者	紧张潜入、主动干预 + 危险线索

关键发现¶

两类智能体反馈互补：影评人提脚本级/结构可预测性问题，观众人格提更接地气的视觉连贯问题；两者在大问题上重叠、在侧重点上不同。
结构先于风格：Planner 的两阶段计划让系统先把"角色位置、物体关系"等结构问题修对，再去调光照色调，避免在错误骨架上做无用的风格打磨。
人在环路对长内容更关键：自主反馈适合短尺度的小改进，而 10 分钟影片的叙事弧和情感推进必须靠创作者把关——这也解释了为何长片用创作者门控、短片用自主精修。

亮点与洞察¶

诊断到点子上：指出视频生成框架"从代码生成误继承了自主闭环假设"，而视频是主观创作任务——这个框架性洞察比具体模块更有价值。
人格化观众智能体：用评论历史 + Self-Refine 造出有"口吻"的虚拟观众，拿到的是带情绪的真实观众视角而非冷冰冰打分，这种"用 LLM 模拟受众"的思路可迁移到广告、UX、内容审核等任何需要"受众反应"的场景。
结构化 issue 元组 + 紧急度排序：把海量主观反馈变成可排序可过滤的可执行项，是把"一堆吐槽"接进自动化管线的实用工程范式。
一致性锚点随模式切换（短片锚脚本、长片锚前一关键帧）：对"长视频角色漂移"这个老大难给了一个轻量但有效的答案。

局限与展望¶

几乎全是定性评估：仅一次真人现场打分（4.1 vs 2.4，样本小、单场），缺可复现的量化指标，难横向对比——作者也承认主观成功难用固定 rubric 衡量。
这是 workshop 论文，更像系统/案例展示而非严格基准研究；规模有限（少数视频、少数创作者）。
强依赖闭源 API（Imagen 4.0、Veo 3.1、ElevenLabs、Gemini 2.5 Flash），可复现性与成本受第三方约束。
人格由 30 条评论生成，是否真能代表"真实观众" 缺乏验证，可能引入评论平台的人群偏差。
创作者把关虽提升质量，但也增加人力负担，与"让人人都能创作"的初衷存在张力；可探索按需触发反馈的自动化策略。

评分¶

新颖性: ⭐⭐⭐⭐☆ "人格化观众智能体 + 创作者驱动闭环"组合新颖，单个模块多为已有技术拼装
实验充分度: ⭐⭐☆☆☆ 主要定性案例，仅一次小样本真人打分，缺量化与可复现基准
写作质量: ⭐⭐⭐⭐☆ 动机论证清晰、模块描述具体、反馈例子生动
价值: ⭐⭐⭐⭐☆ 对人机共创视频是有启发的框架，落地与评估仍待完善