P2P: Automated Paper-to-Poster Generation and Fine-Grained Benchmark¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=JojyT9niJL
代码: https://github.com/multimodal-art-projection/P2P
领域: 多模态VLM
关键词: 学术海报生成, 多智能体, 文档理解, 细粒度评测, 指令数据集

一句话总结¶

P2P 把论文到学术海报的生成拆成图表理解、内容组织和 HTML 版式编排三个带自检回路的智能体，并配套提出 P2PINSTRUCT 指令数据集与 P2PEVAL 双视角基准，用客观内容保真和主观整体质量同时评估生成海报。

研究背景与动机¶

领域现状：学术海报是会议交流里很重要的压缩媒介，需要把一篇长论文浓缩成若干视觉上可扫描的区域，同时保留标题、动机、方法、结果、图表和核心结论。过去自动生成海报的工作多偏模板、规则或子任务建模，例如先抽内容、再预测 panel 属性、再做布局；近期 LLM/MLLM 虽然能读长文档、写 HTML、理解图文关系，但直接让一个模型从论文生成海报仍然很不稳定。

现有痛点：海报生成不是普通摘要任务。它一方面要忠实保留论文里的可验证事实，不能把指标、图表含义和核心 claim 讲错；另一方面又要做二维空间设计，决定哪些内容突出、哪些图放大、文字和留白如何平衡。现有方法经常在两头失守：要么语义信息被模板压扁，要么视觉布局看似漂亮但丢掉科学细节。

核心矛盾：根本矛盾在于“科学保真”和“视觉表达”没有同一种评测语言。ROUGE/BERTScore 只能粗看文本重合，通用 VLM judge 又容易把审美偏好和事实正确混在一起；如果没有细粒度 checklist，就很难知道一个海报到底漏了哪张关键图、哪条实验结论或哪个方法步骤。

本文目标：作者希望同时解决三个子问题：第一，给出一个可替换底座模型的 paper-to-poster 生成 pipeline；第二，构建能训练这种任务的 instruction 数据；第三，建立能区分客观保真与主观质量的评测基准，让不同模型和系统可以被系统比较。

切入角度：论文的观察是，人类做海报通常不是一次性生成，而是先读论文、挑图表、重组章节、摆版，然后不断检查和修改。因此作者把任务拆成多个专业智能体，并在每个阶段加 checker-reflection，让模型先产出中间结果，再由对应检查器发现重复图表、内容遗漏、引用错误或布局问题。

核心 idea：用“多智能体生成 + 阶段性检查反思 + 双视角基准”替代单次端到端生成，把论文海报生成从一个黑盒创作任务变成可分解、可训练、可评测的多模态文档转换任务。

方法详解¶

整体框架¶

P2P 的输入是一篇研究论文 \(D\)，输出是一个由 HTML/CSS 渲染的学术海报 \(P\)。整体流程先由 Figure Agent 从论文里抽取并描述图表，得到视觉元素集合 \(F\)；再由 Section Agent 根据论文和图表描述生成海报文本与结构；最后 Orchestrate Agent 把文字和真实图表组装成网页原生海报，并通过 checker-reflection 对每个阶段做迭代修正。

论文把整个过程形式化为 \(P = A_{Orch}(A_{Sec}(D, F), F)\)，其中 \(F = A_{Fig}(D)\)。这个公式的重点不是复杂数学，而是说明最终海报并非直接从论文一次生成，而是显式依赖“图表理解”和“内容结构化”两个中间产物；这也解释了为什么 P2P 可以进一步收集中间输入输出，构造 P2PINSTRUCT 指令数据集。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入论文 D"] --> B["视觉元素处理：<br/>抽取并描述图表"]
    B --> C["内容结构生成：<br/>章节 schema 与海报文本"]
    C --> D["HTML 编排渲染：<br/>文本图表合成海报"]
    D --> E["双视角评测：<br/>P2PEVAL"]
    B --> F["指令数据沉淀：<br/>P2PINSTRUCT"]
    C --> F
    D --> F

关键设计¶

1. 视觉元素处理：先把图表变成可被语言模型可靠使用的语义单元

学术海报的视觉质量很大程度取决于图表选择和图文对齐，但论文 PDF 里的图、表、caption 并不是天然结构化的。P2P 的 Figure Agent 用 DocLayout-YOLO 抽取图表区域，再通过空间关系分析找到对应 caption，并让 MLLM 为每个视觉元素生成描述，形成 \(F_d = \{(v_i, c_i, desc_i)\}_{i=1}^n\)。这里 \(v_i\) 是裁剪后的图表及其元数据，\(c_i\) 是原 caption，\(desc_i\) 是模型生成的图表语义说明。

这个设计解决的是“模型看见图但不知道该怎么用”的问题。直接把原图丢给后续 LLM/MLLM，很容易出现图表重复、caption 错配或图像含义解释不充分；把图表先转成带 caption 和描述的语义单元后，Section Agent 在写海报内容时可以引用明确的图表索引，并把文字论述放在合适的视觉元素旁边。Figure Checker 会检查是否重复抽取、是否漏掉重要视觉元素，以及图表和 caption 是否配对正确；如果数量或匹配关系不对，还会降低检测阈值继续尝试，从而把早期 PDF 解析错误挡在后面之前。

2. 内容结构生成：动态推断海报 schema，而不是把所有论文塞进固定模板

不同论文的海报重点不同：方法论文可能需要突出 pipeline，benchmark 论文需要突出数据构成和指标，应用论文则可能更看重任务设置和案例。P2P 的 Section Agent 先读论文 \(D\)，动态生成一个 JSON 风格的结构 schema \(S\)，描述目标海报有哪些 section、每个 section 应覆盖什么内容，再由 Content Generator 根据 \(D\)、\(S\) 和图表描述 \(F_d\) 生成海报文本 \(P_{poster\_text} = M_{text}(D, S, F_d)\)。

这个环节的关键不是简单摘要，而是把线性论文重组为二维海报的信息架构。模型需要决定哪些贡献应该成为单独 panel，哪些实验数据应该和图表放在一起，哪些细节可以被压缩。Section Checker 则从四个角度检查生成结果：逻辑连贯性、核心贡献覆盖度、对原论文发现的忠实性，以及视觉元素引用是否正确相关。如果检查失败，系统会让 Section Agent 修改章节结构或内容，避免最终海报只是“看起来像摘要”，却没有正确表达论文的研究重点。

3. HTML 编排渲染：用网页原生格式把内容语义和视觉布局分开处理

Orchestrate Agent 接收海报文本和真实图表后，生成 HTML/CSS 形式的最终海报。作者选择 HTML 不是偶然的：HTML 允许用模块化 CSS 解耦内容语义和表现层，可以通过 flexbox 做自适应列布局，也更适合 LLM 生成和浏览器渲染。论文还强调三条编排原则：语义与展示解耦、颜色方案与机构或会议身份对齐、响应式且均衡的布局生成。

Poster Checker 负责检查渲染后的海报是否存在留白不均、元素错位、结构破碎等问题，并触发反思修改。一个细节是，P2P 在最终嵌入视觉元素时会省略原 caption，以提升海报视觉清爽度；caption 的信息已经在前面的图表描述和文字生成中被消化，最终布局更像人类设计海报时的“重表达”，而不是简单把论文图表原样搬运。

4. 双视角评测：把可验证事实和整体审美拆开打分

P2PEVAL 的核心判断是：海报好不好不能只问一个总分。作者把评测拆成 Fine-Grained Evaluation 和 Universal Evaluation。前者关注客观保真，用人工编写的 paper-specific checklist 逐项验证生成海报是否保留了官方海报里的关键视觉元素、方法细节、实验结论和研究重点；后者关注主观整体质量，用 10 个通用准则衡量标题作者准确性、图像质量、留白、语境相关性、图文比例、尺寸、视觉一致性、内容保真、信息流和自洽解释。

Fine-Grained 分数定义为 \(S_{fine} = \frac{\sum_{i=1}^{n}s_i}{\sum_{i=1}^{n}M_i} \times 100\)，其中 \(M_i\) 是第 \(i\) 个 checklist item 的最高分，\(s_i\) 是模型海报在该项上得到的分数。这个公式让“漏掉一个核心结论”和“漏掉一个次要装饰元素”的损失不同。Universal Evaluation 则先让 LLM 为 10 个通用维度打 0 到 5 分，再用基于 1701 个人类评分训练的 XGBoost 拟合最终整体分数，报告的 \(R^2\) 达到 0.92。这样做比让 LLM 直接给总分更可解释，也更接近人类在多个审美与内容标准之间做非线性权衡的过程。

5. 指令数据沉淀：把多阶段中间产物转成可训练资源

P2PINSTRUCT 来自 P2P 生成流程的中间结果，共包含 30,460 个高质量 instruction-response pairs。视觉元素处理部分产生 16,848 个图表描述样例，平均每个视觉元素约 192 tokens；文本内容生成部分来自 Section Generator、Content Generator 和 HTML Generator，共 13,612 个样例，响应平均超过 3,300 tokens。

这套数据的意义在于，它不是只教模型“写一段海报文案”，而是覆盖了从图表描述、结构生成、内容组织到 HTML 组装的完整 workflow。实验中微调后的 Qwen3-P2P、Qwen2.5-VL-P2P、InternVL3-P2P 均有明显提升，说明 P2P 不只是一个在线推理框架，也能反过来为端到端或半端到端模型提供训练信号。

一个完整示例¶

假设输入是一篇方法论文，PDF 里有 8 张图和 3 张表。Figure Agent 先用布局检测从页面中裁剪出候选图表，再根据 caption 位置把“Figure 1: Framework of ...”和对应图像配成一组；如果检测到 8 个 caption 但只抽到 6 个图，它会降低阈值重新检测，直到重要视觉元素基本对齐。随后 MLLM 为每个图表写出描述，例如“图 1 展示三阶段 pipeline，左侧为输入，中央为模型结构，右侧为指标对比”。

Section Agent 拿到这些图表描述后，不会机械照搬论文目录，而是生成海报 schema：左上角放问题背景，中间大 panel 放方法框架，右侧放主结果和消融，底部放结论与资源。Content Generator 写每个区域的短文本，并在方法段落里插入对图 1 的引用，在结果段落里引用最能说明提升的表格。Section Checker 如果发现主贡献没有覆盖或引用了无关图表，就要求重新组织文本。

最后 Orchestrate Agent 把文本、图表和颜色/布局规则合成 HTML/CSS。Poster Checker 会查看是否存在某列过长、大片空白、图片比例失真或元素错位；如果右侧实验列比其他列高很多，就通过反思修改列宽、压缩文字或重新分配 panel。最终输出的不是一张静态截图，而是可由浏览器渲染的 HTML 海报，便于进一步转成 PDF 或展示页面。

损失函数 / 训练策略¶

P2P 主框架本身是模型无关的编排 pipeline，不依赖一个端到端训练损失；它可以调用 Claude、GPT、Qwen、InternVL、DeepSeek 等不同底座模型。训练相关的部分主要来自 P2PINSTRUCT：作者用 P2P 中间产物构造指令数据，并在 Qwen3-8B、Qwen2.5-VL-8B、InternVL3-8B 等模型上做微调，得到 Qwen3-P2P、Qwen2.5-VL-P2P 和 InternVL3-P2P。

评测侧的“训练策略”体现在 Universal Evaluation 的 XGBoost 拟合：先让 LLM 对 10 个维度各打 0 到 5 分，再用 1701 条人类整体评分作为监督信号训练 200 棵树，并做 10 折交叉验证。这个模型学习的是人类如何把多个局部维度合成一个整体审美分数，而不是学习生成海报本身。

实验关键数据¶

主实验¶

论文在 P2PEVAL 上比较了 35 个模型/系统，包括闭源模型、开源模型、推理模式模型、视觉语言模型和用 P2PINSTRUCT 微调后的模型。P2P 用 Claude-3.7-Sonnet 作为主配置时，在 FineGrain 和 Universal 上表现最强之一，同时 human preference 也显示它相对 YuanBao 和原作者海报具有竞争力。

模型/系统	ROUGE-1	Judge 偏好率	FineGrain	Universal	说明
Claude-3.7-Sonnet / P2P	0.2745	0.5537	65.3962	37.2474	主配置，整体最强之一
Claude-3.7-SonnetR / P2P	0.2734	0.6281	65.8848	35.5062	推理/反思模式，FineGrain 更高
GPT-4.1-2025-04-14	0.2459	0.4793	60.2879	34.4700	闭源强基线
Deepseek-R1RT	0.1927	0.5333	62.5013	33.9701	开源/推理模式有竞争力，图表描述由 Claude 提供
Qwen3-P2P-8B	0.2882	0.4587	57.6622	32.4996	P2PINSTRUCT 微调后 ROUGE 最高

比较	Preferred or Tied	Strictly Preferred	结论
P2P / YuanBao	83.05%	54.35%	人类更常认为 P2P 至少不差，且过半严格胜出
P2P / Original	57.63%	35.59%	P2P 对原作者海报已有竞争力
YuanBao / Original	20.34%	12.40%	通用应用生成海报离人工海报仍有明显差距

消融实验¶

配置	FineGrain	Universal	说明
Multi Agent + Figure Describer + Reflection	65.3962	37.2474	完整系统
Multi Agent + Figure Describer，去掉 Reflection	64.4556	34.2229	保真小降，整体审美掉得更明显
Multi Agent + Reflection，去掉 Figure Describer	63.7388	35.1107	图表语义描述缺失会影响内容组织
只保留 Multi Agent	63.5806	33.1458	模块化仍有帮助，但缺少图表语义和反思
单次直接生成	60.7233	34.2554	FineGrain 掉点最大，说明中间处理能保护事实细节

输出格式	FineGrain	Universal	说明
HTML	65.3962	37.2474	最优，LLM 更擅长生成且浏览器渲染稳定
SVG	52.7408	30.6648	结构表达和渲染稳定性较弱
LaTeX	56.8756	25.2585	适合学术排版但对当前 LLM 生成不友好

关键发现¶

闭源模型整体仍强，Claude-3.7-Sonnet 在 FineGrain 和 Universal 上都领先；但 DeepSeek-R1、Qwen3 等带推理能力的开放模型也显示出可竞争的细粒度保真能力。
P2PINSTRUCT 对训练有实际价值：Qwen3-P2P-8B 的 ROUGE-1 达到 0.2882，高于原始 Qwen3 系列，并在 FineGrain/Universal 上相对 base model 有一致提升，说明中间任务数据能迁移到最终海报质量。
反思机制更明显改善 Universal 分数，Figure Describer 更直接影响图文对齐和内容组织；两者叠加时才得到完整系统的最高综合表现。
HTML 明显优于 SVG 和 LaTeX，说明对当前 LLM 来说，选择生成格式本身就是系统设计的一部分，而不是无关实现细节。

亮点与洞察¶

论文最清楚的贡献是把“生成一个漂亮海报”拆成可检查的中间任务。这样做让失败更容易定位：是图表抽错、内容漏掉，还是布局阶段崩了，而不是只得到一个不可解释的总失败。
P2PEVAL 的双视角设计很有启发。很多生成式任务也同时包含“事实是否正确”和“人是否喜欢”，把二者混成一个 reward 或 judge 分数会掩盖问题；本文用 checklist 保真 + universal 审美拟合，提供了更清晰的评测范式。
用官方海报反推 checklist 是一个聪明的数据设计。官方海报本身体现了作者认为值得展示的重点，annotator 再把这些重点拆成带权重的条目，比直接拿论文全文当 reference 更贴近海报任务。
P2PINSTRUCT 展示了多智能体 pipeline 的另一个价值：它不仅能推理时提高质量，还能自然产生中间监督数据。这个思路可以迁移到 slides generation、paper-to-blog、paper-to-video script 等复杂科研传播任务。

局限与展望¶

当前系统主要优化 HTML 输出。虽然 HTML/CSS 灵活且适合 LLM 生成，但很多学术用户仍需要 PowerPoint、PDF 或 LaTeX Beamer；论文也显示 LaTeX 和 SVG 格式性能明显下降，后续需要更稳的格式转换或原生生成能力。
多智能体加反思会带来更高推理成本和延迟。对于会议现场快速生成、在线编辑或大规模批处理，reflection 轮数需要作为质量和成本之间的可调参数，而不能默认无限迭代。
Checker-reflection 主要擅长修正结构、语法和明显布局问题，对深层语义错误仍受底座模型限制。例如高度专业的多面板图或复杂实验关系，如果模型本身缺乏领域理解，检查器也很难真正发现并修好。
P2PEVAL 的测试集来自 ACL 系列和 SciPostLayout 等公开资源，虽然覆盖多个学科，但规模为 121 对 paper-poster，未来仍可扩展到更多会议、更多 poster 风格和更多非英文论文场景。
Universal Evaluation 依赖 LLM 打 10 个维度再由 XGBoost 拟合人类偏好，解释性比直接总分好，但仍会继承 LLM 评分偏差；后续可以加入更多人类评审或专门的视觉布局度量。

评分¶

新颖性: ⭐⭐⭐⭐☆ 第一个系统化 paper-to-poster 多智能体框架加 benchmark/data 的组合很完整，核心技术组件本身多来自已有 LLM/MLLM 能力。
实验充分度: ⭐⭐⭐⭐☆ 覆盖 35 个模型、主结果、消融、人类偏好和输出格式分析，证据较丰富；但 P2PEVAL 规模和来源还可继续扩大。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，方法、数据和评测三条线互相支撑；部分 appendix 依赖较重，主文对训练细节交代略压缩。
价值: ⭐⭐⭐⭐⭐ 对科研传播自动化、复杂多模态生成评测和 LLM agent workflow 都有参考价值，尤其适合作为后续 paper-to-slides/poster 工具的基线。