POEMetric: The Last Stanza of Humanity¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=9VkJ058cTa
代码: https://github.com/Bingru-Li/POEMetric
领域: LLM 评测 / 创意写作基准
关键词: 诗歌生成、LLM 评测、创意能力、LLM-as-a-judge、人类专家校验

一句话总结¶

本文提出 POEMetric——第一个系统评估诗歌生成的框架，用 10 个维度（基础指令遵循 + 高级创作能力 + 总体评价）、203 首人类定型诗 + 30 个 LLM 生成的 6090 首诗，通过「规则算法 + LLM 评委 + 人类专家」三方互证，量化地证明了：顶级 LLM 在格律和主题上已逼近满分，但在创意、个性、情感共鸣、意象与修辞这些「诗之所以为诗」的能力上仍远不及人类诗人。

研究背景与动机¶

领域现状：LLM 在数学、代码、推理这类逻辑任务上表现亮眼，但艺术与人文方向少有人触及，尤其是文学写作。诗歌因其「在受限形式内同时压缩语言精度、情感共鸣与文化素养」的特点，被作者视为检验 LLM 生成能力的最佳棱镜——格律工整、篇幅短小，便于做可量化的诊断。

现有痛点：已有诗歌生成工作（ByGPT5、PoeLM、GPoet 等）大多只盯着「格律 / 押韵的形式准确率」，已经证明 LLM 能写出形式合规的诗；而已有评测要么停留在 meter/rhyme accuracy、BLEU、困惑度这类客观形式指标，要么用 fluency/coherence 这种泛泛的文本生成通用维度。真正构成诗歌灵魂的——创意、作者意图与情感、意象与修辞之美——几乎无人系统评估。

核心矛盾：诗歌质量的本质是「高级、主观、需要文学批评训练才能判断」的能力，而它恰恰最难被自动化量化；可一旦完全依赖人类专家逐首标注，又因专家稀缺、单首标注极耗时而无法规模化。形式合规 ≠ 好诗，但现有指标只会量形式。

本文目标：构造一个既覆盖诗歌高级创作维度、又能在 6000+ 首诗规模上跑得动、且结果可信的评测框架，并用它回答「SOTA LLM 离人类诗人还有多远」。

切入角度：把传统文学批评（尤其是「实用批评 / Practical Criticism」）里批评家真正关注的要素，蒸馏成一组可打分的维度；同时用「规则客观指标 + LLM 评委 + 小样本人类专家校验」做三角互证，在规模与可信之间取平衡。

核心 idea：用一套扎根文学理论的 10 维指标 + 三方互证的评测协议，把「诗写得好不好」这件主观的事变成可复现的基准，从而把 LLM 与人类诗人放在同一把尺子下对比。

方法详解¶

整体框架¶

POEMetric 不是一个模型，而是一套「数据集 + 指标体系 + 评测协议」三件套的诗歌评测基准。整体流程是：先构建一个标注精细的人类诗歌数据集（203 首、7 种定型诗）作为金标准与生成提示的来源；再把每首人类诗的「形式 + 格律 + 押韵 + 主题」塞进同一个 prompt 模板，让 30 个 LLM 各写一遍，得到 6090 首机器诗；然后用 10 个评测维度（分基础指令遵循、高级创作能力、总体评价三层）去衡量人类诗与 LLM 诗；最后用三种互不相同的评判手段——手写的规则算法、Gemini-2.5-Pro 充当的 LLM 评委、以及 7 位人类专家——分别打分并交叉验证，确认这套自动化评测可信。输入是「定型诗形式 + 主题」，输出是「人类 vs 各 LLM 在 10 个维度上的得分对比」。

整条管线没有可训练参数、也没有反馈回环，本质是「数据 → 多模型批量生成 → 多评委多维度打分 → 一致性校验」的线性评测流水线，因此不画 pipeline 图；关键全在数据集怎么标、10 个维度怎么定义、三方评测怎么互证。

关键设计¶

1. 人类定型诗金标准数据集：用「可量化的形式约束」锚定主观评测

作者刻意只收定型诗（fixed-form poetry）而非自由诗，理由直白：定型诗有明确的格律与押韵约束，能先建立一个可量化的客观基线，再在此之上去验证那些更主观的高级指标——否则一上来就评自由诗，主观维度无从校准。他们从 Poetry Foundation 与 Academy of American Poets 两个库共抓 1309 首，再用自写算法逐首检测 meter/rhyme，只保留真正符合某种韵律模式的诗，最终留下 203 首：95 首 ballad、71 首 sonnet、12 首 villanelle、9 首 ghazal、7 首 sestina、6 首 limerick、3 首 pantoum，共 7 种诗体，时间跨度从 1800s 至今、既有名家名作也有冷门新作。每首都标注了作者、标题、来源、诗体、格律模式、押韵模式、主题与意象。这个数据集既是评测的金标准，也是 LLM 生成的提示来源——保证人机同题同形式，对比才公平。

2. POEMetric 十维指标：把文学批评蒸馏成可打分维度

这是框架的核心贡献，10 个维度分三层。基础指令遵循（2 维）：form accuracy（是否按指定 meter/rhyme 写）和 theme alignment（是否切合给定主题）。高级创作能力（6 维）：creativity（是否新颖有创意）、lexical diversity（用词是否丰富）、idiosyncrasy（是否体现作者个人特质）、emotional resonance（是否引发情感共鸣）、use of literary devices（评 simile / metaphor / personification / allusion 四类修辞）、use of imagery（是否能唤起鲜明画面、调动读者感官）。总体评价（2 维）：overall poem quality（这首诗好不好）和 authorship estimation（判断是人写还是 LLM 写）。这 6 个高级维度是作者从「实用批评」里批评家分析诗歌时真正聚焦的要素中蒸馏出来的，正是以往评测缺失、却最能区分「合格句子」与「好诗」的部分。

3. 三角互证评测协议：规则算法 + LLM 评委 + 人类专家校验

为兼顾规模与可信，作者用三种异质评判互相印证。规则算法给客观维度兜底：手写流程自动检测每首诗的 meter/rhyme 以算 form accuracy；lexical diversity 用 MATTR（Moving Average Type-Token Ratio）按作者跨诗求均值；creativity 量化为「LLM 诗相对原人类诗的用词重复率」（重复越多越像模仿、创意越低）。LLM 评委负责大规模主观打分：先做 pilot 比较 Gemini-2.5-Pro / DeepSeek-R1 / GPT-4o，发现 Gemini-2.5-Pro 与人类一致性最高（PAo \(=0.662\) vs. \(0.548/0.438\)）、在 overall quality 上区分度也最好（Std. Dev. \(0.63\) vs. \(0.20/0.22\)），故选它作为唯一评委对全部诗按 10 维打分（5 点 Likert）。人类专家校验确保 LLM 评委可信：经 IRB 批准招募 7 位有诗歌研究 / 英文文学背景的专家（含职业诗人、博士、博后、教授），匿名评一个 58 首的代表性子集，做 10 道选择题 + 3 道开放题。三方一致性用 Proportion Agreement Observed 衡量：

\[\mathrm{PAo} = \frac{2A}{n_A + n_B}\]

其中 \(A\) 为两评委一致的次数，\(n_A, n_B\) 为各自评分总数。Gemini 与人类在 10 道题上 PAo 达 \(0.662\)，并辅以 Quadratic Weighted Kappa \(\kappa=0.361\)、Spearman \(\rho=0.378\)，与已有 LLM-人类一致性研究（如 \(\rho\approx0.41\sim0.42\)）相当，说明自动化评测结果稳健可用。

实验关键数据¶

主实验¶

30 个 LLM（7 家公司）各对 203 个提示生成，共 6090 首机器诗，与 203 首人类诗对比。以 Gemini-2.5-Pro 为评委（满分 5.00），代表性结果如下：

维度	人类	最佳 LLM	说明
Form Accuracy	—	Gemini-2.5-Pro 4.26	顶级 LLM 形式准确率高；Llama-3.3-70B 仅 2.29
Theme Alignment	—	Gemini-2.5-Pro 4.99	主题对齐普遍接近满分
Creativity	4.02	DeepSeek-R1 3.31	人类显著领先
Idiosyncrasy	3.95	DeepSeek-R1 2.17	LLM 个性最弱，差距最大
Emotional Resonance	4.06	DeepSeek-R1 3.53	人类领先
Imagery	4.49	DeepSeek-R1 4.30	人类领先
Literary Devices	4.67	DeepSeek-R1 4.38	人类领先
Lexical Diversity	3.82	DeepSeek-R1 3.85	唯一 LLM 反超人类的维度
Overall Quality	4.22	DeepSeek-R1 3.20	人类大幅胜出

核心结论：LLM 在「基础指令遵循」上几乎追平甚至超越人类，但在全部高级创作维度（除词汇多样性外）上集体落后，overall quality 上人类以 4.22 完胜最佳 LLM 的 3.20。

规则评测与缩放分析¶

现象	数据	含义
规则 form accuracy	Gemini-2.5-Pro 0.50、Claude-3.7 0.47	自动检测算法可区分模型形式能力
MATTR	LLM > 人类	LLM 词汇多样性更高
重复率	LLM 远高于人类	LLM 对人类原作有明显「模仿/复读」痕迹
参数规模	同族越大越好	但「思考型」未必更强（GPT-4o/GPT-4 > o1/o3-mini）
蒸馏模型	普遍弱于原模型	例外：Distill-Llama-3.3-70B 反超原版

关键发现¶

idiosyncrasy（个性）是人机差距最大的维度：LLM 普遍缺乏个人独特性与生命体验，最佳 LLM 仅 2.17 而人类 3.95——这暗示「个性」最难被模型习得。
形式易、灵魂难：顶级 LLM 能把 meter/rhyme/theme 做到接近满分，却写不出有创意、有情感、有个人印记的诗，印证「合格句子 ≠ 好诗」。
评委可识别作者：Gemini-2.5-Pro 在未告知作者的情况下，仍认出 203 首人类诗中的 80 首（39.4%，靠背诵原作或识别诗人风格）；人类专家认出原作更少，但几乎总能判断「这是人写的」。
思考型 ≠ 更会写诗：推理增强并不必然带来更好的诗歌，DeepSeek-R1-Distill 多数比原模型差，说明创意能力与推理能力并非同一回事。

亮点与洞察¶

「重复率反推创意」的巧思：把 creativity 量化为「LLM 诗相对人类原作的用词重复率」，用一个可计算的客观量去逼近一个高度主观的概念——重复越多越像模仿，越缺创意。这个代理指标廉价、可复现，可迁移到其他「原创性 vs 模仿」的生成评测。
三方互证而非单一评委：规则算法、LLM 评委、人类专家三者既各管一摊（客观/规模/可信）又互相校验，并用 PAo + Kappa + Spearman 给出量化一致性，是把「主观艺术评测」做得可信的范式。
定型诗作为评测脚手架：先用有硬约束的定型诗建立可量化基线，再去验证主观维度——这种「先锚定可量化、再外推到模糊」的思路，可推广到 free verse 乃至其他创意写作（小说、散文）评测。
「最后一节」的命题感：标题「The Last Stanza of Humanity」呼应了核心发现——idiosyncrasy 与情感共鸣这些「人之为人」的能力，是当前 LLM 最难逾越的诗歌堡垒。

局限与展望¶

只评英语：作者承认本文仅检验英语诗歌，虽声称 POEMetric 也适用于低资源语言，但未实证。
只评定型诗：自由诗（free verse）这一现代诗歌主流形式被排除在外，作者将其留作未来工作；而定型诗上 LLM 的形式优势是否能推广到无固定约束的自由诗，尚未可知。
人类校验样本偏小：专家只评了 58 首（部分分析甚至只 13 首人类诗），子集代表性与统计功效有限；高级创作维度的「人类金标准」本身也带主观性。
单一 LLM 评委的潜在偏置：虽经 pilot 选出一致性最高的 Gemini-2.5-Pro，但用一个 LLM 评所有诗仍可能引入系统性风格偏好；且评委能「认出」近 40% 人类原作，意味着 authorship/quality 打分可能受「记忆泄漏」污染。
改进思路：扩展到多语种与自由诗、引入多 LLM 评委集成去偏、对评委「认出原作」做去记忆化处理（如改写表层、控制训练集泄漏），都能提升基准的公平性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一个把文学批评蒸馏成可量化 10 维、并三方互证的诗歌评测框架
实验充分度: ⭐⭐⭐⭐ 30 个模型 6090 首诗规模大，但人类校验子集偏小、仅英语定型诗
写作质量: ⭐⭐⭐⭐⭐ 动机扎实、文学理论与量化指标衔接自然，结论清晰有命题感
价值: ⭐⭐⭐⭐⭐ 为「LLM 创意写作离人类还有多远」提供了可复现的标尺与诊断维度