跳转至

Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions

会议: NeurIPS 2025
arXiv: 2510.23772
代码: 无
领域: AI创造力 / 生成式AI
关键词: 国际象棋谜题, AI创造力, 生成模型, 专家评审, 反直觉

一句话总结

Google DeepMind训练了三种生成式神经网络(自回归Transformer、离散扩散、MaskGit)学习国际象棋谜题分布,通过强化学习优化谜题的唯一性和反直觉性,生成约400万个棋局位置,经奖励函数筛选和美学主题检测后,邀请三位世界级国际象棋专家评审,得到积极但带有建设性批评的反馈。

研究背景与动机

领域现状:生成式AI在文本、图像等领域展示了令人印象深刻的生成能力,但其在需要创造力的结构化领域中的能力仍存在争议。国际象棋谜题作曲(chess composition)是一个有数百年历史的创造性人类活动,要求作品具备原创性、反直觉性和美学优雅。

现有痛点:之前的AI系统在国际象棋领域主要用于两个方面:(1) 验证谜题的解是否正确(使用引擎验证),(2) 从现有数据库中挖掘有趣的位置。但真正从头生成新颖的、具有美学价值的谜题,这一步还没有系统性的探索。如何评估AI生成内容的"创造力"更是一个基本开放问题。

核心矛盾:创造力本身就是高度主观的——即使是顶级专家对同一个谜题的评价也经常分歧。定量指标(如引擎评估)可以判断正确性,但无法捕捉"惊奇感"、"美感"和"深度"。需要一种结合AI生成+人类专家评审的方法论来系统地评估AI创造力。

本文目标 AI系统能否生成具有美学吸引力、反直觉解法和创造性主题组合的国际象棋谜题?如何通过专家评审系统地评估这些谜题的创造力?

切入角度:选择国际象棋谜题作为研究创造力的理想载体——解有客观正确性(可验证),但美学有主观性(需专家判断);规则完全形式化但创造空间巨大。

核心 idea:用生成模型学习谜题分布,用RL优化反直觉性,用专家评审衡量创造力——建立一个从生成到评估的完整闭环。

方法详解

整体框架

整个系统分为三个阶段:训练生成模型 → 强化学习优化 → 筛选与专家评审。输入是Lichess的400万国际象棋谜题数据集,输出是一本精选的AI生成谜题集。

关键设计

  1. 多模型生成架构:

    • 功能:从数据中学习"什么样的棋盘位置可能构成好谜题"的分布
    • 核心思路:使用三种不同的生成式神经网络并行训练。棋盘位置编码为FEN(Forsyth-Edwards Notation)字符序列。自回归Transformer逐字符预测 \(p(c_t | c_1, ..., c_{t-1})\);离散扩散模型通过去噪过程生成完整FEN;MaskGit使用掩码-预测策略。三种模型的输出汇总后统一进入筛选流程
    • 设计动机:不同生成架构可能在不同类型的谜题上各有优势。自回归模型擅长序列一致性,扩散模型擅长全局结构,MaskGit在并行生成上有优势
  2. 强化学习优化与双重奖励设计:

    • 功能:将生成模型从"模仿训练数据"引导到"生成高质量谜题"
    • 核心思路:设计两部分奖励函数。(1) 唯一性检查(类似Lichess使用的方法):确保棋局位置有且仅有一个取胜着法,使用国际象棋引擎验证;(2) 反直觉性检查:确保该位置能被强引擎解决但不能被弱引擎解决——如果弱引擎也能找到解,说明解法太显而易见。然后选择最佳样本迭代训练网络
    • 设计动机:仅靠模仿学习生成的谜题可能是训练数据的"平均水平",缺乏惊奇感。RL引导模型向高奖励区域探索,生成更具挑战性和反直觉性的谜题
  3. 混合筛选管线(Reward + Theme Detectors):

    • 功能:从约400万个生成位置中筛选出值得人类评审的候选
    • 核心思路:先按奖励函数排名,再用美学主题检测器(如sacrifice、pin、fork等战术主题检测)分类。单独使用主题检测器不够精确,但与奖励排名结合后效果显著提升。对每个主题的前50个样本进行人工评审(由2200-2300 ELO评级的FIDE玩家验证),最终精选出一本谜题集送给三位专家
    • 设计动机:纯自动指标无法完全捕捉美学质量,但可以大幅缩小人工评审的范围。分层筛选(自动→半自动→专家)平衡了效率和质量

评审方法论

邀请三位世界级专家:国际象棋作曲大师Amatzia Avni(IM for compositions)、特级大师Jonathan Levitt、特级大师Matthew Sadler。每人独立选择最喜欢的谜题并解释理由。

实验关键数据

专家选择结果

谜题 Avni (IM) Levitt (GM) Sadler (GM) 关键特征
Puzzle 1 唯一获得全票:双车牺牲+后路重新部署,几何主题跨越两翼
Puzzle 2 长计算链,黑王主动前进至危险区
Puzzle 3 反直觉的车牺牲+安静着法收官
Puzzle 4 兵升变为马(非升变为后),反直觉
Puzzle 5 接近残局研究水准,自然位置+精确着法
Puzzle 6 优雅残局,黑方精确的王步
Puzzle 7 兵升变为马+闷杀主题组合,前所未见
Puzzle 8 惊人的逼和主题,"必胜"着法全部失败
Puzzle 9 转移注意力+闷杀经典主题的新演绎

消融/分析

方面 正面评价 建设性批评
美学主题 主题融合创新,"实战感"视角 部分位置过于简单
解法深度 某些反直觉着法令人惊叹 整体缺乏传统残局研究的深度和复杂性
位置自然度 Sadler特别重视自然位置 某些位置棋子摆放不现实
创造力 主题组合新颖(如升变马+闷杀) 需要更复杂的变例和更强的反击线

关键发现

  • 专家很少达成共识:9个精选谜题中,只有Puzzle 1获得全票。三位专家各自选择了不同的谜题,凸显了创造力和美感的高度主观性
  • 反直觉性是最受欢迎的特质:几乎所有被选中的谜题都包含反直觉的关键着法(双车牺牲、升变为马而非后、看似失败的着法)
  • "实战感"很重要:Sadler特别强调位置应该像真实对局中可能出现的,棋子摆放不自然的谜题会降低吸引力
  • AI展现了主题组合能力:Puzzle 7中升变马+闷杀的组合被Sadler评价为"从未见过",说明AI能发现人类作曲家可能忽略的主题交叉点

亮点与洞察

  • 评估方法论创新:建立了一个从AI生成到专家评审的完整闭环来评估AI创造力。这个框架可以迁移到其他创造性领域(音乐、数学猜想、药物设计)——关键是要有客观正确性判据+主观美学评估
  • "弱引擎过滤"的巧妙性:用"强引擎能解但弱引擎不能解"来定义反直觉性,这个操作性定义简单而有效。类比到其他领域:一个好的数学题应该是"专家能解但业余者不能"——这提供了一种自动化筛选创造性输出的思路
  • 主题组合的涌现:AI不只是复制训练数据中的模式,而是组合了不同主题(升变+闷杀)产生了人类专家认为新颖的结果。这暗示了生成模型在创造性组合上的潜力

局限与展望

  • 深度不足:专家一致指出AI生成的谜题缺乏传统残局研究的深度——变例不够复杂,侧线不够丰富。未来需要优化奖励函数以鼓励更深的搜索树
  • 位置自然度:部分生成位置的棋子摆放不现实(一方棋子明显错位),降低了美学价值。可能需要加入"位置自然度"作为额外的奖励信号,或从真实对局中采样初始条件
  • 评审规模有限:仅三位专家评审,且评审对象是经过高度筛选的精选集(400万→~50个候选→9个精选)。更大规模的评审和更多样的评审者可能揭示不同的模式
  • 缺乏定量创造力指标:论文主要依赖定性的专家评论。虽然这是合理的(创造力本身难以量化),但未来工作可以探索更结构化的评分框架
  • 没有与人类作曲家的直接对比:缺乏人类创作vs AI生成的盲测实验

相关工作与启发

  • vs AlphaZero/Stockfish: 传统象棋AI专注于对局中的最优着法。本文聚焦于生成有趣的位置——目标不是赢棋,而是创造美。这是AI从"解决问题"到"创造问题"的范式转变
  • vs 图像/文本生成AI: DALL-E、ChatGPT等的创造力评估通常缺乏客观正确性判据。国际象棋谜题的优势在于解有唯一正确答案(可验证),但美学有主观性(需专家),兼具两者使其成为理想的创造力研究测试平台
  • vs 数学猜想生成 (AlphaProof方向): 类似的"生成+验证+筛选"框架。两者的共同点是:生成空间巨大但好的输出稀疏,需要自动化筛选来聚焦人类注意力。棋谱谜题的工作可能为数学领域的AI创造力评估提供方法论参考

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性的AI国际象棋谜题创作+专家评审研究,方法论有参考价值
  • 实验充分度: ⭐⭐⭐ 专家评审质量很高但规模有限,缺乏定量指标和人类对比实验
  • 写作质量: ⭐⭐⭐⭐ 谜题展示精彩,专家评论生动有趣,技术细节指向附属技术论文
  • 价值: ⭐⭐⭐⭐ 为AI创造力评估建立了可参考的方法论框架,超越棋谱领域的启示性强