CLAWS: Creativity Detection for LLM-Generated Solutions Using Attention Window of Sections¶
会议: NeurIPS 2025
arXiv: 2510.17921
代码: GitHub
领域: AIGC检测
关键词: LLM创造力检测, 注意力分析, 数学推理, 幻觉检测, 白盒方法
一句话总结¶
提出 CLAWS,通过分析 LLM 在生成数学解答时对不同 prompt 区段的注意力权重分布,无需人工评估即可将生成内容分类为"创造性"、"典型"或"幻觉"三类。
研究背景与动机¶
近年来,经过 RL 训练的推理语言模型(RLM)在数学问题求解中取得了显著进步,但其创造力评估被严重忽视。现有研究主要集中在写作任务的创造力评估上(如 TTCW),数学推理中的创造力鲜有关注。
这一研究空白源于两大挑战:
创造力定义困难:如何界定数学解答中"创造性"的范围缺乏共识
依赖人工评估:数学创造力评估需要高水平领域专家,大规模标注成本极高
此外,过度抑制 LLM 生成以避免幻觉,可能同时扼杀创造性输出。因此,区分"创造性解答"与"幻觉解答"对最大化 LLM 输出的有效性和多样性至关重要。
方法详解¶
整体框架¶
CLAWS 框架包含四个阶段: 1. 生成阶段:RLM 根据结构化 prompt 生成数学解答 2. 特征提取:在生成过程中从注意力权重提取特征 3. LLM 评估器标注:GPT-o4-mini 和 Gemini-1.5-Pro 双评估器判定标签 4. 检测方法评估:基于提取特征的各方法分类性能对比
关键设计¶
Prompt 结构化分段:输入 prompt \(X = G|P|S|I\) 被划分为五个语义区段: - Guideline (\(G\)):创造力评估标准 - Problem (\(P\)):待解数学问题 - Reference Solutions (\(S\)):1~n 个典型参考解 - Instruction (\(I\)):生成创新解的指令 - Response (\(R\)):模型生成的回答
注意力权重矩阵构建:对最后一层 \(L\) 的每个注意力头 \(h\),在解码时间步 \(t\),提取注意力向量:
将所有时间步堆叠并补齐为统一维度:\(A_h^{(L)} \in \mathbb{R}^{T \times (\text{len}(X) + T)}\)
段落平均注意力计算(AVGA):
其中 \(\mathcal{U} \in \{G, P, S, I, R\}\),\(\mathcal{I}_{\mathcal{U}}\) 为各段落 token 索引集。
归一化注意力比率(CLAWS 特征):
损失函数¶
CLAWS 本身是无训练的特征提取方法。在结合下游分类器(XGBoost/MLP/TabM)时,使用标准交叉熵损失进行三分类训练。
三类标签定义: - 幻觉解答:两个评估器均未判定为"正确" - 创造性解答:两个评估器均判"正确",且至少一个判定有"创造性" - 典型解答:两个评估器均判"正确",且均未判定有"创造性"
实验关键数据¶
主实验¶
在5个 RLM(7-8B 参数)上,使用 Prototype 策略评估 CLAWS 与5种基线方法:
| 模型 | 方法 | TEST F1w | AMC F1w | AIME F1w | A(J)HSME F1w |
|---|---|---|---|---|---|
| DeepSeek | Perplexity | 48.09 | 44.56 | 55.93 | 42.34 |
| DeepSeek | CLAWS | 58.66 | 46.71 | 56.90 | 38.82 |
| Mathstral | Hidden Score | 49.86 | 37.37 | 65.96 | 33.42 |
| Mathstral | CLAWS | 63.20 | 51.47 | 65.25 | 49.13 |
| OpenMath2 | Window Entropy | 40.89 | 43.44 | 40.55 | 42.45 |
| OpenMath2 | CLAWS | 超越所有基线 | — | — | — |
消融实验¶
- CLAWS 五维特征的可视化显示三类解答在注意力分布上有明显差异模式
- 创造性解答对 Reference Solutions 段的注意力较高,幻觉解答对 Response 段的自注意力异常高
- 结合 TabM 分类器时,CLAWS 性能进一步提升
关键发现¶
- CLAWS 在大多数模型和数据集上的 F1w、F1m、APm、AUROC 四项指标均优于5种基线方法
- CLAWS 是唯一能稳定实现三分类(而非退化为二分类)的方法
- 创造力高的模型(如 Qwen)对 Guideline 段和 Solutions 段的注意力分配与低创造力模型存在系统性差异
- 结合 TabM 分类器时,CLAWS 性能进一步提升
亮点与洞察¶
- 核心洞察:创造性生成依赖模型对 prompt 各部分的差异化关注——创造性解答更多关注参考解和题目,而幻觉解答对自身回复的注意力异常高
- 实用价值:CLAWS 只需单次推理即可完成检测,无需额外模型调用或多次生成
- 三分类能力:首次实现对"创造性/典型/幻觉"的同时检测,而非仅做幻觉二分类
- 通用性:跨5个 RLM 和多个数学竞赛数据集保持一致优势
局限性¶
- 仅在数学推理任务上验证,未拓展到代码生成或科学推理等其他推理任务
- 创造力标签依赖 GPT-o4-mini 和 Gemini-1.5-Pro 的评估质量,非真正人工标注
- 仅测试了 7-8B 参数量的模型,对更大参数模型的注意力模式差异未知
- Creative 类样本数量远少于其他两类(类不平衡问题),影响检测性能
- 仅利用最后一层注意力权重,多层聚合可能提取更丰富信息
相关工作与启发¶
- 与幻觉检测的关系:传统方法(SelfCheckGPT、INSIDE)需多次生成或外部模型,CLAWS 实现单次白盒检测
- 与 RL 推理的联系:RL 训练的推理模型展现的创造力差异,可通过注意力模式量化
- 启发方向:可将 CLAWS 的分段注意力分析推广到代码生成的创造力评估,或用于 RL 训练过程中筛选高质量创造性解答作为训练数据
评分¶
- ⭐ 创新性:4/5 — 首次从注意力分段角度系统化地定义和检测数学推理中的创造力
- ⭐ 实用性:4/5 — 零额外计算开销的白盒检测方案,工程上易集成
- ⭐ 实验充分度:4/5 — 5个模型、4个数据集、5种评估策略组合全面
- ⭐ 写作质量:3/5 — 框架清晰但符号较多,部分实验细节需查阅附录