跳转至

How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in Italian

会议: ACL 2025
arXiv: 2505.21301
代码: 无(数据集公开在 GitHub 和 OSF)
领域: LLM 推理 / 认知科学
关键词: Conceptual Categories, Subordinate Level, Typicality, Category Organization, Cognitive Plausibility

一句话总结

通过构建首个意大利语下位类别心理语言学数据集(187 个基本类别),系统对比了人类和 LLM 在下位概念层级上的类别组织结构,发现两者的对齐度较低但在不同语义领域存在显著差异。

研究背景与动机

领域现状: - 概念是人类认知的"基本构件",人类可以在多个分类层级上理解同一实体(如:灰熊 → 熊 → 动物) - 认知科学中的分类层级分为三层:上位类别(superordinate,如"动物")、基本类别(basic,如"熊")、下位类别(subordinate,如"灰熊") - 既往研究主要关注基本层级和上位层级,对下位类别的探索非常有限 - LLM 在语言理解和生成方面表现接近人类,但其概念组织结构是否与人类一致仍高度争议

现有痛点: - 尚无研究系统考察人类和 LLM 在下位类别层面的概念组织差异 - 既往 LLM 评估主要在英语、上位类别上进行,缺乏其他语言和下位层级的探索 - LLM 经常生成不存在的(hallucinated)下位类别实例,且与人类产生的最典型实例严重不一致

核心矛盾: - LLM 的语义知识来源于纯文本分布,而人类的概念知识融合了语言和感知经验(如视觉、触觉) - 下位类别比上位类别更依赖精细的感知细节和语言组合能力,是测试 LLM 认知对齐度的理想场景

本文目标 - RQ1:人类如何在下位层级创建和组织基本类别? - RQ2:LLM 是否具有与人类相同的类别组织结构?

切入角度: - 构建全新的意大利语心理语言学数据集,让 365 名被试为 187 个基本概念生成下位实例 - 用同样任务 probe 多个 LLM,系统对比人类与模型的输出

核心 idea: - 首次在下位概念层级上比较人类和 LLM 的类别组织结构,揭示 LLM 在精细概念知识方面的系统性偏差

方法详解

整体框架

研究分为两个 Study: - Study 1:人类数据收集与分析(构建心理语言学数据集) - Study 2:LLM probe 实验(exemplar 生成 + 类别归纳 + 典型性判断)

关键设计

  1. Study 1:人类心理语言学数据集构建:

    • 功能:收集 365 名意大利语母语者为 187 个基本概念(属于 12 个上位类别)生成的下位实例
    • 核心思路:让被试尽可能多地列出某概念的下位类型(如"列出一种狗的类型"),计算 dominance(产生比例)、availability(可得性)、first occurrence(首次出现值)等指标
    • 数据清洗后得到 24,659 个实例,取 dominance ≥ 0.1 的保留 1,696 个主要实例
    • 关键发现:不同类别的实例丰富度差异巨大,FOOD 最多(270),PLANTS 最少(77)
  2. Study 2:LLM Exemplar 生成与对比:

    • 功能:让多个 LLM(LLaMA 3.1-8B/70B、LLaMA 3.2-3B、Mistral-7B、Mixtral-8x7B、NeMo-12B、LLaVA-7B、Idefics2-8B)为相同 187 个概念生成下位实例
    • 核心指标:
      • 有效实例比例(通过意大利语语料库 ItTenTen 频率验证)
      • 与人类 top-n 最典型实例的重叠率
    • 幻觉分析:LLM 倾向于通过结构性外推生成不存在的实例
  3. Subtask A:类别归纳(Category Induction):

    • 功能:给模型 10 个人类生成的最典型下位实例,让模型选出其基本类别或上位类别
    • 核心思路:通过 perplexity 选择最匹配的类别
    • 结果:基本类别识别准确率较高(mixtral-8x7B 达 98%),但上位类别显著更难(最高 64%)
  4. Subtask B:典型性判断(Typicality Detection):

    • 功能:给模型一个最典型和一个最不典型的实例,判断哪个更典型
    • 评估 LLM 是否对人类感知的典型性梯度敏感

损失函数 / 训练策略

  • 不涉及模型训练,纯推理/probe 研究
  • 使用 few-shot prompting 场景进行实例生成
  • 使用 perplexity 进行分类任务评估

实验关键数据

主实验

LLM 有效实例生成比例

模型 有效实例比例
LLaMA-3.1-70B 82%
NeMo-12B ~75%
Mistral-7B 52%
LLaVA-7B 44%
  • FOOD 类别有效率最高(85%),PLANTS 最低(52%)

Top-n 实例重叠率(人类 vs LLM):

模型 Top-1 Top-3 Top-5
nemo-12B 0.25 0.24 0.24
llama-3.1-70B 0.18 0.20 0.21
mistral-7B 0.13 0.12 0.13
idefics2-8B 0.08 0.10 0.10
  • 最佳模型(NeMo-12B)Top-5 重叠率也仅 24%

类别归纳准确率

模型 基本类别 上位类别
mixtral-8x7B 0.98 0.57
llama-3.1-70B 0.95 0.64
llama-3.1-8B 0.96 0.63

关键发现

  1. 人类与 LLM 的概念组织高度不对齐:最好的模型 Top-5 重叠率仅约 24%
  2. LLM 生成大量幻觉实例:通过结构外推生成看似合理但实际不存在的组合(如"橡树叶天竺葵")
  3. 不同语义领域差异显著:FOOD 和 ANIMALS 重叠率较高(~29-37%),BODY PARTS 和 FURNISHING 最低(~12-16%)
  4. 视觉模型未必更好:LLaVA 和 Idefics2 的表现反而更差,说明视觉预训练对下位概念组织帮助有限
  5. LLM 的类别组织"扁平化":LLM 缺乏人类那样的典型性梯度,生成的实例无明确的可得性排序
  6. 基本类别识别远优于上位类别:LLM 知道"拉布拉多是狗"但不太确定"拉布拉多属于动物"

亮点与洞察

  • 首次探索下位类别的人机对比:填补了认知科学与 NLP 交叉研究的重要空白
  • 跨语言视角:在意大利语上的研究为非英语 LLM 评估提供了新数据
  • 幻觉机制的深入分析:揭示了 LLM 通过"模仿已知模式进行组合外推"生成幻觉的系统性策略
  • 对 LLM 认知对齐研究的启示:LLM 的概念知识组织方式根本不同于人类,尤其在细粒度层级

局限与展望

  1. 仅在意大利语上验证,跨语言泛化性未知
  2. 使用 corpus frequency 验证实例有效性可能遗漏低频但合法的实例
  3. 下位类别的定义在不同文化和语言中可能有差异
  4. 未考虑 LLM 的训练数据中意大利语比例差异对结果的影响
  5. 视觉模型评估较简略,未使用带图像的 prompt
  6. 可以进一步探索 chain-of-thought 等高级 prompting 策略是否能改善 LLM 表现

相关工作与启发

  • Rosch (1975, 1978):原型理论奠基人,定义了分类层级和典型性效应
  • Nighojkar et al. (2022):用 Transformer 模拟语义流畅性任务,RoBERTa-Large 准确率仅 16%
  • Heyman and Heyman (2024):ChatGPT 的典型性评分与人类相似度约 0.60-0.64
  • Misra et al. (2021, 2023):LLM 在精细属性归因上与人类相关性仅 0.24-0.41
  • 启发:LLM 作为"认知模型"的局限性在精细语义层面尤为明显

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次在下位类别层面进行系统人机对比
  • 实验充分度: ⭐⭐⭐⭐⭐ — 人类数据+多 LLM probe+多子任务,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,认知科学背景介绍充分
  • 价值: ⭐⭐⭐⭐ — 对理解 LLM 语义组织和认知对齐有重要参考意义