A Computational Method for Measuring "Open Codes" in Qualitative Analysis¶

会议: ACL 2026
arXiv: 2411.12142
代码: GitHub (开源软件包)
领域: 模型压缩
关键词: 归纳编码, 定性分析, LLM辅助评估, 代码空间聚合, 团队协作评估

一句话总结¶

提出一种基于理论的计算方法，通过LLM增强的代码合并算法和四个无需ground truth的指标（Coverage, Overlap, Novelty, Divergence），系统评估人类和AI在归纳定性编码中的表现。

领域现状：定性分析是社会科学中理解人类数据的核心方法，其中归纳编码（open coding）要求研究者直接从数据中发现模式和主题，而非依赖预设框架。随着生成式AI被越来越多地用于辅助编码任务，急需可靠的评估方法。

现有痛点：归纳编码的评估面临根本性困境——(1) 基于ground truth的指标（如inter-rater reliability）与归纳编码的开放性本质矛盾；(2) 聚类/主题一致性指标关注内部同质性而非概念广度；(3) 人工评估成本高、难以规模化。

核心矛盾：归纳编码追求的是"广泛捕获新颖见解"，而非"与标准答案一致"，现有评估方法无法反映这一特性。

本文目标：设计一套理论驱动、无需ground truth的计算指标，能够系统衡量人类和机器编码者在归纳编码中的贡献质量。

切入角度：借鉴团队编码方法（team-based approach），将多个编码者的结果聚合到共享分析空间，从而实现基于集体的相对评估。

核心 idea：通过LLM增强的层级聚类算法将多个编码者的codebook合并为聚合代码空间（ACS），然后用四个互补指标从不同维度衡量每个编码者的贡献。

系统分两步工作：(1) 将多个编码者的Code Space (CSP) 通过四阶段合并算法聚合为Aggregated Code Space (ACS)；(2) 基于ACS计算四个评估指标。

四阶段代码空间合并算法:
- 功能：将来自不同编码者的、可能用不同措辞表达相同概念的codes合并为统一的ACS
- 核心思路：Stage 1为朴素标签合并；Stage 2使用严格阈值的层级聚类按标签合并；Stage 3引入LLM生成定义，结合标签+定义合并；Stage 4使用双阈值迭代合并，加入基于示例重叠和唯一示例数的惩罚项 \(penalty\)
- 设计动机：单一阈值难以区分不同概念，双阈值+惩罚机制防止将不同概念错误合并，也避免小codebook产生不成比例的影响
四个无ground truth评估指标:
- 功能：从不同维度衡量编码者的贡献质量
- 核心思路：Coverage衡量编码者覆盖ACS的广度（加权）；Overlap衡量与他人的概念一致性；Novelty衡量独特贡献（仅自己发现的codes）；Divergence用Jensen-Shannon散度衡量分布偏离程度
- 设计动机：不同维度互补——高Coverage+高Overlap=可靠编码者；高Novelty+低Overlap可能意味着幻觉；组合解读比单一阈值更有诊断价值
编码者权重归一化机制:
- 功能：防止过度编码（flooding）导致的指标膨胀
- 核心思路：每个编码者的权重为 \(w_x = \frac{1}{\ln(size_x)}\)，其中 \(size_x\) 为其代码数量（下限为中位数），codes数越多权重越低
- 设计动机：如果编码者产生大量冗余codes，其每个code的贡献应被稀释，从而反映真实质量而非数量优势

本文不涉及模型训练。合并算法使用余弦距离作为语义相似度度量，阈值通过交互式验证选择（strict=0.32, upper=0.55）。使用开源本地模型（Gemma3-27B）和嵌入模型（mxbai-embed-large）确保数据隐私。

配置	Coverage变化	Overlap变化	Novelty变化	Divergence变化
Stage 2 vs 1	+0.09%	-0.09%	+0.05%	+0.37%
Stage 3 vs 1	+3.60%	+5.45%	+0.94%	-4.31%
Stage 4 vs 1	+7.02%	+7.86%	-1.64%	-1.91%