StratMem-Bench: Evaluating Strategic Memory Use in Virtual Character Conversation Beyond Factual Recall¶

会议: ACL2026
arXiv: 2604.26243
代码: https://github.com/seucoin/StratMem-Bench.git
领域: LLM 评测 / 虚拟角色对话 / 长期记忆
关键词: strategic memory use、虚拟角色、长期对话、记忆选择、LLM 评测

一句话总结¶

StratMem-Bench 将虚拟角色对话中的记忆分成 must、nice 和 irr 三类，评估模型是否能在保证事实需求的同时主动加入有益记忆并抑制无关记忆，揭示当前强 LLM 在“支持性记忆选择”上仍明显不稳。

研究背景与动机¶

领域现状：长期对话和虚拟角色系统通常会给模型配备外部记忆，让角色能记住过去经历、用户偏好和人物设定。现有 benchmark 多数评估 factual recall，也就是相关事实是否被找回并反映在回答中。

现有痛点：人类对话中的记忆使用不是越多越好。某些记忆是回答问题必须使用的，有些只是能让回答更自然、更有共情或更个性化，还有些虽然在记忆库里但当前场景不该提。如果 benchmark 只看是否召回事实，就无法衡量这种选择能力。

核心矛盾：虚拟角色既要像真实人一样主动、贴心，又不能把无关私事硬塞进回答。模型需要在 proactivity 和 risk aversion 之间动态平衡。

本文目标：构建一个明确区分 required、supportive 和 irrelevant memories 的评测集，并设计指标衡量模型是否能“该用的全用、可用的适度用、不该用的不用”。

切入角度：论文借鉴 Gricean Maxims，把 must 记忆对应事实正确性，把 nice 记忆对应适量信息与社交连贯性，把 irr 记忆对应相关性违反。

核心 idea：把记忆从静态事实仓库改写为对话中的动态资源，评估模型在当前 query、persona 和 history 下对每条记忆的功能性判断。

方法详解¶

整体框架¶

StratMem-Bench 把虚拟角色对话中的记忆使用建模成一个条件响应生成任务：每个样本给模型一段对话历史、当前用户问题、角色 persona 和一池未标注的记忆，模型看不到任何标签，必须自己判断哪些记忆对当前回答有功能贡献，并据此生成单轮回答。数据取自 LoCoMo 的多会话虚拟角色对话——作者从前若干 session 抽取记忆池和 persona，用后续 session 作为当前对话历史，再生成一个当前用户 query，使记忆来自过去、回答发生在之后，规避时间泄漏。整套评测的核心，是衡量模型能否做到"该用的全用、可用的适度用、不该用的不用"。

关键设计¶

1. 三类记忆角色的 instance-level 标注：让同一条记忆随 query 变换角色

如果把记忆固定成"相关"或"不相关"，就抹掉了对话目标的变化，而真实角色的记忆使用本质上是语境决策。StratMem-Bench 因此不按关键词重叠贴标签，而按记忆对当前对话目标的功能贡献，把每条记忆在当前 query 下分为三类：must 是回答正确性所必需的，nice 不是正确性必需但能提升个性化、共情或社交连贯性，irr 与当前目标无关、用了会偏题或突兀。比如"搬到新城市"在问住址时是 must，在问近况时可能是 nice，在问音乐偏好时则是 irr。标注先由 GPT-5.1 出初始标签，再经多名人类专家复核讨论，三名标注者在讨论前的 Fleiss' kappa 为 0.81，说明这种角色划分虽带主观性但协议相对稳定。

2. Strict Memory Compliance（SMC）：把战略记忆使用先压成 pass/fail

传统的平均质量分会把"漏用必需记忆"或"误用无关记忆"这类严重错误稀释掉，看不出记忆选择的瓶颈。SMC 用硬性规则刻画基本约束：must-only 样本要求所有 must 被用且 irr 不被用；nice-only 要求至少用一条 nice 且不用 irr；must+nice 要求 must 全用、nice 至少用一条且 irr 不被用。把战略选择先变成通过/不通过的二值判定，记忆选择上的硬失败才会被暴露出来，而不会被语言质量分掩盖。

3. MIQ、PES 与 CIR 行为画像：把"选对记忆"和"用好记忆"分开看

只有一个总分无法解释模型为什么失败——有的保守、回答干瘪，有的激进、乱塞无关记忆。本文用三个指标画出行为画像：MIQ 用 1–5 分评价被选记忆是否自然融入回答，衡量"用得好不好"；PES 衡量在有 nice 记忆可用时模型是否主动丰富回答，刻画 proactivity；CIR 衡量存在 nice 记忆时模型误用 irr 的比例，刻画 risk aversion。PES 和 CIR 往往此消彼长，必须一起看才能区分"太冷淡"和"太多嘴"两类失败，单看任一个都会误判模型的真实倾向。

这是一篇 benchmark 论文，不训练任何新模型。评测时所有模型用统一 instruction template，输入 persona、history、query 和未标注 memory pool，零样本生成单轮回答；为降低随机碰中 nice 的概率，作者把 nice 记忆过多的样本下采样到两条 nice。自动评估由 DeepSeek-V3.2 完成，记忆使用检测要求评估器引用回答中的具体证据并重复采样三次做多数投票，与人类专家在 1,130 个 memory-response pair 上的 Cohen's kappa 为 0.96，MIQ 与 300 条人工标注回答的 Cohen's kappa 为 0.69。

实验关键数据¶

主实验¶

数据集共有 657 个样本，must+nice 场景占多数，也是最接近真实角色对话的困难设置。

场景	样本数	平均记忆条数	平均每条记忆词数	评测含义
must-only	50	6.24	9.53	只需满足必要记忆并抑制无关记忆
nice-only	132	9.12	10.09	没有硬性事实需求，考察主动丰富
must+nice	475	8.97	9.75	同时满足事实、丰富性和抑制无关信息
Overall	657	8.79	9.81	全量评测

模型	SMC must-only	SMC nice-only	SMC must+nice	SMC All	MIQ All on pass
GPT-5.2	88.00	57.58	41.89	48.55	4.45
GPT-5-chat	90.00	46.21	41.68	46.27	4.56
Claude Sonnet 4.5	90.00	53.03	46.95	51.45	4.37
Gemini 3 Pro	78.00	49.24	48.21	50.68	4.21
DeepSeek-reasoner	76.00	48.48	39.16	43.84	4.12
Qwen3-235B	92.45	46.56	42.28	47.18	4.24

强模型在 must-only 上普遍能达到 76%-92% SMC，但 nice-only 和 must+nice 明显下降。也就是说，模型能处理“必须事实”，但不擅长判断“可以让对话更好的支持性记忆”。

消融实验¶

这篇论文没有模型结构消融，但提供了行为维度分解，可以视作评测诊断表。

模型	must-used MIQ	nice-used MIQ	irr-used MIQ	PES All	CIR All
GPT-5.2	4.48	4.22	2.99	56.01	13.01
GPT-5-chat	4.55	4.38	2.81	51.91	7.91
Claude Sonnet 4.5	4.36	4.18	3.05	62.48	15.82
Gemini 3 Pro	3.92	3.73	2.63	73.33	31.96
DeepSeek-chat	4.32	4.12	2.75	56.96	15.49
Qwen3-Max	4.14	4.04	2.64	57.76	19.77

关键发现¶

must 记忆一旦被正确选择，MIQ 往往较高，说明当前瓶颈主要在“选择哪些记忆”，而不是语言表达能力。
nice 记忆带来 enrichment tax：nice-used MIQ 通常比 must-used MIQ 低约 0.2，说明额外个性化信息更容易造成生硬或牵强整合。
irr 记忆会导致质量崩塌，irr-used MIQ 多在 2.6-3.1，说明无关记忆不仅偏题，也会破坏角色回答的连贯性。
PES 和 CIR 存在清晰 trade-off。GPT-5-chat 的 CIR 最低约 7.91，但 PES 也较保守；Gemini 3 Pro 的 PES 最高约 73.33，但 CIR 达到 31.96，主动性伴随更高无关记忆风险。

亮点与洞察¶

这篇论文把长期记忆评测从“能不能记得”推进到“该不该说”。对真实角色和个人助理系统来说，这比单纯 recall 更接近产品风险。
must、nice、irr 的划分非常实用。它承认对话质量不只是事实正确，还包括适度个性化和相关性控制。
SMC 是硬指标，MIQ 是质量指标，PES/CIR 是行为倾向指标。四者组合能把模型失败拆成“没用必需记忆、不会主动丰富、乱用无关记忆、整合质量差”等不同模式。
论文发现强模型在 SMC-pass 时 MIQ 仍高，说明提升战略记忆使用可能需要更好的 memory selection 或 policy，而不是单纯更强生成器。

局限与展望¶

评测只覆盖单轮 response generation，没有考察多轮对话中记忆选择策略如何随互动动态变化。
当前只处理文本记忆，没有覆盖声音、图像、外貌、位置等多模态角色记忆。
数据来自 LoCoMo 转换和合成流程，虽然有人类复核，但真实用户长期互动中的隐私、情绪和社交边界更复杂。
自动评估依赖 LLM judge，虽然与人工一致性较高，但仍可能对某些表达风格或模型家族存在偏好。

评分¶

新颖性: ⭐⭐⭐⭐☆ 从 factual recall 转向 strategic memory use，问题定义很清楚，指标组合也有现实感。
实验充分度: ⭐⭐⭐⭐☆ 覆盖多家强模型并有人类一致性验证，但缺少多轮和真实用户场景评测。
写作质量: ⭐⭐⭐⭐☆ 任务、指标和结论组织清晰，部分自动评估细节放在附录，主文读起来比较顺。
价值: ⭐⭐⭐⭐⭐ 对虚拟角色、个人助理和长期记忆 RAG 都很有参考价值，尤其能帮助诊断“太冷淡”和“太多嘴”两类失败。