跳转至

Interpreting Style Representations via Style-Eliciting Prompts

会议: ACL2026
arXiv: 2606.05716
代码: https://github.com/junghwanjkim/style-decoding
领域: 可解释性 / 风格控制
关键词: 风格表征, 风格提示词, 可解释表示, 文本风格控制, synthetic supervision

一句话总结

这篇论文把难解释的文本风格向量解码成可直接驱动 LLM 写作的 style-eliciting prompts,用“可控制性”作为解释标准,在风格恢复、合成文本风格控制和人类文本风格模仿上都优于直接让 LLM 描述目标文本风格的基线。

研究背景与动机

领域现状:style representation models 已经能把文本映射到表示写作风格的向量空间,用于 authorship verification、style comparison 和 style transfer 等任务。这些向量通常由对比学习训练,能捕捉词汇、句法、语气、修辞等多层风格信号。

现有痛点:风格向量有效但不透明。已有解释方法常让 LLM 直接读一段文本并生成自然语言 style description,但这种描述容易受 LLM 先验和幻觉影响,而且通常只是解释性文本,不一定能拿来稳定复现目标风格。

核心矛盾:一个好的风格解释不仅要“说得像”,还应该“用得上”。如果描述无法指导 LLM 生成同样风格的文本,那么它对风格表征的解释价值有限。

本文目标:作者希望把 latent style representation 转换成自然语言 style prompt。这个 prompt 一方面让人能读懂风格特征,另一方面可以直接作为控制指令,让 LLM 生成风格相近的新文本。

切入角度:论文反过来构造监督数据:先设计明确的风格 prompt,再让 LLM 按这些 prompt 生成文本;因为生成文本的“真实风格意图”已知,就可以训练 decoder 从文本的 style vector 恢复原始 style prompt。

核心 idea:用合成的 prompt-text 对监督训练一个 style decoder,把解释问题转化为 prompt recovery,并用生成后的风格距离来检验解释是否真正可操作。

方法详解

论文研究的问题是:给定风格表示模型 \(S\) 产生的向量 \(x\),学习一个 decoder \(D\) 输出自然语言 style prompt \(s\),使得 LLM 在该 prompt 下生成的新文本 \(y\) 的风格向量 \(S(y)\) 接近原始 \(x\)。直接搜索离散 prompt 空间不可行,所以作者构造 synthetic supervision,将目标换成从合成文本的风格向量恢复已知 prompt。

整体框架

数据构造分三步。首先,作者用 GPT-4o 生成并人工清洗 1,010 个具体风格特征,覆盖 26 个风格类别,如 sentence structure、tone、formality、descriptive density、abstraction level 等。其次,从 Reddit、StackExchange 和 Yahoo Answers 三个平台采样 300,000 个真实 QA 问题,并保留对应 human answers 用于后续人类风格评估。最后,随机组合 1 到 10 个不同类别的风格特征形成 style prompt,并用 Phi-4、Qwen2.5-14B 和 OLMo-2-13B 生成 stylized responses,得到 1.8M LLM responses 和 434,535 个 unique style prompts。

模型部分由 frozen style representation model、trainable projection module 和 frozen LLM decoder 组成。风格表示模型使用 Mistral-Nemo-Instruct-2407,经 author-labeled data 对比学习训练。projection module 是三层 feedforward network,将 style vector 投影成 20 个连续 token embeddings;这些 embeddings 与自然语言指令一起输入 Ministral-8B-Instruct,生成形如“The author uses ...”的 style prompt。

关键设计

  1. 从 prompt 生成文本,而不是从文本生成描述:

    • 功能:为风格解释建立可验证的 ground-truth prompt。
    • 核心思路:先采样具体风格特征组成 style prompt,再让 LLM 生成响应;训练时 decoder 从生成文本的 style representation 恢复 prompt。
    • 设计动机:直接让 LLM 描述已有文本会混入幻觉和遗漏;已知 prompt 生成的文本提供了明确监督信号。
  2. 连续 prompt 将风格向量接入冻结 LLM:

    • 功能:在不微调大语言模型主体的情况下,把 dense style vector 转成自然语言说明。
    • 核心思路:三层 MLP 把 style vector 映射为 20 个 token embeddings,作为 continuous prefix;冻结 LLM 根据这个 prefix 和任务指令生成 style prompt。
    • 设计动机:风格表征是连续向量,LLM 生成是离散文本;continuous prompt tuning 提供了一个轻量桥接层。
  3. 用控制效果评价解释质量:

    • 功能:检验 decoded prompt 是否能真正复现目标风格。
    • 核心思路:除了 prompt recovery 的 ROUGE-1、LaBSE 和 LLM-as-judge,作者还把 decoded prompt 用于生成新回答,并计算新文本与目标文本在 style representation space 中的 L2 距离。
    • 设计动机:风格解释如果不能指导生成,就只是描述;把控制效果纳入评价能更直接检验解释的操作性。

损失函数 / 训练策略

训练目标是 token-level cross-entropy,让 decoder 生成的 \(\tilde{s}=D(S(x))\) 匹配 ground-truth style prompt \(s\)。数据按 8:1:1 划分训练、验证、测试;decoder 训练 5 epochs,learning rate 5e-5,batch size 32,最佳 checkpoint 按 validation loss 选择。所有 Section 6/7 结果使用 180K LLM responses 测试集,Section 8 使用 60K human responses。训练使用 PyTorch-Lightning、HuggingFace Transformers、AdamW 和 WSD learning rate schedule,在 2 张 A100 上约 16 小时。

实验关键数据

主实验

场景 方法 Our Embedding L2↓ LUAR L2↓ StyleDistance L2↓
LLM 生成文本风格控制 Decoder (Ours) 26.07 6.01 6.82
LLM 生成文本风格控制 LLM Custom 35.39 9.10 8.24
LLM 生成文本风格控制 Wang et al. 2025 73.21 8.26 8.41
LLM 生成文本风格控制 Jangra et al. 2025 100.10 8.90 9.85
LLM 生成文本风格控制 Bhandarkar et al. 2024 102.89 9.02 11.87
LLM 生成文本风格控制 TinyStyler 49.97 11.40 10.82
人类文本风格 steering Decoder (Ours) 27.73 6.33 7.47
人类文本风格 steering LLM Custom 37.54 9.39 9.79
人类文本风格 steering Bhandarkar et al. 2024 35.53 9.31 8.94
人类文本风格 steering TinyStyler 54.69 11.77 14.38

L2 距离越低表示生成文本风格越接近目标。无论用训练中的 style embedding,还是用未参与训练的 LUAR、StyleDistance 表征评估,本文 decoder 都取得最低距离,说明它不是只过拟合某一个表征空间。

消融实验

组件/数据 数值或设置 说明
风格特征数 1,010 覆盖 26 个风格类别
QA 问题数 300,000 来自 Reddit、StackExchange、Yahoo Answers
合成回答数 1.8M 由 Phi-4、Qwen2.5-14B、OLMo-2-13B 生成
unique prompts 434,535 每个 prompt 组合 1-10 个风格特征
人类回答数 300K 用于真实人类写作风格 steering 评估
projection 输出 20 token embeddings 将 style vector 接入 frozen LLM
decoder LLM Ministral-8B-Instruct 主体冻结,只训练投影层

关键发现

  • Prompt recovery 任务中,论文报告本文方法相比 baselines 在 ROUGE-1、LaBSE 和 LLM-as-judge 上分别带来 76.0%、21.7% 和 42.8% 的提升。
  • 风格控制任务中,本文相对基线在 LLM-generated references 上带来 12.9% 的 L2 改善,在 human-written references 上带来 26.1% 的 L2 改善。
  • LLM-based style description baselines 在 prompt recovery 中甚至低于 random prompt baseline,说明“读文本后描述风格”并不等价于恢复驱动该文本生成的真实风格意图。
  • t-SNE 可视化显示,不同 style prompts 形成不同 clusters,语义相近风格也会在表征空间中靠近,支持“style representations 包含可解码风格信息”的前提。

亮点与洞察

  • 论文把解释性和可控性绑在一起,这是最有启发的地方。style prompt 不只是给人看的标签,而是一个可以直接拿去生成文本的控制接口。
  • 合成监督的设计很巧妙:如果从真实文本出发,很难知道真实风格标签;从 prompt 出发生成文本,虽然是 synthetic,但可以获得明确、细粒度、可组合的监督信号。
  • 评估使用多个 style representation,包括没参与训练的 LUAR 和 StyleDistance,降低了“只在自家 embedding 上有效”的疑虑。

局限与展望

  • 作者承认方法主要面向英语。不同语言的风格维度、句法表达和 LLM/风格表征质量都不同,跨语言泛化不能默认成立。
  • 数据域限定在在线 QA。模型能否泛化到小说、正式公文、学术写作、新闻报道或法律文本,还需要进一步评估。
  • 合成数据依赖 LLM 遵循 prompt 的能力。若 LLM 对某些细微风格特征执行不稳定,decoder 学到的也可能是 LLM 风格偏差,而不是更普遍的人类写作风格。
  • 当前 decoder 输出的是 prompt 级解释,还没有证明每个具体词汇或句法现象在 style vector 中如何编码;更细粒度的 attribution 或 disentanglement 仍是未来方向。

相关工作与启发

  • vs LLM style description: 直接提示 LLM 描述目标文本风格容易受内容和模型偏见影响;本文从 style vector 解码,并用 ground-truth style prompts 监督,解释更贴近表征本身。
  • vs style transfer: style transfer 通常要求保留输入内容并改变风格;本文不要求内容保留,而是解释和复现风格,因此更适合分析 latent style representations。
  • vs prompt discovery: 一般 prompt discovery 面向让模型生成目标输出或触发行为;本文的 prompt discovery 更细,目标是诱导特定写作风格,而且通过合成监督而不是 RL 搜索完成。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用 style-eliciting prompt 解释风格向量,并用控制效果验证解释,问题设定很漂亮。
  • 实验充分度: ⭐⭐⭐⭐☆ 三个任务、多个 baseline、多个 style representation 和人类文本评估都覆盖到了;缺少跨语言和跨文体测试。
  • 写作质量: ⭐⭐⭐⭐☆ 动机、数据构造和模型结构讲得清楚,附录数值补充充分;主文图形中的部分数值需要到附录查表。
  • 价值: ⭐⭐⭐⭐☆ 对可解释风格建模、个性化写作助手、persona simulation 和可控生成都有直接启发。