Perspective Transition of Large Language Models for Solving Subjective Tasks¶

会议: ACL 2025
arXiv: 2501.09265
代码: 无
领域: LLM/NLP
关键词: 视角转换, 主观任务, 置信度排序, ICL, 隐喻/讽刺/立场检测

一句话总结¶

提出 RPT（Reasoning through Perspective Transition），通过在同一 prompt 中让 LLM 依次探索直接/角色扮演/第三人称三种视角、按置信度排序、选最优视角推理，在 12 个主观任务、4 个模型（GPT-4/GPT-3.5/Llama-3/Qwen-2）上均超越固定视角与集成基线，GPT-3.5 上平均提升 +4.56 点。

研究背景与动机¶

领域现状：LLM 在数学推理、代码生成、常识问答等客观任务上表现优异，但在主观任务（隐喻识别、讽刺检测、暗色幽默判断、立场检测、文化相关 NLI 等）上仍然受限。BigBench 数据显示，PaLM-535B 在隐喻识别、暗色幽默、讽刺检测等任务上零样本准确率不超过 50%。

现有方法痛点： - CoT 类方法聚焦于"如何更深入思考"，却忽略了"从哪个视角思考"。对于主观任务，推理路径本身可能误导模型——论文 Figure 1 展示了 CoT 生成的推理链反而导致错误答案的案例。 - 不同主观任务适合不同视角：讽刺检测可能受益于角色扮演（调用领域专家知识），而立场判断可能需要第三人称旁观者视角以减少偏见。但没有单一视角在所有任务上最优。 - 已有视角方法各管一域：Zero-Shot-CoT 在修辞任务上强但在文化任务上弱（SocNorm 仅 40.07 F1），RiC 对话模拟在文化场景上好但修辞任务差。

核心矛盾：主观任务的多样性要求视角的灵活切换，但现有方法要么固定单一视角，要么简单集成（推理成本倍增）。

本文切入角度：受心理学"心智理论"（Theory of Mind）启发——人类能从自身和他人视角理解行为，类似地让 LLM 在多种视角间动态选择。

核心 idea：让模型在一个统一 prompt 中：(1) 探索多种视角；(2) 按置信度排序；(3) 选最高置信度视角给出最终答案。无需训练，纯 ICL 实现，且只需单次推理。

方法详解¶

整体框架：RPT（Reasoning through Perspective Transition）¶

RPT 分三步完成，但通过统一 prompt 在单次推理中一步到位：

Step 1 - 探索多视角：给定任务描述 \(\mathcal{D}\) 和问题 \(\mathcal{Q}\)，模型根据触发指令 \(\mathcal{T}_1\)（"从多种视角分析问题"）生成 \(n\) 个备选视角 \(\mathcal{P} = \{p_1, ..., p_n\}\)
Step 2 - 置信度排序：模型对每个视角评估置信度 \(\mathcal{C}\)，按"你认为该答案正确概率"排序
Step 3 - 最高置信度推理：选择排名第一的视角，按该视角完成推理并输出最终答案 \(\mathcal{R}\)

统一公式：\(\mathcal{T} = \mathcal{T}_1 \oplus \mathcal{T}_2 \oplus \mathcal{T}_3\)，\(\mathcal{P}, \mathcal{C}, \mathcal{R} = \mathcal{M}(\mathcal{D} \oplus \mathcal{Q} \oplus \mathcal{T})\)

关键设计 1：三种视角的定义与分工¶

功能：定义三种互补的推理视角
核心思路：
- 直接视角（Direct）：模型基于自身知识直接分析问题，不设定角色，类似 Zero-Shot 推理
- 角色视角（Role）：模型扮演与问题相关的专家角色（如语言学家、文化研究者），调用特定领域知识
- 第三人称视角（Third-person）：模型模拟多个 Agent 的讨论对话，以旁观者身份总结并给出答案
设计动机：直接视角适合知识密集型判断，角色视角能激发领域专业知识，第三人称视角通过多方讨论减少偏见。三者互补覆盖不同类型主观任务的需求。消融实验证明移除任意一种视角均导致性能下降。

关键设计 2：基于置信度的动态选择机制¶

功能：让模型自主评估每种视角的置信度并选择最优
核心思路：模型在探索阶段为每种视角给出置信度百分比（如"第三人称 85%，角色 70%，直接 60%"），然后自动选择最高置信度的视角进行最终推理
设计动机：不同问题适合不同视角，置信度排序让模型根据具体问题实例动态决策。与固定选择或简单多数投票相比，这种"自评估 + 选择"机制能更精细地适配每个问题。同时避免了集成方法需要多次推理的高成本。

训练策略¶

RPT 不需要任何训练，完全基于 in-context learning。所有步骤通过一个统一 prompt 完成，模型只需单次推理即可输出最终答案。温度设为 0 以确保输出确定性和可复现性。

实验关键数据¶

主实验：Zero-Shot 结果（12 个数据集，4 个模型的平均准确率/F1）¶

方法	类型	Llama-3-8B	Qwen-2-7B	GPT-3.5	GPT-4
Direct Prompt	单一直接	52.70	60.45	62.21	71.81
Zero-Shot-CoT	单一直接	57.94	62.12	63.06	72.83
Role-Play Prompting	单一角色	57.38	61.87	64.16	72.95
Reason in Conv. (RiC)	单一第三人称	60.85	65.10	68.85	78.18
Ensemble	集成	59.89	66.54	66.90	76.72
CoT-SC	集成	59.96	65.34	73.38	75.43
RPT (本文)	动态视角	64.12	68.64	77.94	80.81

关键亮点：RPT 在 Llama-3 上平均 +3.27（vs RiC），GPT-3.5 上 +4.56（vs CoT-SC），GPT-4 上 +2.63（vs RiC）。

主实验：Few-Shot 结果（3-shot，文化相关 + 立场检测子集平均）¶

方法	Llama-3-8B	Qwen-2-7B	GPT-3.5	GPT-4
CoT-SC	61.91	54.09	66.43	66.41
RiC	61.71	64.02	67.17	71.68
RPT (本文)	63.97	65.83	69.52	73.35

消融实验：视角移除对 RPT 性能的影响¶

移除内容	平均性能下降
移除任意 1 种视角	−1.32 ~ −2.53
移除任意 2 种视角	−5.15 ~ −6.48
移除所有视角（退化为简单推理）	−7.60
移除第三人称（影响最大）	最大降幅

关键发现¶

RPT 一致性最强：在 4 个模型的零样本和少样本设置中均取得最佳平均表现，而基线方法往往只在特定领域突出
不同任务偏好不同视角：Zero-Shot-CoT 在 SNARKS（讽刺检测）上达 70.72 但 SocNorm 仅 40.07；RiC 在 e-SocNorm 上 64.05 但修辞任务弱
强模型受益更大：GPT-3.5/GPT-4 上 RPT 提升更显著，说明深度推理能力强的模型更能有效利用视角切换
推理成本不显著增加：RPT 在单次推理中完成，输出长度与单视角方法相当，远低于需要多次采样的 CoT-SC/Ensemble
Few-shot 反而可能引入噪声：RiC 在 GPT-4 上加 3-shot 后平均下降 6.50 点，而 RPT 仍稳定提升 +1.67

亮点与洞察¶

"从哪个视角思考"比"如何更深思考"更重要：这篇论文的核心洞察是，对于主观任务，视角选择（who should think）比推理深度（how to think deeper）更关键。这与 CoT/o1 等聚焦推理深度的方向形成有趣互补。
视角作为元方法（meta-method）：视角选择与 CoT 正交——可以先选视角，再在该视角下做 CoT 推理。RPT 是方法上的"方法"。
置信度自评估有效性：模型能合理估计自身在不同视角下的答题置信度，这为"LLM 自我评估"的可靠性提供了正面证据。
案例分析说服力强：论文 Figure 8 的立场检测案例中，CoT 和 RiC 都将"Get the truth from Trump!"误判为 AGAINST，而 RPT 通过第三人称视角正确识别感叹号和用词暗示 FAVOR。
纯 ICL 无需训练：方法极简——只需设计一个好的统一 prompt，无需微调、无需额外模型、无需多次采样。

局限性与可改进方向¶

视角分类粗粒度：仅三种视角可能不够，某些需要特定文化背景或专业领域知识的任务可能需要更细粒度的视角划分（如区分不同文化背景的观察者）
置信度校准问题：方法依赖模型自评估置信度的可靠性，弱模型（如 Llama-3-8B）上不稳定性更高，说明置信度估计与模型能力紧密相关
单轮对话限制：RPT 在单轮中完成，未利用多轮对话或反馈机制。多轮迭代式视角探索可能进一步提升
视角选择而非方法选择：当前 RPT 选择视角而非具体方法。如果在每种视角下还能选择不同的推理策略（如 CoT、Self-Ask 等），可能更强
数据集规模偏小：部分数据集（如 Entailment 仅 70 条、Humor 仅 80 条）可能导致结果方差较大

评分¶

新颖性: ⭐⭐⭐⭐ — "从哪个视角思考"这一切入点新颖，把视角选择形式化为推理管道的一部分，与主流 CoT 深度推理方向形成差异化
实验充分度: ⭐⭐⭐⭐ — 12 个数据集、5 种任务类型、4 个模型（开源+闭源）、零样本+少样本、11 个基线、完整消融和效率分析；部分数据集较小是遗憾
写作质量: ⭐⭐⭐⭐ — 动机清晰，案例分析直观，Figure 1-2 很好地说明了问题和方法；方法描述有些形式化过度
价值: ⭐⭐⭐⭐ — 方法极简无需训练，对需要处理主观任务的实际应用有直接价值；视角选择 + 置信度排序的范式有推广潜力