Content Fuzzing for Escaping Information Cocoons on Social Media¶

会议: ACL 2026
arXiv: 2604.05461
代码: 无
领域: 社交计算 / 对抗学习
关键词: 信息茧房, 立场检测, 模糊测试, 内容改写, 推荐系统

一句话总结¶

提出 ContentFuzz，一个从内容创作者视角出发的置信度引导模糊测试框架，通过 LLM 改写帖子使其在保持人类解读含义不变的前提下改变机器推断的立场标签，从而突破社交媒体信息茧房。

领域现状：社交媒体平台使用立场检测作为推荐和排序管道中的重要信号，将帖子主要路由给持相同观点的受众，减少了跨立场曝光。这限制了不同意见的传播范围，阻碍了建设性讨论。

现有痛点：现有打破信息茧房的方法主要是平台侧的算法干预（如多样性重排序），但这些方法由平台控制，个人用户和内容创作者无法修改推荐算法，也看不到帖子如何被过滤、排序和分发。创作者缺乏主动扩展内容触达范围的工具。

核心矛盾：用户和创作者有扩大跨群体曝光的需求，但缺乏可操作的技术手段——唯一能控制的是内容本身。

本文目标：从创作者角度，探索如何通过内容改写突破信息茧房——找到保持人类解读立场但改变机器分类立场的语义保持改写。

切入角度：借鉴软件测试中的模糊测试（fuzzing）方法论，将立场检测模型视为"被测系统"，迭代发现使其分类结果翻转的输入变体。

核心 idea：用立场检测模型的置信度反馈引导 LLM 生成语义保持改写——置信度下降说明改写在探索分类器决策边界附近，反复迭代直到标签翻转或耗尽预算。

ContentFuzz 从原始帖子出发，迭代执行：选择种子→LLM 变异生成候选改写→运行立场检测器获取置信度→保留降低置信度的候选作为未来种子→直到某候选改变了预测立场或迭代耗尽。

置信度引导反馈:
- 功能：指导 LLM 生成朝"正确"方向（接近决策边界）演化的改写
- 核心思路：每次变异后运行立场分析器获取预测立场和置信度。如果新候选的置信度低于种子，说明它在推动模型远离当前决策，将其加入种子池。如果立场标签翻转则立即返回成功
- 设计动机：盲目改写效率低，置信度反馈提供了"温度"信号——温度越低越接近决策边界
种子调度策略:
- 功能：优先选择最有潜力的种子进行下一轮变异
- 核心思路：维护种子池，按置信度排序——置信度越低的种子越接近决策边界，越值得进一步变异。同时考虑种子已被变异的次数，避免过度利用单一种子
- 设计动机：当计算资源有限时，聚焦最有希望的搜索方向至关重要
语义保持变异:
- 功能：生成保持原意但可能改变机器判断的改写
- 核心思路：用 LLM（如 GPT-4）生成改写，通过精心设计的提示指令要求保留核心观点和态度，但允许修改措辞、句式、修辞手法等表面特征。同时生成多个候选以增加覆盖面
- 设计动机：与对抗攻击不同，ContentFuzz 要求改写对人类读者而言含义完全不变——这是"逃离茧房"而非"欺骗分类器"

ContentFuzz 是推理时框架，无需训练。优化目标是最小化立场检测器对原始标签的置信度直到标签翻转。