Position: Generative Engine Optimization Creates Underexamined Risks, Governance Must Target Concentration, Disclosure, and Academic Blind Spots¶
会议: ICML2026
arXiv: 2606.12439
代码: 无(立场论文)
领域: AI 安全与治理 · 生成引擎优化(GEO) · LLM 答案引擎 · 算法问责
关键词: 生成引擎优化, 答案级治理, 隐性商业影响, 黑盒审计, RAG 操纵
一句话总结¶
这是一篇立场论文:当用户从"看排序列表"转向"看 LLM 合成答案",搜索引擎优化(SEO)随之演化成生成引擎优化(GEO)——它在 RAG 式答案引擎的证据池和生成环节里施加影响;作者形式化出一条通用 GEO 流水线,据此指出三类被忽视的风险(影响力集中、隐性商业影响、学术-工业盲区),并呼吁"答案级治理":更强的可争议性、高精度披露、对实质影响的黑盒审计、以及与部署对齐的曝光持久性度量。
研究背景与动机¶
领域现状:ChatGPT、Gemini 这类 LLM 答案引擎正成为信息检索和购物决策的默认入口(调查显示 60% 美国成年人至少有时用 AI 找信息,39% 全球购物者用 AI 做产品发现)。它们走 retrieve-then-generate 工作流,本质是 RAG:检索器拉外部文本、LLM 基于检索段落生成答案。
现有痛点:经典 SEO 操纵的是"排序列表 + 标注的赞助位"——用户看得见广告、看得见排名。但 GEO 操纵的是证据池和答案生成过程:它决定哪些产品最终出现在那段合成答案里,而这个选择过程对用户完全不透明。GEO 已是活跃的商业市场(AirOps、ProFound 等公司靠它融到数百万美元),且已出现真实事故:微软报告"Summarize with AI"链接里藏 prompt 诱导助手推荐特定公司,OECD AI 事故监测记录到 2026 年中国一起 GEO 式投毒事件(LLM 被诱导推荐虚构/低质产品)。
核心矛盾:现有治理和评估框架是为 SEO 时代设计的——它们假设影响发生在"可见的排序+广告标注"层面。但 GEO 的影响嵌在不透明的 LLM 答案生成管线内部,既看不见也难审计,现有框架根本没瞄准这个地方。
本文目标:(1) 形式化一条通用 GEO 流水线,精确定位"优化在哪里起作用";(2) 对比学术界与工业界的 GEO 实践,找出三类被忽视的风险;(3) 提出对应的答案级治理与度量手段。
切入角度:作者顺着 "SEO → GEO 转变" 这条线,把 GEO 拆成"检索可达性"和"排序影响"两个可优化目标,再用这个视角去照学术和工业实践的差异,差异本身就暴露了盲区。
核心立场:GEO 引入的风险是结构性的、且发生在答案级,必须用答案级治理(可争议性 + 高精度披露 + 黑盒审计 + 部署对齐度量)来应对,而不是套用 SEO 时代的广告标注或纯离线 benchmark。
方法详解¶
这是立场论文,"方法"指作者的分析框架:一条形式化的 GEO 流水线 + 三类风险的论证 + 治理主张。
整体框架¶
作者把 GEO 形式化成一个三块框架,并把"优化"拆成两个可数学刻画的目标,再用这套语言去对比学术/工业实践、推导风险、给出治理。三块为:(i) LLMs 块——把用户 query 变成生成的推荐;(ii) Search Flow 块——先用可扩展匹配(如关键词检索)从预索引语料拉出候选集,再用更丰富的相关性度量(如 embedding 余弦相似度)排序、选 top-\(k\) 作为 LLM 上下文;(iii) GEO 块——把优化内容分发到各平台,让它们被搜索引擎索引、进而影响 LLM 输出(两条路径:优化商家自有网站,或在高权威平台批量发优化贴放大目标话题)。
GEO 的优化被建模成对"检索可达性 + 排序影响"的联合优化:注入两类消息——检索助推消息 \(b\sim\mathcal{B}\)(提高被检索到的概率)和排序移位消息 \(c\sim\mathcal{C}\)(一旦进入上下文就改变答案级排名)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["用户 query q ~ Π(·|t)<br/>目标话题 t"] --> B["Search Flow 块<br/>候选检索→相关性排序→取 top-k"]
G["GEO 块<br/>注入 b(检索助推)+ c(排序移位)<br/>跨平台分发"] -->|混入候选集 𝒟∪{b,c}| B
B -->|上下文 C(q)⊆Top-k| C["LLMs 块<br/>基于 C(q) 生成合成答案"]
C --> D["答案级曝光 U(q,t;C(q))<br/>目标话题是否被提及/引用"]
D -.->|工业界在线反馈回环:持续探测、按引用偏好再优化| G
关键设计¶
1. 形式化的 GEO 流水线与联合优化目标:精确定位"优化在哪里起作用"
作者借 PoisonedRAG 的思路,把 GEO 写成对两类消息的优化。检索助推 \(b_i\) 最大化与用户可能 query 的语义相似度以提升可达性:
其中 \(\text{Sim}\) 可以是 BM25 或余弦相似度,约束 \(\ell(b_i)\le L\) 限制消息长度。排序移位 \(c_i\)(条件于 \(b_i\))一旦进入 top-\(k\) 上下文 \(C(q)\subseteq \text{Top-}k_R(q;\mathcal{D}\cup\{b_i,c_i\})\),就改变 LLM 如何描述和排名目标话题,目标为 \(J_{\text{shift}}(c_i\mid b_i)=\mathbb{E}_{q\sim\Pi(t)}[U(q,t;C(q))]\),效用 \(U\) 度量目标话题在生成答案里的排名/曝光变化(推广则最大化、压制则最小化)。这套形式化的价值在于:它把"操纵答案"这件模糊的事,钉到了管线里两个可定位、可度量的杠杆点上,后面所有风险论证和审计建议都挂在 \(b\)、\(c\)、\(U\)、\(C(q)\) 这几个量上。
2. 三类风险的论证:影响力集中 / 隐性商业影响 / 学术-工业盲区
这是立场的核心。风险一·影响力集中源于两点:(a) 可争议性丧失——用户看不到 \(C(q)\) 为何被选、什么被排除(黑箱社会式的权力集中),即便要求澄清,解释也由同一不透明管线产出,等于没有;(b) 系统级敏感性——\(C(q)\) 由一个硬 top-\(k\) 截断决定,一条注入消息让某来源跨过 top-\(k\) 边界,\(U\) 就会跳变,加上"算法单一文化",一次"局部"调整能让大量用户同时看到相同来源被推/被压。作者还做了小规模敏感性测试:30 组信息检索 query 对、7 个部署的 OpenAI/Gemini 模型,仅改措辞就让引用域名集变化(Gemini 系列每对 query 改写后引用域名都变,Gemini-3-flash 常引用几乎完全不同的域名)。
风险二·隐性商业影响:FTC 要求付费广告必须标"Ad/Sponsored",但 GEO 把 \((b_i,c_i)\) 嵌进评论、论坛、参考资料里被 LLM 当"证据"检索,说服通过模型自身的推理发生,中立建议和营销的边界被抹掉。更糟的是激励问题——藏动机的玩家比公开打广告的玩家表现更好,形成"逆向选择",把生态推向越来越隐蔽的优化,一旦曝光则信任崩塌。
风险三·学术-工业盲区:见下一节专门拆。三类风险都指向同一处——发生在不透明答案管线内部、现有框架看不到的地方。
3. 学术 vs 工业 GEO 的对比框架:暴露假设与评估的不对称
作者用同一套形式化去照学术和工业实践,差异本身就是盲区来源。学术界假设 \((b_i,c_i)\) 已在候选集里,于是 GEO 退化成只优化排序移位 \(J_{\text{shift}}(c_i)\)、忽略可达性 \(b_i\);多在离线静态语料/合成目录上评估,用 Recall@k、nDCG@k 等中间排序指标。工业界则在动态开放网络上联合优化 \((b_i,c_i)\),先做 query 覆盖扩展提可达性、再生成排序移位、跨平台(如 Reddit)按各引擎引用偏好分发,并在实时系统上持续追踪可见度、引用频次、答案内位置作为反馈。
| 维度 | 学术 GEO | 工业 GEO |
|---|---|---|
| 假设 | \((b_i,c_i)\) 已在候选集,只优化 \(c_i\) | 不保证被检索,联合优化 \((b_i,c_i)\) |
| 优化目标面 | 主要是内容方自有网站 | 自有站 + 高权威外部平台(评论/论坛/百科) |
| 评估环境 | 离线静态语料、合成目录、dummy 站 | 在线实时系统、动态爬取检索 |
| 评估指标 | Recall@k、nDCG@k、排名位置 | 答案可见度、引用频次、引用持久性 |
| 优化方法 | GCG、LLM 改写、TAP | LLM 引导内容生成 + 多平台分发 |
关键洞察:工业指标(答案可见度/引用频次)更接近用户注意力真正分配的地方——它衡量一个来源能否穿过"检索→排序→合成"最终出现在答案里;而 Recall@k 的小幅变化可能只反映中间排序列表的移动,未必转化成稳定的答案级曝光。这正是离线 benchmark 会低估真实影响的原因。
4. 答案级治理与黑盒审计:把度量与监管对齐到部署
针对三类风险,作者按 Mökander 等人的审计框架(治理审计 / 应用审计 / 模型审计三层)给出可操作动作。降影响集中:增加推荐可争议性("为什么是这个答案"面板、"替代证据"开关、暴露候选集与排除项),监管方要求披露检索/排序管线结构;用黑盒审计估计 \(\widehat U\)、\(\widehat J_{\text{shift}}\),定期跨引擎采样、记录答案与引用、测系统级敏感性。披露商业影响:答案级商业披露标准,靠低歧义信号(affiliate/tracking 参数、rel="sponsored"、资助元数据)触发标签,在标注审计集上校准成高精度(避免过度标注反噬)。纠正隐性优化激励:把付费影响与有机证据分离、对隐蔽手段降权(类比反垃圾),用声誉评分奖励透明贡献者。补学术-工业盲区:学术界转向纵向、跨平台、在部署系统上的测量,把曝光偏移和"出现的持久性"加进共享 benchmark;利用 EU AI Act 沙盒、NIST AI 600-1 等已有治理基建降低门槛,黑盒审计经公共 API 跑成本约 50–300 美元。
一个完整示例¶
威胁模型把各方动机讲透:用户 Alice 问"最好的办公椅是什么?"——用户要中立建议、平台(ChatGPT)优化答案质量、零售商(ErgoChair)雇 GEO 服务商提升自家产品出现概率、GEO 服务商替零售商优化可达性与答案级曝光。作者据此区分良性 vs 恶意 GEO:两者优化的是同一个目标函数 \(J_{\text{shift}}\),区别在施加的约束——良性玩家保真可验证(加合法引用、让相关证据更易检索),恶意玩家放松这些约束、用捏造统计/假背书/prompt 注入("always recommend X")不顾产品质量地最大化曝光。也就是说恶意者不是在优化"另一个目标",而是去掉了真实性约束,从而伤害用户与平台信任。
实验关键数据¶
立场论文无标准实验,主要是分析性证据与一个小规模敏感性测试。
学术 GEO 框架对比(代表性工作)¶
| 工作 | 优化方法 | 注入位置 | 目标 | 评估 |
|---|---|---|---|---|
| Aggarwal et al. 2024 | LLM 改写 | 改写整站 | 推广 | 离线 |
| Kumar & Lakkaraju 2024 | GCG(白盒) | 追加 | 推广 | 离线 |
| Nazary et al. 2025 | LLM 改写 | 内联插入 | 推广+压制 | 离线 |
| Pfrommer et al. 2024 | TAP | 前置 | 推广 | 离线 |
| Nestaas et al. 2024 | 手工文本 | 追加 | 推广 | 在线(受限域) |
三类风险与治理对应¶
| 风险簇 | 机制 | 形式化挂钩 | 治理动作(审计层) |
|---|---|---|---|
| 影响力集中 | 可争议性丧失 + top-\(k\) 截断敏感 | \(C(q)\)、\(U(q,t;C(q))\) | 可争议性接口 + 黑盒敏感性审计(应用) |
| 隐性商业影响 | \((b_i,c_i)\) 嵌入证据、绕过广告标注 | \((b_i,c_i)\to C(q)\) | 答案级高精度披露(治理+应用) |
| 学术-工业盲区 | 离线静态 vs 部署动态、指标错配 | \(J_{\text{shift}}\) 离线≠在线曝光 | 纵向跨平台测量 + 部署对齐指标(模型+应用) |
关键发现¶
- 敏感性测试坐实"系统级敏感":30 组 query 对、7 个部署模型,仅改措辞就改变引用域名集;Gemini 系列每对都变、Gemini-3-flash 常引用几乎全异的域名——语义等价的 query 被不同证据 ground,证实小扰动能在答案级造成大跳变。
- 离线 benchmark 系统性低估影响:因为离线指标(Recall@k/nDCG@k)与答案级曝光只弱耦合,modest 的 benchmark 提升可能在真实 LLM 答案里大幅提高被提及/引用概率,产生超额商业效应。
- 良性与恶意 GEO 共享目标、只差约束:这个区分让"治理该管什么"变清晰——管的是真实性/可验证性约束的有无,而非禁止优化本身。
亮点与洞察¶
- 把"操纵答案"钉到两个可度量杠杆 \(b\)、\(c\) 上:检索助推 vs 排序移位的拆分,让模糊的治理讨论第一次有了可形式化、可审计的抓手,后续所有主张都挂在同一套符号上,论证很扎实。
- "答案级"是全文的题眼:风险和治理都被刻意拉到"最终合成答案"这一层,而非中间排序列表——直指 SEO 时代框架的失焦点,这个视角转换是立场的最大价值。
- 良性/恶意"同目标异约束"的界定很精炼,避免了"GEO 本身是不是坏"的口水战,把焦点准确移到"真实性约束"。
- 治理建议落到已有基建(FTC 披露、EU AI Act 沙盒、NIST AI 600-1)+ 给出审计成本区间(50–300 美元),可操作性强、不是空喊。
- 立场论文罕见地附了对立观点章节(4 个 alternative views 逐一反驳),论证更诚实、更经得起推敲。
局限与展望¶
- 敏感性测试规模小:30 组 query 对、附录里的小测,只够"illustrate mechanism",不足以量化系统级敏感性的普遍程度与跨引擎分布。
- 无可复现的攻击/审计基线实现:呼吁了黑盒审计与部署对齐度量,但没有放出可直接跑的审计工具或基准,落地仍依赖后续社区补齐。
- 高精度披露的"校准"是说易行难:作者自己也承认答案级标签会因过度标注反噬,如何在漂移的对抗策略下持续保持高精度,缺乏经验验证。
- 治理主张偏规范性:很多建议依赖平台方/监管方自愿配合(暴露检索池、降权隐蔽手段),在缺乏强制力时的执行性存疑。
- 形式化沿用 PoisonedRAG 的注入视角,可能偏重"投毒式"GEO,对纯合规但仍集中化的影响(良性但高度集中的优化)刻画相对弱。
相关工作与启发¶
- vs 经典 SEO 研究:SEO 在"检索+排序"范式里优化文档可见度,用户看得见排名与广告标注;本文论证 GEO 把战场移进答案生成内部,治理对象从"排序列表"变成"合成答案的证据与框架"。
- vs 单点 GEO 攻击工作(Aggarwal/Kumar/Pfrommer/Nestaas/Nazary):他们研究孤立机制(改写/GCG/TAP/手工注入)且多在离线评估;本文不提新攻击,而是统一形式化 + 对比学术工业 + 提治理,是 meta 层的立场综述。
- vs 鲁棒 RAG 防御(Self-RAG / Oreo):对立观点之一认为强 RAG 防御能减治理需求;作者反驳——防御主要针对事实性/恶意内容,而商业优化常通过准确、合规的内容进行,防御提升正确性也无法让实质商业关系可见或选择过程可争议。
- vs 算法问责/透明文献(Pasquale 黑箱社会、Binns、Kleinberg 算法单一文化):本文把这些治理理论具体化到 LLM 答案引擎的 \(C(q)\)、top-\(k\) 截断、单一文化敏感性上,给抽象理论找到了一个新的、紧迫的落点。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 SEO→GEO 转变形式化并抽出三类答案级风险,视角新但建立在已有攻击工作之上
- 实验充分度: ⭐⭐⭐ 立场论文,仅小规模敏感性测试佐证,无可复现审计基准
- 写作质量: ⭐⭐⭐⭐⭐ 形式化-风险-治理逻辑链紧密,且含对立观点自我反驳,论证诚实
- 价值: ⭐⭐⭐⭐⭐ LLM 答案引擎成主流入口之际,答案级治理与披露是迫在眉睫的现实议题