Position: Generative Engine Optimization Creates Underexamined Risks, Governance Must Target Concentration, Disclosure, and Academic Blind Spots¶

会议: ICML2026
arXiv: 2606.12439
代码: 无（立场论文）
领域: AI 安全与治理 · 生成引擎优化(GEO) · LLM 答案引擎 · 算法问责
关键词: 生成引擎优化, 答案级治理, 隐性商业影响, 黑盒审计, RAG 操纵

一句话总结¶

这是一篇立场论文：当用户从"看排序列表"转向"看 LLM 合成答案"，搜索引擎优化(SEO)随之演化成生成引擎优化(GEO)——它在 RAG 式答案引擎的证据池和生成环节里施加影响；作者形式化出一条通用 GEO 流水线，据此指出三类被忽视的风险（影响力集中、隐性商业影响、学术-工业盲区），并呼吁"答案级治理"：更强的可争议性、高精度披露、对实质影响的黑盒审计、以及与部署对齐的曝光持久性度量。

研究背景与动机¶

领域现状：ChatGPT、Gemini 这类 LLM 答案引擎正成为信息检索和购物决策的默认入口（调查显示 60% 美国成年人至少有时用 AI 找信息，39% 全球购物者用 AI 做产品发现）。它们走 retrieve-then-generate 工作流，本质是 RAG：检索器拉外部文本、LLM 基于检索段落生成答案。

现有痛点：经典 SEO 操纵的是"排序列表 + 标注的赞助位"——用户看得见广告、看得见排名。但 GEO 操纵的是证据池和答案生成过程：它决定哪些产品最终出现在那段合成答案里，而这个选择过程对用户完全不透明。GEO 已是活跃的商业市场（AirOps、ProFound 等公司靠它融到数百万美元），且已出现真实事故：微软报告"Summarize with AI"链接里藏 prompt 诱导助手推荐特定公司，OECD AI 事故监测记录到 2026 年中国一起 GEO 式投毒事件（LLM 被诱导推荐虚构/低质产品）。

核心矛盾：现有治理和评估框架是为 SEO 时代设计的——它们假设影响发生在"可见的排序+广告标注"层面。但 GEO 的影响嵌在不透明的 LLM 答案生成管线内部，既看不见也难审计，现有框架根本没瞄准这个地方。

本文目标：(1) 形式化一条通用 GEO 流水线，精确定位"优化在哪里起作用"；(2) 对比学术界与工业界的 GEO 实践，找出三类被忽视的风险；(3) 提出对应的答案级治理与度量手段。

切入角度：作者顺着 "SEO → GEO 转变" 这条线，把 GEO 拆成"检索可达性"和"排序影响"两个可优化目标，再用这个视角去照学术和工业实践的差异，差异本身就暴露了盲区。

核心立场：GEO 引入的风险是结构性的、且发生在答案级，必须用答案级治理（可争议性 + 高精度披露 + 黑盒审计 + 部署对齐度量）来应对，而不是套用 SEO 时代的广告标注或纯离线 benchmark。

方法详解¶

这是立场论文，"方法"指作者的分析框架：一条形式化的 GEO 流水线 + 三类风险的论证 + 治理主张。

整体框架¶

作者把 GEO 形式化成一个三块框架，并把"优化"拆成两个可数学刻画的目标，再用这套语言去对比学术/工业实践、推导风险、给出治理。三块为：(i) LLMs 块——把用户 query 变成生成的推荐；(ii) Search Flow 块——先用可扩展匹配（如关键词检索）从预索引语料拉出候选集，再用更丰富的相关性度量（如 embedding 余弦相似度）排序、选 top-\(k\) 作为 LLM 上下文；(iii) GEO 块——把优化内容分发到各平台，让它们被搜索引擎索引、进而影响 LLM 输出（两条路径：优化商家自有网站，或在高权威平台批量发优化贴放大目标话题）。

GEO 的优化被建模成对"检索可达性 + 排序影响"的联合优化：注入两类消息——检索助推消息 \(b\sim\mathcal{B}\)（提高被检索到的概率）和排序移位消息 \(c\sim\mathcal{C}\)（一旦进入上下文就改变答案级排名）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["用户 query q ~ Π(·|t)<br/>目标话题 t"] --> B["Search Flow 块<br/>候选检索→相关性排序→取 top-k"]
    G["GEO 块<br/>注入 b（检索助推）+ c（排序移位）<br/>跨平台分发"] -->|混入候选集 𝒟∪{b,c}| B
    B -->|上下文 C(q)⊆Top-k| C["LLMs 块<br/>基于 C(q) 生成合成答案"]
    C --> D["答案级曝光 U(q,t;C(q))<br/>目标话题是否被提及/引用"]
    D -.->|工业界在线反馈回环：持续探测、按引用偏好再优化| G

关键设计¶

1. 形式化的 GEO 流水线与联合优化目标：精确定位"优化在哪里起作用"

作者借 PoisonedRAG 的思路，把 GEO 写成对两类消息的优化。检索助推 \(b_i\) 最大化与用户可能 query 的语义相似度以提升可达性：

\[\max_{b_i}\; J_{\text{boost}}(b_i)=\mathbb{E}_{q\sim\Pi(t)}\big[\text{Sim}(q,b_i)\big]\quad \text{s.t.}\quad \ell(b_i)\le L\]

其中 \(\text{Sim}\) 可以是 BM25 或余弦相似度，约束 \(\ell(b_i)\le L\) 限制消息长度。排序移位 \(c_i\)（条件于 \(b_i\)）一旦进入 top-\(k\) 上下文 \(C(q)\subseteq \text{Top-}k_R(q;\mathcal{D}\cup\{b_i,c_i\})\)，就改变 LLM 如何描述和排名目标话题，目标为 \(J_{\text{shift}}(c_i\mid b_i)=\mathbb{E}_{q\sim\Pi(t)}[U(q,t;C(q))]\)，效用 \(U\) 度量目标话题在生成答案里的排名/曝光变化（推广则最大化、压制则最小化）。这套形式化的价值在于：它把"操纵答案"这件模糊的事，钉到了管线里两个可定位、可度量的杠杆点上，后面所有风险论证和审计建议都挂在 \(b\)、\(c\)、\(U\)、\(C(q)\) 这几个量上。

2. 三类风险的论证：影响力集中 / 隐性商业影响 / 学术-工业盲区

这是立场的核心。风险一·影响力集中源于两点：(a) 可争议性丧失——用户看不到 \(C(q)\) 为何被选、什么被排除（黑箱社会式的权力集中），即便要求澄清，解释也由同一不透明管线产出，等于没有；(b) 系统级敏感性——\(C(q)\) 由一个硬 top-\(k\) 截断决定，一条注入消息让某来源跨过 top-\(k\) 边界，\(U\) 就会跳变，加上"算法单一文化"，一次"局部"调整能让大量用户同时看到相同来源被推/被压。作者还做了小规模敏感性测试：30 组信息检索 query 对、7 个部署的 OpenAI/Gemini 模型，仅改措辞就让引用域名集变化（Gemini 系列每对 query 改写后引用域名都变，Gemini-3-flash 常引用几乎完全不同的域名）。

风险二·隐性商业影响：FTC 要求付费广告必须标"Ad/Sponsored"，但 GEO 把 \((b_i,c_i)\) 嵌进评论、论坛、参考资料里被 LLM 当"证据"检索，说服通过模型自身的推理发生，中立建议和营销的边界被抹掉。更糟的是激励问题——藏动机的玩家比公开打广告的玩家表现更好，形成"逆向选择"，把生态推向越来越隐蔽的优化，一旦曝光则信任崩塌。

风险三·学术-工业盲区：见下一节专门拆。三类风险都指向同一处——发生在不透明答案管线内部、现有框架看不到的地方。

3. 学术 vs 工业 GEO 的对比框架：暴露假设与评估的不对称

作者用同一套形式化去照学术和工业实践，差异本身就是盲区来源。学术界假设 \((b_i,c_i)\) 已在候选集里，于是 GEO 退化成只优化排序移位 \(J_{\text{shift}}(c_i)\)、忽略可达性 \(b_i\)；多在离线静态语料/合成目录上评估，用 Recall@k、nDCG@k 等中间排序指标。工业界则在动态开放网络上联合优化 \((b_i,c_i)\)，先做 query 覆盖扩展提可达性、再生成排序移位、跨平台（如 Reddit）按各引擎引用偏好分发，并在实时系统上持续追踪可见度、引用频次、答案内位置作为反馈。

维度	学术 GEO	工业 GEO
假设	\((b_i,c_i)\) 已在候选集，只优化 \(c_i\)	不保证被检索，联合优化 \((b_i,c_i)\)
优化目标面	主要是内容方自有网站	自有站 + 高权威外部平台（评论/论坛/百科）
评估环境	离线静态语料、合成目录、dummy 站	在线实时系统、动态爬取检索
评估指标	Recall@k、nDCG@k、排名位置	答案可见度、引用频次、引用持久性
优化方法	GCG、LLM 改写、TAP	LLM 引导内容生成 + 多平台分发

关键洞察：工业指标（答案可见度/引用频次）更接近用户注意力真正分配的地方——它衡量一个来源能否穿过"检索→排序→合成"最终出现在答案里；而 Recall@k 的小幅变化可能只反映中间排序列表的移动，未必转化成稳定的答案级曝光。这正是离线 benchmark 会低估真实影响的原因。

4. 答案级治理与黑盒审计：把度量与监管对齐到部署

针对三类风险，作者按 Mökander 等人的审计框架（治理审计 / 应用审计 / 模型审计三层）给出可操作动作。降影响集中：增加推荐可争议性（"为什么是这个答案"面板、"替代证据"开关、暴露候选集与排除项），监管方要求披露检索/排序管线结构；用黑盒审计估计 \(\widehat U\)、\(\widehat J_{\text{shift}}\)，定期跨引擎采样、记录答案与引用、测系统级敏感性。披露商业影响：答案级商业披露标准，靠低歧义信号（affiliate/tracking 参数、rel="sponsored"、资助元数据）触发标签，在标注审计集上校准成高精度（避免过度标注反噬）。纠正隐性优化激励：把付费影响与有机证据分离、对隐蔽手段降权（类比反垃圾），用声誉评分奖励透明贡献者。补学术-工业盲区：学术界转向纵向、跨平台、在部署系统上的测量，把曝光偏移和"出现的持久性"加进共享 benchmark；利用 EU AI Act 沙盒、NIST AI 600-1 等已有治理基建降低门槛，黑盒审计经公共 API 跑成本约 50–300 美元。

一个完整示例¶

威胁模型把各方动机讲透：用户 Alice 问"最好的办公椅是什么？"——用户要中立建议、平台(ChatGPT)优化答案质量、零售商(ErgoChair)雇 GEO 服务商提升自家产品出现概率、GEO 服务商替零售商优化可达性与答案级曝光。作者据此区分良性 vs 恶意 GEO：两者优化的是同一个目标函数 \(J_{\text{shift}}\)，区别在施加的约束——良性玩家保真可验证（加合法引用、让相关证据更易检索），恶意玩家放松这些约束、用捏造统计/假背书/prompt 注入（"always recommend X"）不顾产品质量地最大化曝光。也就是说恶意者不是在优化"另一个目标"，而是去掉了真实性约束，从而伤害用户与平台信任。

实验关键数据¶

立场论文无标准实验，主要是分析性证据与一个小规模敏感性测试。

学术 GEO 框架对比（代表性工作）¶

工作	优化方法	注入位置	目标	评估
Aggarwal et al. 2024	LLM 改写	改写整站	推广	离线
Kumar & Lakkaraju 2024	GCG（白盒）	追加	推广	离线
Nazary et al. 2025	LLM 改写	内联插入	推广+压制	离线
Pfrommer et al. 2024	TAP	前置	推广	离线
Nestaas et al. 2024	手工文本	追加	推广	在线（受限域）

三类风险与治理对应¶

风险簇	机制	形式化挂钩	治理动作（审计层）
影响力集中	可争议性丧失 + top-\(k\) 截断敏感	\(C(q)\)、\(U(q,t;C(q))\)	可争议性接口 + 黑盒敏感性审计（应用）
隐性商业影响	\((b_i,c_i)\) 嵌入证据、绕过广告标注	\((b_i,c_i)\to C(q)\)	答案级高精度披露（治理+应用）
学术-工业盲区	离线静态 vs 部署动态、指标错配	\(J_{\text{shift}}\) 离线≠在线曝光	纵向跨平台测量 + 部署对齐指标（模型+应用）

关键发现¶

敏感性测试坐实"系统级敏感"：30 组 query 对、7 个部署模型，仅改措辞就改变引用域名集；Gemini 系列每对都变、Gemini-3-flash 常引用几乎全异的域名——语义等价的 query 被不同证据 ground，证实小扰动能在答案级造成大跳变。
离线 benchmark 系统性低估影响：因为离线指标（Recall@k/nDCG@k）与答案级曝光只弱耦合，modest 的 benchmark 提升可能在真实 LLM 答案里大幅提高被提及/引用概率，产生超额商业效应。
良性与恶意 GEO 共享目标、只差约束：这个区分让"治理该管什么"变清晰——管的是真实性/可验证性约束的有无，而非禁止优化本身。

亮点与洞察¶

把"操纵答案"钉到两个可度量杠杆 \(b\)、\(c\) 上：检索助推 vs 排序移位的拆分，让模糊的治理讨论第一次有了可形式化、可审计的抓手，后续所有主张都挂在同一套符号上，论证很扎实。
"答案级"是全文的题眼：风险和治理都被刻意拉到"最终合成答案"这一层，而非中间排序列表——直指 SEO 时代框架的失焦点，这个视角转换是立场的最大价值。
良性/恶意"同目标异约束"的界定很精炼，避免了"GEO 本身是不是坏"的口水战，把焦点准确移到"真实性约束"。
治理建议落到已有基建（FTC 披露、EU AI Act 沙盒、NIST AI 600-1）+ 给出审计成本区间（50–300 美元），可操作性强、不是空喊。
立场论文罕见地附了对立观点章节（4 个 alternative views 逐一反驳），论证更诚实、更经得起推敲。

局限与展望¶

敏感性测试规模小：30 组 query 对、附录里的小测，只够"illustrate mechanism"，不足以量化系统级敏感性的普遍程度与跨引擎分布。
无可复现的攻击/审计基线实现：呼吁了黑盒审计与部署对齐度量，但没有放出可直接跑的审计工具或基准，落地仍依赖后续社区补齐。
高精度披露的"校准"是说易行难：作者自己也承认答案级标签会因过度标注反噬，如何在漂移的对抗策略下持续保持高精度，缺乏经验验证。
治理主张偏规范性：很多建议依赖平台方/监管方自愿配合（暴露检索池、降权隐蔽手段），在缺乏强制力时的执行性存疑。
形式化沿用 PoisonedRAG 的注入视角，可能偏重"投毒式"GEO，对纯合规但仍集中化的影响（良性但高度集中的优化）刻画相对弱。

评分¶

新颖性: ⭐⭐⭐⭐ 把 SEO→GEO 转变形式化并抽出三类答案级风险，视角新但建立在已有攻击工作之上
实验充分度: ⭐⭐⭐ 立场论文，仅小规模敏感性测试佐证，无可复现审计基准
写作质量: ⭐⭐⭐⭐⭐ 形式化-风险-治理逻辑链紧密，且含对立观点自我反驳，论证诚实
价值: ⭐⭐⭐⭐⭐ LLM 答案引擎成主流入口之际，答案级治理与披露是迫在眉睫的现实议题