AI 搜索优化博客
GEOAI 搜索测量方法方法论

GEO 测量方法:为什么单次抓取会骗你

今天大多数 GEO 工具只跑一次就出报告。那个数字不可信。这篇讲清楚为什么 AI 搜索可见度是一个分布、需要置信区间和稳定性分数,以及一个可以周一就开跑的测量协议。

Adrian VellerAdrian Veller2 分钟阅读
GEO 测量方法:为什么单次抓取会骗你

同一个品牌问题,连续问同一个大模型十次,会得到十种答案。有几次提到你,有几次没提;提到的位置每次不一样;附带的引用源也会换。这不是 bug,这是大模型本身的运行方式。但今天市面上几乎所有 GEO 仪表盘,给出的都是"一次抓取的一个数字",并把它当事实写进周报。这个数字,按统计学的标准说,只是一次猜测。

圣加仑大学最近一篇研究(Schulte、Bleeker、Kaufmann,2026)正好把这件事说清楚了。他们的核心观点很硬:AI 搜索可见度本质上是一个分布,不是一个点。任何能站得住脚的测量体系都需要两个维度——出现频率,以及那个频率有多稳定。绝大多数从业者只看第一个,而且只看一次。

为什么单次测量 AI 搜索可见度不靠谱?

简短的回答:大模型的输出是随机的。同一个 prompt、同一个模型、同一天,输出会变。方差是采样机制本身决定的。换句话说,你抓到的那一次答复,是从一个你看不见的分布里随机抽出来的一份样本。

放在传统 SEO 的世界里,这件事不算问题。在搜索引擎上排某个关键词,结果是接近确定的——你抓一次,看到一个位置,记下来。位置变化得很慢。可是到了生成式引擎这边,"位置"的对应物是"模型有没有点你的名、点在第几句"。这两个东西每次调用都在抖。

后果直接而粗暴。如果你抓了一次,发现品牌被提到了,你会在 Excel 里写下"该问题命中率 100%"。可是再跑 20 次,真实命中率可能是 35%,也可能是 80%——单次抓取与这两种情况都兼容。把单次抓取当成测量结果上报,不叫监测,叫不带统计的采样。

这一层的危害在实战里尤其严重。很多 GEO 服务商交付的"AI 搜索曝光报告",本质就是一次抓取做成 PPT。客户拿着这份报告做内容预算决策,决策建立在一份置信区间宽到能塞进一辆卡车的数据上。

双面板对照图:左边一次抓取的孤立数据点,右边 30 次重复测量的散点云、均值线和 95% 置信区间带

AI 搜索可见度是分布,不是快照

把这件事想清楚,最干净的办法是把"排名"这个词彻底丢掉。对任何一个 prompt,你的品牌在某个模型上有一个真实的命中概率 p。你看不见 p,只能采样。每跑一次就是一次伯努利试验——命中或没命中——跑得多了,命中比例就给你一个对真实概率的估计 (读"p 帽")。

跑一次,你完全不知道 p 有多远。跑二十次,区间开始收窄。跑三十次以上,配合常规假设,你能给出一个不丢人的置信区间。数学其实是本科水平——二项比例的 Wilson 区间——但结论很关键:任何可见度数字都该带一条带子,而不是一个点

编辑风格的图表,展示 AI 搜索可见度作为重复测量的直方图分布,带有点估计 p-hat 和 95% 置信区间

"被点到的位置"这件事更复杂。你是被第一个提到的厂商?第三个?还是只在某个引用脚注里?这是分类分布,不是二元的。要把它测准,需要追踪每个位置的出现频率,而不仅仅是"出没出现"。

圣加仑团队在汽车、银行、运动零售、食品零售四个行业上证实了这一点:方差不是几个奇怪 prompt 的特殊现象,而是结构性的。换平台之后规律也成立。不同模型方差形态各异——带强检索锚的引擎和纯生成的引擎抖动模式不同——但每个模型都吐出一个分布,没有一个吐出一个点。结论是:只测一个模型,跟只跑一次一样误导,整个模型面板都需要各自的采样规范。

两个维度:频率,和稳定性

一旦接受可见度是分布,正确的总结方法就不是一个数字,而是两个。

  • 频率 —— ,命中比例。这是大家都在追的指标。
  • 稳定性 —— 分布在 周围的紧致程度。可以用 95% 置信区间的半宽,也可以用多批次跑出来的变异系数。

两个维度合起来,就是一张简单的二维地图。

频率与稳定性的二乘二矩阵图,划分四个象限:不可见、幸运命中、不稳定幽灵、可靠曝光

只有"高频率 + 高稳定"那个象限里的数字,你才敢拿去对 CMO 拍板。"高频率 + 低稳定"是大多数一次抓取仪表盘居住的地方——数字漂亮,但下次刷新就翻车。"低频率 + 低稳定"最危险:偶尔出现一次,单次报告里看着像信号,平均下来就是噪声。"低频率 + 高稳定"至少是诚实的。

这张图也直接给优先级排序:稳定且低频的 prompt 是内容缺口,应该补内容;不稳定且高频的是防御问题——你确实在被提到,但模型对你不确定,往往意味着实体信号弱、引用源覆盖不够。该做的事完全不一样。

到底要跑多少次才算够?

实事求是的回答:取决于你决策需要多精确。有用的回答:每个 prompt 跑 30 次左右,是能写进报告而不脸红的下限

算术不复杂。在 95% 置信水平下,二项比例的 Wilson 区间在 = 0.5(最坏情况)的半宽大约是 1/√n。30 次给你 ±18 个百分点的半宽。100 次收紧到 ±10。1000 次到 ±3。30 不是奢侈,是地板。

听起来贵,但跟反面比一下就还好。如果你监测 50 个核心问题、5 个模型、每个 1 次抓取,你跑了 250 次接口,得到的数字误差可能 ±50 个百分点——基本不能看。同样 50 个问题、3 个模型、每题 30 次,是 4500 次抓取——18 倍——但你拿到的是一份董事会能讨论的数据。预算浪费在小预算上,不是大预算上。

几个论文里没明说但实战很要紧的细节:

  • 跑的时间要分散,不要在三分钟里连发 30 次。某些平台会在短窗口内缓存响应,你得到的"高稳定"是假象。
  • prompt 要做几个自然变体,比如"小公司用什么 CRM"和"小团队推荐什么 CRM 工具"。这两个 prompt 在同一个模型上的表现可能完全不同,把它们当一个 prompt 算,会人为低估真实方差。
  • 新会话和带历史的会话要分开统计。某些平台带上下文之后行为会漂移。

一个能直接用的基线设置:每个 prompt 30 次、新会话、约一分钟一次,跑那些你真打算拿去给老板看的问题。

这意味着 GEO 报告该怎么写

报告格式有三个具体变化。

每个可见度 KPI 都要带置信区间。品牌命中率、引用率、出现位置、份额——没有一个还配单数字上 PPT。格式是 ± 半宽,或者"32%(95% CI: 24%–41%)"。如果你的工具吐不出这个区间,那它不是在测量,是在采样。

每张报告都带稳定性分数。最简单的版本就是 CI 半宽。更顺手的版本是把多批次变异系数映射成 0–100 的稳定性分。两种都行,重点是这个第二维数字能挡住"幸运命中"陷阱。

趋势对比的是分布,不是点。当你说"我们这周可见度上升了",要回答的问题是新分布跟上周分布有没有显著差异,不是上周的单次数字比这周的单次数字小。两比例的 z 检验,或者两个置信区间是否有重叠,是合格门槛。

如果你已经有一套 KPI 仪表盘,可以参考《AI 搜索可见度指标和 KPIs》,里面写了具体 KPI 怎么定。如果你还在选工具,《AI 可见度工具如何选》对比了哪些工具能给区间、哪些只能给单次抓取。

一份可以周一就开跑的测量协议

不需要换工具就可以开始把这件事做对。最小可行版本一页就讲完。

  1. 挑 20–50 个真问题。客户真会问的话,自然语言写出来,包括竞品对比、品类定义型问题。不是关键词,是问题。
  2. 选 3–5 个对你的买家真正重要的模型。覆盖你的受众实际会去问的那几款引擎——通常会是对话型和带强检索的组合。一个模型不叫基准,叫绑架。
  3. 每个 prompt 在每个模型上跑 30 次,新会话,分散在几小时内。把答复全文、引用源、品牌出现位置都存下来。
  4. 每个 prompt-模型对算三个数: 命中率 、95% CI 半宽、命中时最常见的位置。
  5. 报告里头条数字、区间、稳定性分一起出。不出单数字,永不出单数字。
  6. 按固定节奏复测——活跃投放期每周,稳态监测每月——比的是分布之间的差异,不是点对点。

这套比今天大多数 agency 交付的更严格,但也比再买一套换皮 GEO 仪表盘便宜得多。方法论才是壕沟,工具是下游的事。

常见问题:GEO 测量

到底跑多少次才算"可信"?

要 95% CI 半宽到 ±10 个百分点,每题大概 100 次。±18 个百分点要 30 次。低于 30 次不是测量,是趣闻。

所有模型都一样要 30 次吗?

方差因模型而异。能调 temperature 且调低的,更稳。带强检索的引擎通常比纯生成的稳——检索为输出提供了锚。永远按模型测方差,不要假设

真的从来没有"测一次就够"的场景吗?

如果只是"我们到底在不在这个回答里"的方向性嗅探,跑一次行。任何牵涉预算、内容投资、竞品对比的决策,不行。

竞品份额怎么报?

竞品份额要按"每家一条带子"来报,不是堆叠的点。竞品之间的排名跨次会翻。董事会级别的竞品读数,需要每家给一个区间,宣称谁领先之前要看区间是否不重叠。

那点击率和流量数据呢?

不变,仍是次要指标。点击率测的是参与层,不是可见层。基于分布的可见度测量,是为了把"用户没点击但看到了你"的那一层,做出一个站得住脚的 KPI——而那一层是 AI 搜索的主战场。

参考文献

  • Schulte, A., Bleeker, J., & Kaufmann, R. (2026). Don't Measure Once: Measuring Visibility in AI Search (GEO). University of St. Gallen. arXiv:2604.07585
Adrian Veller

作者

Adrian Veller

魏安德博士专注于 GEO 项目的测量方法论。他把分布、置信区间、稳定性这类统计语言带进了一个仍把"单次抓取"当作事实的行业。