GEOAI 搜索测量方法方法论

GEO 测量方法：为什么单次抓取会骗你

今天大多数 GEO 工具只跑一次就出报告。那个数字不可信。这篇讲清楚为什么 AI 搜索可见度是一个分布、需要置信区间和稳定性分数，以及一个可以周一就开跑的测量协议。

Adrian VellerJune 11, 20262 分钟阅读

同一个品牌问题，连续问同一个大模型十次，会得到十种答案。有几次提到你，有几次没提；提到的位置每次不一样；附带的引用源也会换。这不是 bug，这是大模型本身的运行方式。但今天市面上几乎所有 GEO 仪表盘，给出的都是"一次抓取的一个数字"，并把它当事实写进周报。这个数字，按统计学的标准说，只是一次猜测。

圣加仑大学最近一篇研究（Schulte、Bleeker、Kaufmann，2026）正好把这件事说清楚了。他们的核心观点很硬：AI 搜索可见度本质上是一个分布，不是一个点。任何能站得住脚的测量体系都需要两个维度——出现频率，以及那个频率有多稳定。绝大多数从业者只看第一个，而且只看一次。

为什么单次测量 AI 搜索可见度不靠谱？

简短的回答：大模型的输出是随机的。同一个 prompt、同一个模型、同一天，输出会变。方差是采样机制本身决定的。换句话说，你抓到的那一次答复，是从一个你看不见的分布里随机抽出来的一份样本。

放在传统 SEO 的世界里，这件事不算问题。在搜索引擎上排某个关键词，结果是接近确定的——你抓一次，看到一个位置，记下来。位置变化得很慢。可是到了生成式引擎这边，"位置"的对应物是"模型有没有点你的名、点在第几句"。这两个东西每次调用都在抖。

后果直接而粗暴。如果你抓了一次，发现品牌被提到了，你会在 Excel 里写下"该问题命中率 100%"。可是再跑 20 次，真实命中率可能是 35%，也可能是 80%——单次抓取与这两种情况都兼容。把单次抓取当成测量结果上报，不叫监测，叫不带统计的采样。

这一层的危害在实战里尤其严重。很多 GEO 服务商交付的"AI 搜索曝光报告"，本质就是一次抓取做成 PPT。客户拿着这份报告做内容预算决策，决策建立在一份置信区间宽到能塞进一辆卡车的数据上。

AI 搜索可见度是分布，不是快照

把这件事想清楚，最干净的办法是把"排名"这个词彻底丢掉。对任何一个 prompt，你的品牌在某个模型上有一个真实的命中概率 p。你看不见 p，只能采样。每跑一次就是一次伯努利试验——命中或没命中——跑得多了，命中比例就给你一个对真实概率的估计 p̂（读"p 帽"）。

跑一次，你完全不知道 p̂ 离 p 有多远。跑二十次，区间开始收窄。跑三十次以上，配合常规假设，你能给出一个不丢人的置信区间。数学其实是本科水平——二项比例的 Wilson 区间——但结论很关键：任何可见度数字都该带一条带子，而不是一个点。

"被点到的位置"这件事更复杂。你是被第一个提到的厂商？第三个？还是只在某个引用脚注里？这是分类分布，不是二元的。要把它测准，需要追踪每个位置的出现频率，而不仅仅是"出没出现"。

圣加仑团队在汽车、银行、运动零售、食品零售四个行业上证实了这一点：方差不是几个奇怪 prompt 的特殊现象，而是结构性的。换平台之后规律也成立。不同模型方差形态各异——带强检索锚的引擎和纯生成的引擎抖动模式不同——但每个模型都吐出一个分布，没有一个吐出一个点。结论是：只测一个模型，跟只跑一次一样误导，整个模型面板都需要各自的采样规范。

两个维度：频率，和稳定性

一旦接受可见度是分布，正确的总结方法就不是一个数字，而是两个。

频率 —— p̂，命中比例。这是大家都在追的指标。
稳定性 —— 分布在 p̂ 周围的紧致程度。可以用 95% 置信区间的半宽，也可以用多批次跑出来的变异系数。

两个维度合起来，就是一张简单的二维地图。

只有"高频率 + 高稳定"那个象限里的数字，你才敢拿去对 CMO 拍板。"高频率 + 低稳定"是大多数一次抓取仪表盘居住的地方——数字漂亮，但下次刷新就翻车。"低频率 + 低稳定"最危险：偶尔出现一次，单次报告里看着像信号，平均下来就是噪声。"低频率 + 高稳定"至少是诚实的。

这张图也直接给优先级排序：稳定且低频的 prompt 是内容缺口，应该补内容；不稳定且高频的是防御问题——你确实在被提到，但模型对你不确定，往往意味着实体信号弱、引用源覆盖不够。该做的事完全不一样。

到底要跑多少次才算够？

实事求是的回答：取决于你决策需要多精确。有用的回答：每个 prompt 跑 30 次左右，是能写进报告而不脸红的下限。

算术不复杂。在 95% 置信水平下，二项比例的 Wilson 区间在 p̂ = 0.5（最坏情况）的半宽大约是 1/√n。30 次给你 ±18 个百分点的半宽。100 次收紧到 ±10。1000 次到 ±3。30 不是奢侈，是地板。

听起来贵，但跟反面比一下就还好。如果你监测 50 个核心问题、5 个模型、每个 1 次抓取，你跑了 250 次接口，得到的数字误差可能 ±50 个百分点——基本不能看。同样 50 个问题、3 个模型、每题 30 次，是 4500 次抓取——18 倍——但你拿到的是一份董事会能讨论的数据。预算浪费在小预算上，不是大预算上。

几个论文里没明说但实战很要紧的细节：

跑的时间要分散，不要在三分钟里连发 30 次。某些平台会在短窗口内缓存响应，你得到的"高稳定"是假象。
prompt 要做几个自然变体，比如"小公司用什么 CRM"和"小团队推荐什么 CRM 工具"。这两个 prompt 在同一个模型上的表现可能完全不同，把它们当一个 prompt 算，会人为低估真实方差。
新会话和带历史的会话要分开统计。某些平台带上下文之后行为会漂移。

一个能直接用的基线设置：每个 prompt 30 次、新会话、约一分钟一次，跑那些你真打算拿去给老板看的问题。

这意味着 GEO 报告该怎么写

报告格式有三个具体变化。

每个可见度 KPI 都要带置信区间。品牌命中率、引用率、出现位置、份额——没有一个还配单数字上 PPT。格式是 p̂ ± 半宽，或者"32%（95% CI: 24%–41%）"。如果你的工具吐不出这个区间，那它不是在测量，是在采样。

每张报告都带稳定性分数。最简单的版本就是 CI 半宽。更顺手的版本是把多批次变异系数映射成 0–100 的稳定性分。两种都行，重点是这个第二维数字能挡住"幸运命中"陷阱。

趋势对比的是分布，不是点。当你说"我们这周可见度上升了"，要回答的问题是新分布跟上周分布有没有显著差异，不是上周的单次数字比这周的单次数字小。两比例的 z 检验，或者两个置信区间是否有重叠，是合格门槛。

如果你已经有一套 KPI 仪表盘，可以参考《AI 搜索可见度指标和 KPIs》，里面写了具体 KPI 怎么定。如果你还在选工具，《AI 可见度工具如何选》对比了哪些工具能给区间、哪些只能给单次抓取。

一份可以周一就开跑的测量协议

不需要换工具就可以开始把这件事做对。最小可行版本一页就讲完。

挑 20–50 个真问题。客户真会问的话，自然语言写出来，包括竞品对比、品类定义型问题。不是关键词，是问题。
选 3–5 个对你的买家真正重要的模型。覆盖你的受众实际会去问的那几款引擎——通常会是对话型和带强检索的组合。一个模型不叫基准，叫绑架。
每个 prompt 在每个模型上跑 30 次，新会话，分散在几小时内。把答复全文、引用源、品牌出现位置都存下来。
每个 prompt-模型对算三个数： 命中率 p̂、95% CI 半宽、命中时最常见的位置。
报告里头条数字、区间、稳定性分一起出。不出单数字，永不出单数字。
按固定节奏复测——活跃投放期每周，稳态监测每月——比的是分布之间的差异，不是点对点。

这套比今天大多数 agency 交付的更严格，但也比再买一套换皮 GEO 仪表盘便宜得多。方法论才是壕沟，工具是下游的事。

常见问题：GEO 测量

到底跑多少次才算"可信"？

要 95% CI 半宽到 ±10 个百分点，每题大概 100 次。±18 个百分点要 30 次。低于 30 次不是测量，是趣闻。

所有模型都一样要 30 次吗？

方差因模型而异。能调 temperature 且调低的，更稳。带强检索的引擎通常比纯生成的稳——检索为输出提供了锚。永远按模型测方差，不要假设。

真的从来没有"测一次就够"的场景吗？

如果只是"我们到底在不在这个回答里"的方向性嗅探，跑一次行。任何牵涉预算、内容投资、竞品对比的决策，不行。

竞品份额怎么报？

竞品份额要按"每家一条带子"来报，不是堆叠的点。竞品之间的排名跨次会翻。董事会级别的竞品读数，需要每家给一个区间，宣称谁领先之前要看区间是否不重叠。

那点击率和流量数据呢？

不变，仍是次要指标。点击率测的是参与层，不是可见层。基于分布的可见度测量，是为了把"用户没点击但看到了你"的那一层，做出一个站得住脚的 KPI——而那一层是 AI 搜索的主战场。

参考文献

Schulte, A., Bleeker, J., & Kaufmann, R. (2026). Don't Measure Once: Measuring Visibility in AI Search (GEO). University of St. Gallen. arXiv:2604.07585

作者

Adrian Veller

魏安德博士专注于 GEO 项目的测量方法论。他把分布、置信区间、稳定性这类统计语言带进了一个仍把"单次抓取"当作事实的行业。