TL;DR

我们监控了自己网站的AI爬虫访问日志一个月。发现了三个意外:

  1. ClaudeBot最活跃,Bingbot次之,Googlebot几乎不来
  2. Bytespider(豆包爬虫)只抓sitemap,从不抓内容页面
  3. 不同的AI爬虫行为模式完全不同——不存在"通用GEO策略"

监控设置

我们在自己的网站上部署了Nginx日志分析和爬虫识别系统,按天归档,区分AI爬虫和传统搜索引擎爬虫。监控覆盖六个主流AI爬虫:GPTBot、ClaudeBot、Bytespider、OAI-SearchBot、PerplexityBot、DeepSeekBot。

同时监控传统搜索引擎爬虫作为对照:Bingbot、Googlebot、Baiduspider、360Spider。

一个月数据总览

爬虫 类型 访问频率 是否抓内容 说明
ClaudeBot AI 最活跃,抓博客和方法论文
bingbot 搜索 初期高频后下降
Bytespider AI 只打sitemap,不抓页面
GPTBot AI 偶发访问
Googlebot 搜索 极低 几乎不来
OAI-SearchBot AI 偶尔出现
360Spider 搜索 部分 高频但抓取不深

意外一:ClaudeBot 比其他都活跃

Anthropic的ClaudeBot在我们网站上的访问量超过了Bingbot和Googlebot的总和。它抓取的内容包括博客文章、方法论文、服务页面——是一个真正在"读内容"的AI爬虫。

但ClaudeBot的访问不规律。某天来68次,第二天零次。不是渐进式抓取,而是批量集中抓取。

意外二:Bytespider不抓内容

这可能是最重要的发现。

一个月来,Bytespider(字节跳动/豆包的爬虫)的访问记录显示:它只抓取sitemap.xml、sitemap-ai.xml和robots.txt。没有一次访问实际内容页面。

我们做了对照测试:在豆包里直接输入我们的网站URL,豆包能生成一个看似合理的描述——但仔细检查发现,它的描述不是从我们网站内容中提取的,而是基于URL中的关键词拼接出来的。

随后我们问豆包一个只有我们网站才有答案的具体问题。豆包给出的答案在数字、细节上都是错误的。它不是从我们网站读取的——它是靠模型的生成能力猜的。

这个发现意味着:对豆包做GEO,优化网站本身可能不够。豆包的信息来源可能是其他渠道——比如百度搜索结果、知乎内容、或者其他已经索引的平台。

意外三:Googlebot几乎不来

我们的网站上线一个月,Googlebot的访问次数是个位数。相比之下,Bingbot在同一时期的访问量是Googlebot的5倍以上。

这可能跟我们的网站没有提交Google Search Console有关。但如果你的目标用户在中国,这问题不大——国内用户用的AI平台(豆包、DeepSeek、Kimi)依赖的搜索后端主要是Bing和百度。

不同爬虫的行为模式

一个月的监控数据打破了"AI爬虫都差不多"的假设:

  • ClaudeBot:批量集中模式。一次性抓取大量页面,然后长时间不出现。
  • Bytespider:元数据模式。只读sitemap和robots,不深入内容。
  • GPTBot:抽样模式。偶尔出现,抓取少量页面。
  • Bingbot:渐进模式。初期高频发现性抓取,之后降为低频维护。
  • Googlebot:在我们的情况下——休眠模式。

这对GEO策略意味着什么

如果不同的AI爬虫行为完全不同,统一的"网站优化"策略就不够。需要按平台定制:

平台 策略重点
Claude/Anthropic 网站内容质量、结构化数据、llms.txt
豆包/ByteDance 外部平台内容(知乎、CSDN)、百度收录
ChatGPT/OpenAI 网站可爬性、结构化标记
DeepSeek Bing收录优先
Kimi Bing收录 + 知乎内容

一个网站做好站内优化只是基础。对于豆包这类不抓内容的平台,站外策略比站内更重要。

监控还在继续

我们会持续记录AI爬虫的行为变化。一个月的数据可以做初步判断,但要形成规律性结论,至少需要一个季度的观察。

下一个阶段我们关注的是:平台之间的引用数据是否能和爬虫行为对应起来。如果能,就能建立一套可预测的模型——做了X,Y天后在Z平台看到效果。


相关阅读