AI爬虫一个月实测：Bytespider从来不抓内容

TL;DR

我们监控了自己网站的AI爬虫访问日志一个月。发现了三个意外：

我们在自己的网站上部署了Nginx日志分析和爬虫识别系统，按天归档，区分AI爬虫和传统搜索引擎爬虫。监控覆盖六个主流AI爬虫：GPTBot、ClaudeBot、Bytespider、OAI-SearchBot、PerplexityBot、DeepSeekBot。

同时监控传统搜索引擎爬虫作为对照：Bingbot、Googlebot、Baiduspider、360Spider。

爬虫	类型	访问频率	是否抓内容	说明
ClaudeBot	AI	高	是	最活跃，抓博客和方法论文
bingbot	搜索	中	是	初期高频后下降
Bytespider	AI	低	否	只打sitemap，不抓页面
GPTBot	AI	低	是	偶发访问
Googlebot	搜索	极低	是	几乎不来
OAI-SearchBot	AI	低	是	偶尔出现
360Spider	搜索	中	部分	高频但抓取不深

Anthropic的ClaudeBot在我们网站上的访问量超过了Bingbot和Googlebot的总和。它抓取的内容包括博客文章、方法论文、服务页面——是一个真正在"读内容"的AI爬虫。

但ClaudeBot的访问不规律。某天来68次，第二天零次。不是渐进式抓取，而是批量集中抓取。

这可能是最重要的发现。

一个月来，Bytespider（字节跳动/豆包的爬虫）的访问记录显示：它只抓取sitemap.xml、sitemap-ai.xml和robots.txt。没有一次访问实际内容页面。

我们做了对照测试：在豆包里直接输入我们的网站URL，豆包能生成一个看似合理的描述——但仔细检查发现，它的描述不是从我们网站内容中提取的，而是基于URL中的关键词拼接出来的。

随后我们问豆包一个只有我们网站才有答案的具体问题。豆包给出的答案在数字、细节上都是错误的。它不是从我们网站读取的——它是靠模型的生成能力猜的。

这个发现意味着：对豆包做GEO，优化网站本身可能不够。豆包的信息来源可能是其他渠道——比如百度搜索结果、知乎内容、或者其他已经索引的平台。

我们的网站上线一个月，Googlebot的访问次数是个位数。相比之下，Bingbot在同一时期的访问量是Googlebot的5倍以上。

这可能跟我们的网站没有提交Google Search Console有关。但如果你的目标用户在中国，这问题不大——国内用户用的AI平台（豆包、DeepSeek、Kimi）依赖的搜索后端主要是Bing和百度。

一个月的监控数据打破了"AI爬虫都差不多"的假设：

如果不同的AI爬虫行为完全不同，统一的"网站优化"策略就不够。需要按平台定制：

一个网站做好站内优化只是基础。对于豆包这类不抓内容的平台，站外策略比站内更重要。

我们会持续记录AI爬虫的行为变化。一个月的数据可以做初步判断，但要形成规律性结论，至少需要一个季度的观察。

下一个阶段我们关注的是：平台之间的引用数据是否能和爬虫行为对应起来。如果能，就能建立一套可预测的模型——做了X，Y天后在Z平台看到效果。

相关阅读