TL;DR
我们监控了自己网站的AI爬虫访问日志一个月。发现了三个意外:
- ClaudeBot最活跃,Bingbot次之,Googlebot几乎不来
- Bytespider(豆包爬虫)只抓sitemap,从不抓内容页面
- 不同的AI爬虫行为模式完全不同——不存在"通用GEO策略"
监控设置
我们在自己的网站上部署了Nginx日志分析和爬虫识别系统,按天归档,区分AI爬虫和传统搜索引擎爬虫。监控覆盖六个主流AI爬虫:GPTBot、ClaudeBot、Bytespider、OAI-SearchBot、PerplexityBot、DeepSeekBot。
同时监控传统搜索引擎爬虫作为对照:Bingbot、Googlebot、Baiduspider、360Spider。
一个月数据总览
| 爬虫 | 类型 | 访问频率 | 是否抓内容 | 说明 |
|---|---|---|---|---|
| ClaudeBot | AI | 高 | 是 | 最活跃,抓博客和方法论文 |
| bingbot | 搜索 | 中 | 是 | 初期高频后下降 |
| Bytespider | AI | 低 | 否 | 只打sitemap,不抓页面 |
| GPTBot | AI | 低 | 是 | 偶发访问 |
| Googlebot | 搜索 | 极低 | 是 | 几乎不来 |
| OAI-SearchBot | AI | 低 | 是 | 偶尔出现 |
| 360Spider | 搜索 | 中 | 部分 | 高频但抓取不深 |
意外一:ClaudeBot 比其他都活跃
Anthropic的ClaudeBot在我们网站上的访问量超过了Bingbot和Googlebot的总和。它抓取的内容包括博客文章、方法论文、服务页面——是一个真正在"读内容"的AI爬虫。
但ClaudeBot的访问不规律。某天来68次,第二天零次。不是渐进式抓取,而是批量集中抓取。
意外二:Bytespider不抓内容
这可能是最重要的发现。
一个月来,Bytespider(字节跳动/豆包的爬虫)的访问记录显示:它只抓取sitemap.xml、sitemap-ai.xml和robots.txt。没有一次访问实际内容页面。
我们做了对照测试:在豆包里直接输入我们的网站URL,豆包能生成一个看似合理的描述——但仔细检查发现,它的描述不是从我们网站内容中提取的,而是基于URL中的关键词拼接出来的。
随后我们问豆包一个只有我们网站才有答案的具体问题。豆包给出的答案在数字、细节上都是错误的。它不是从我们网站读取的——它是靠模型的生成能力猜的。
这个发现意味着:对豆包做GEO,优化网站本身可能不够。豆包的信息来源可能是其他渠道——比如百度搜索结果、知乎内容、或者其他已经索引的平台。
意外三:Googlebot几乎不来
我们的网站上线一个月,Googlebot的访问次数是个位数。相比之下,Bingbot在同一时期的访问量是Googlebot的5倍以上。
这可能跟我们的网站没有提交Google Search Console有关。但如果你的目标用户在中国,这问题不大——国内用户用的AI平台(豆包、DeepSeek、Kimi)依赖的搜索后端主要是Bing和百度。
不同爬虫的行为模式
一个月的监控数据打破了"AI爬虫都差不多"的假设:
- ClaudeBot:批量集中模式。一次性抓取大量页面,然后长时间不出现。
- Bytespider:元数据模式。只读sitemap和robots,不深入内容。
- GPTBot:抽样模式。偶尔出现,抓取少量页面。
- Bingbot:渐进模式。初期高频发现性抓取,之后降为低频维护。
- Googlebot:在我们的情况下——休眠模式。
这对GEO策略意味着什么
如果不同的AI爬虫行为完全不同,统一的"网站优化"策略就不够。需要按平台定制:
| 平台 | 策略重点 |
|---|---|
| Claude/Anthropic | 网站内容质量、结构化数据、llms.txt |
| 豆包/ByteDance | 外部平台内容(知乎、CSDN)、百度收录 |
| ChatGPT/OpenAI | 网站可爬性、结构化标记 |
| DeepSeek | Bing收录优先 |
| Kimi | Bing收录 + 知乎内容 |
一个网站做好站内优化只是基础。对于豆包这类不抓内容的平台,站外策略比站内更重要。
监控还在继续
我们会持续记录AI爬虫的行为变化。一个月的数据可以做初步判断,但要形成规律性结论,至少需要一个季度的观察。
下一个阶段我们关注的是:平台之间的引用数据是否能和爬虫行为对应起来。如果能,就能建立一套可预测的模型——做了X,Y天后在Z平台看到效果。
相关阅读