なぜAIクローラーの状況を確認する必要があるのか
「うちのサイトはrobots.txtを設定しているから大丈夫」と思っていても、実際には多くのAIボットに収集されているケースが多くあります。その理由は:
- robots.txtの書き方が間違っている(大文字小文字の違い等)
- 設定したのがGPTBotだけで、他の12種が未対応
- 新しいAIボット(2025年以降に登場)が未記載
- robots.txtを無視するボット(Diffbot等)がいる
方法①:robots.txtを直接確認する
最も基本的な確認方法です:
curl https://yourdomain.com/robots.txt
または、ブラウザで https://yourdomain.com/robots.txt にアクセスしてください。
確認すべき13種のAIボット:
- GPTBot(OpenAI)
- OAI-SearchBot(OpenAI検索)
- ClaudeBot(Anthropic)
- anthropic-ai(Anthropic)
- PerplexityBot(Perplexity)
- CCBot(Common Crawl)
- Google-Extended(Google AI)
- Diffbot(Diffbot社)
- Bytespider(ByteDance/TikTok)
- Amazonbot(Amazon)
- YouBot(You.com)
- cohere-ai(Cohere)
- MistralBot(Mistral AI)
方法②:curlでAIボットになりすまして確認
# GPTBotとしてアクセスして応答を確認
curl -A "GPTBot" https://yourdomain.com/ -I
# 200が返ってきたらブロックされていない
# 403/402が返ってきたらブロック成功
方法③:AI Access Monitorで一括診断(無料)
手動で13種すべてを確認するのは手間がかかります。AI Access Monitorでは、URLを入力するだけで13種のAIボットのブロック状況を一覧で確認できます。また、実際にアクセスしているAIボットをリアルタイムで監視・記録する機能も無料で利用できます。
ブロック設定後に確認すべきこと
robots.txtを追加・修正した後は、以下を確認してください:
- robots.txtに構文エラーがないか(Googleのrobots.txtテスターで確認可能)
- Googlebot等の通常検索クローラーが引き続きアクセスできるか
- 実際のAIボットアクセスがサーバーログから減少しているか