CCBotとCommon Crawlとは
CCBotはCommon Crawl財団が運営するWebクローラーです。Common Crawlは毎月数十億ページを収集し、そのデータを公開しています。このデータはGPT-3・GPT-4・Llama・Stable Diffusionなど多くの主要AIモデルの学習に広く使用されています。
User-Agent:CCBot/2.0 (+https://commoncrawl.org/faq/)
CCBotをブロックすべき理由
直接的にAIクローラーをブロックするより、CCBotのブロックのほうが長期的な影響が大きい可能性があります。なぜなら、CCBotのデータは何十億ドルもの価値を持つAIモデルの学習基盤だからです。あなたのコンテンツが将来の多数のAIモデルに使われる可能性があります。
robots.txtでブロック
User-agent: CCBot
Disallow: /
一括ブロック設定(推奨:全AI関連)
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: cohere-ai
Disallow: /
CCBotの検知
# Nginxログでの確認
grep "CCBot" /var/log/nginx/access.log | wc -l
# IPからのアクセス確認
grep "CCBot" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c
Common Crawlとオプトアウト
Common Crawlは公式にrobots.txtのオプトアウトを尊重すると述べています。一度クロールされたデータはすでに公開データセットに含まれている場合がありますが、新規クロールを防ぐことは可能です。