·7分で読める

CCBot(Common Crawl)のブロック方法とAI学習への使われ方

GPT・Llama等の学習に使われるCommon CrawlのクローラーCCBotの仕組みと、ブロック方法・AI学習との関係を解説します。

CCBotCommon CrawlAI学習データブロック

CCBotとCommon Crawlとは

CCBotはCommon Crawl財団が運営するWebクローラーです。Common Crawlは毎月数十億ページを収集し、そのデータを公開しています。このデータはGPT-3・GPT-4・Llama・Stable Diffusionなど多くの主要AIモデルの学習に広く使用されています。

User-AgentCCBot/2.0 (+https://commoncrawl.org/faq/)

CCBotをブロックすべき理由

直接的にAIクローラーをブロックするより、CCBotのブロックのほうが長期的な影響が大きい可能性があります。なぜなら、CCBotのデータは何十億ドルもの価値を持つAIモデルの学習基盤だからです。あなたのコンテンツが将来の多数のAIモデルに使われる可能性があります。

robots.txtでブロック

User-agent: CCBot
Disallow: /

一括ブロック設定(推奨:全AI関連)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

CCBotの検知

# Nginxログでの確認
grep "CCBot" /var/log/nginx/access.log | wc -l

# IPからのアクセス確認
grep "CCBot" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c

Common Crawlとオプトアウト

Common Crawlは公式にrobots.txtのオプトアウトを尊重すると述べています。一度クロールされたデータはすでに公開データセットに含まれている場合がありますが、新規クロールを防ぐことは可能です。

AI Access Monitor

まず計測から始めよう

1行のコード追加で、AIクローラーの計測を今日から開始。無料・設定不要。

無料で始める →