AI Access Monitorは無料で使えますか？

はい、無料で始められます。1行のコードをサイトに追加するだけで、AIクローラーの計測をすぐに開始できます。クレジットカードも不要です。

どのAIボットを検知できますか？

GPTBot（OpenAI）、ClaudeBot（Anthropic）、PerplexityBot、Google-Extended、Bytespider（ByteDance）、CCBot、cohere-ai、YouBot、MistralBotなど28種のAIクローラーを自動検知します。

AIボットをブロックすることはできますか？

はい、「AIに使用料を請求」機能を使うことで、宣言型AIボットの95%以上をHTTP 402でブロックできます。ライセンスを購入したボットのみアクセスを許可する仕組みに対応しています。

導入にはどのくらい時間がかかりますか？

HTMLのタグに1行のscriptタグを追加するだけです。設定は不要で、追加した翌日からダッシュボードにデータが表示されます。

2026-04-05·7分で読める

CCBot（Common Crawl）のブロック方法とAI学習への使われ方

GPT・Llama等の学習に使われるCommon CrawlのクローラーCCBotの仕組みと、ブロック方法・AI学習との関係を解説します。

CCBotCommon CrawlAI学習データブロック

CCBotとCommon Crawlとは

CCBotはCommon Crawl財団が運営するWebクローラーです。Common Crawlは毎月数十億ページを収集し、そのデータを公開しています。このデータはGPT-3・GPT-4・Llama・Stable Diffusionなど多くの主要AIモデルの学習に広く使用されています。

User-Agent：CCBot/2.0 (+https://commoncrawl.org/faq/)

CCBotをブロックすべき理由

直接的にAIクローラーをブロックするより、CCBotのブロックのほうが長期的な影響が大きい可能性があります。なぜなら、CCBotのデータは何十億ドルもの価値を持つAIモデルの学習基盤だからです。あなたのコンテンツが将来の多数のAIモデルに使われる可能性があります。

robots.txtでブロック

User-agent: CCBot
Disallow: /

一括ブロック設定（推奨：全AI関連）

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

CCBotの検知

# Nginxログでの確認
grep "CCBot" /var/log/nginx/access.log | wc -l

# IPからのアクセス確認
grep "CCBot" /var/log/nginx/access.log | awk '{print $1}' | sort | uniq -c

Common Crawlとオプトアウト

Common Crawlは公式にrobots.txtのオプトアウトを尊重すると述べています。一度クロールされたデータはすでに公開データセットに含まれている場合がありますが、新規クロールを防ぐことは可能です。

AI Access Monitor

まず計測から始めよう

1行のコード追加で、AIクローラーの計測を今日から開始。無料・設定不要。

無料で始める →