全ブロックより戦略的なホワイトリスト管理
すべてのAIボットをブロックするのが最も安全ですが、ビジネス上のメリットを失う可能性もあります。AI検索エンジンにインデックスされることで新規ユーザーを獲得できるケースもあるからです。
ホワイトリスト戦略では、「許可するAI」と「禁止するAI」を意図的に選別します。
ブロックすべきAIと許可を検討できるAI
ブロック推奨(一方的な学習目的・流入なし)
- GPTBot / OAI-SearchBot:ChatGPTの学習データ収集。引用表示なし
- ClaudeBot / anthropic-ai:Claudeの学習データ収集
- CCBot:Common Crawl。多くのAIモデルの学習データ源
- Diffbot:企業向けデータ販売。流入メリットなし
- Bytespider:ByteDance系。robots.txtを無視するケースあり
- cohere-ai:エンタープライズAI向け学習データ収集
- MistralBot:Mistral AIの学習データ収集
条件付きで許可を検討(流入の可能性あり)
- PerplexityBot:Perplexityからの引用リンクで流入の可能性あり
- Google-Extended:AI Overviewsから流入する場合もある(ただし減少傾向)
- Amazonbot:Alexa等のボイス検索への対応目的
- YouBot:You.com検索エンジンからの流入
ホワイトリスト型のrobots.txt
# 明確にブロック
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: MistralBot
Disallow: /
# 条件付き許可(コラムのみブロック)
User-agent: PerplexityBot
Disallow: /premium/
Disallow: /member/
User-agent: Google-Extended
Disallow: /premium/
# 通常検索エンジンは完全許可
User-agent: Googlebot
Allow: /
User-agent: *
Allow: /
PerplexityBotを許可する場合のリスク
Perplexityは検索結果に出典URLを表示するため流入が期待できる反面、コンテンツを大量に要約表示するため、ユーザーがサイトを訪問しないゼロクリックが増える可能性もあります。許可するかどうかは、サイトの収益モデルによって判断してください。
AIアクセスの効果測定
どのAIボットを許可・ブロックするかの判断には、実際のアクセスデータが必要です。AI Access Monitorでは、各AIボットのアクセス頻度・対象URLを記録し、ブロック戦略の最適化に役立てることができます。