法律コンテンツが最もAIに狙われる理由
弁護士や法律事務所が公開する解説記事は、AIにとって「質の高い構造化された情報」の代表例です。契約書の雛形、判例解説、手続きのフロー——これらはChatGPTやClaude、Geminiが法律に関する質問に答える際の学習源として積極的に収集されています。
実際に「離婚の手続き方法は?」とChatGPTに質問すると、法律事務所のサイトから収集した情報を基に詳細な回答が返ってきます。しかし、出典となった事務所への流入はゼロです。
著作権法との関係
日本の著作権法第30条の4(情報解析のための複製等)は、AIによる学習目的のデータ収集を広く認める規定として知られています。しかし、これには重要な例外があります:
- 著作権者が明示的にオプトアウトを表明している場合
- robots.txtにDisallowが設定されている場合
- 技術的保護措置が施されている場合
つまり、robots.txtにAIボットのDisallowを記載することは、著作権の保護範囲を法的に主張するための重要な第一歩です。
法律事務所サイトへの具体的な設定方法
ステップ1: 現状確認
まずブラウザで https://yourdomain.jp/robots.txt にアクセスして現在の設定を確認します。多くの事務所サイトではAIボットの記載が一切ない状態です。
ステップ2: AIボットのブロック設定
# AIボット一括ブロック
User-agent: GPTBot
User-agent: OAI-SearchBot
User-agent: ClaudeBot
User-agent: anthropic-ai
User-agent: PerplexityBot
User-agent: CCBot
User-agent: Google-Extended
User-agent: Diffbot
User-agent: Bytespider
User-agent: Amazonbot
User-agent: YouBot
User-agent: cohere-ai
User-agent: MistralBot
Disallow: /
ステップ3: 検索エンジンは引き続き許可
GoogleやYahooなどの通常の検索クローラーは引き続き許可する必要があります。上記の設定はAIボットのみを対象としており、Googlebot・Bingbot等には影響しません。
Movable Type・サイトリーフ等CMSでの設定
法律事務所によく使われるCMSでの対応方法です:
- Movable Type:サイトのルートディレクトリにrobots.txtファイルを直接アップロード
- WordPress:Yoast SEOプラグインまたは直接FTPでファイル編集
- STUDIO:SEO設定からrobots.txtの内容を入力
設定後の確認・監視
robots.txtを設定しても、すべてのAIボットが従うとは限りません。中国発のBytespiderや一部のスクレイパーはrobots.txtを無視して収集を続けます。
AI Access Monitorでは、robots.txt設定後も実際のAIボットアクセスをリアルタイムで監視し、違反クロールの証拠ログを記録します。