同人・アニメ系クリエイターのサイトが狙われる理由
アニメ風の画像はStable Diffusion・NovelAI・Midjourneyなどの生成AIにとって非常に価値の高い学習データです。特定のクリエイターのスタイルを学習させることで、そのクリエイターの作風を模倣した画像を大量生成できてしまいます。
Pixiv・X(Twitter)だけでなく、個人サイト・BOOTH・Fantia・Fanboxに掲載した作品も、Webクローラーを通じて収集される可能性があります。
特に注意すべきクローラー
- CCBot (Common Crawl) — LAION-5BなどAI学習データセットの元になっているクローラー。アニメ画像を大量収集していることが判明しています
- Diffbot — 画像・テキストの構造化データを収集。作品概要・キャラクター名・タグとセットで収集する
- Bytespider (ByteDance) — TikTokの親会社ByteDanceのクローラー。多言語・マルチモーダルモデルの学習に使用される可能性あり
個人サイトでのブロック設定
# 同人・アニメ系クリエイター向け robots.txt
User-agent: CCBot
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: MistralBot
Disallow: /
BOOTH・Fanboxでの対策
BOOTH・Fanboxなどのプラットフォームでは自分でrobots.txtを設定できません。しかし、自分の個人サイトやポートフォリオサイトに作品を掲載している場合は、そちらでブロック設定することが重要です。
プラットフォーム側への要望として、各社にAIクローラーブロックのオプション提供を求める動きもあります。
AI Access Monitorで監視する
自分のサイトにどのAIクローラーが来ているか把握するには、実際のアクセスログを確認する必要があります。AI Access Monitorなら1行コードを追加するだけで、作品ページ(/works/、/gallery/、/illust/ など)へのAIアクセスをリアルタイムで可視化できます。
「毎月何回収集されているか」「ブロック後も来ているか」を数値で把握することで、著作権侵害の証拠として活用できます。