AI時代のrobots.txt ~ AIクローラーに対応する書き方~

Posted on 2025-11-4

近年、ChatGPTやClaude、Geminiなどの大規模言語モデル(LLM)が急速に普及し、それに伴ってAIトレーニング用のWebクローラーも急増しています。従来の検索エンジン向けだけを考慮すれば良かったrobots.txtに、今やAIクローラーへの対応が不可欠となりました。

この記事では、AI時代のrobots.txtの書き方と、各AIクローラーの特性について解説します。

1. 従来のrobots.txtとAI時代の違い

従来のrobots.txt

従来のrobots.txtは、主にGoogleやBingなどの検索エンジンのクローラーを制御するために使用されていました。目的は明確で、検索結果に表示したくないページや、クロール負荷を軽減したいディレクトリを指定するというものでした。

User-agent: *
Disallow: /admin/
Disallow: /private/

User-agent: Googlebot
Allow: /

Sitemap: https://example.com/sitemap.xml

AI時代の新しい課題

AI時代では、以下のような新しい課題が生まれています。

  1. トレーニングデータとしての利用: Webコンテンツが検索インデックスだけでなく、AIモデルのトレーニングデータとして利用される
  2. 多様なAIクローラー: OpenAI、Anthropic、Google、Metaなど、各社が独自のクローラーを運用
  3. 利用目的の多様化: 検索、会話AI、コード補完、画像生成など、様々な目的でコンテンツが利用される
  4. 著作権と利用許諾: コンテンツの著作権保護とAI学習への利用許諾のバランス

2. 主要なAIクローラーの種類

2025年11月現在、主要なAIクローラーは以下の通りです。

OpenAI系

  • GPTBot: ChatGPTのモデルトレーニング用クローラー
  • ChatGPT-User: ChatGPTがユーザーのリクエストに応じてWeb検索を行う際に使用

Anthropic系

  • ClaudeBot: Claudeのモデルトレーニング用クローラー
  • anthropic-ai: Anthropicの汎用クローラー

Google系

  • Google-Extended: Googleの生成AI(BardやGemini)のトレーニング用クローラー
  • Googlebot: 従来の検索エンジン用(AI検索にも一部利用される可能性)

その他

  • CCBot: Common Crawlプロジェクトのクローラー(多くのAI企業が利用するデータセット)
  • Bytespider: ByteDance(TikTok運営)のクローラー
  • FacebookBot: Meta(旧Facebook)のクローラー
  • PerplexityBot: Perplexity AIの検索用クローラー
  • Diffbot: Web構造化データ抽出サービス

3. AIクローラーへの対応方針

戦略1: 全て許可する場合

自社のコンテンツをAIトレーニングにも活用してもらい、認知度向上や間接的なトラフィック増加を期待する場合です。

# robots.txt - 全て許可
User-agent: *
Allow: /

# AI Training Crawlers - 明示的な許可
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: CCBot
Allow: /

Sitemap: https://example.com/sitemap.xml

メリット:

  • AIアシスタントが自社コンテンツを参照・引用してくれる可能性
  • AIモデルが自社の専門知識を学習し、ブランド認知につながる
  • 将来的なAI検索エンジンでの露出が期待できる

デメリット:

  • コンテンツの無断利用に対する懸念
  • トレーニングデータとして使われることへの著作権上の疑問
  • サーバー負荷の増加

戦略2: 選択的に許可する場合

AIトレーニングは拒否しつつ、AI検索(ユーザーリクエストに応じた検索)は許可する戦略です。

# robots.txt - 選択的許可
User-agent: *
Allow: /

# AI Training - 拒否
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

# AI Search - 許可
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# 従来の検索エンジン - 許可
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Sitemap: https://example.com/sitemap.xml

メリット:

  • トレーニングデータとしての利用は拒否しつつ、検索経由のトラフィックは確保
  • コンテンツの著作権保護とSEOのバランスが取れる

デメリット:

  • AIモデルが自社コンテンツを学習しないため、間接的な認知向上の機会を逃す可能性

戦略3: 全て拒否する場合

コンテンツの厳格な保護や、有料コンテンツの無断利用を防ぐ場合です。

# robots.txt - AIクローラー全拒否
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: PerplexityBot
Disallow: /

# 従来の検索エンジンは許可
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

メリット:

  • コンテンツの厳格な保護
  • サーバー負荷の軽減

デメリット:

  • AI時代の新しいトラフィック機会を逃す
  • AIアシスタントが情報源として参照できない

4. 部分的な制御のテクニック

特定のディレクトリやコンテンツタイプのみを制御することも可能です。

有料コンテンツのみ保護

User-agent: *
Allow: /

# 有料コンテンツはAIトレーニングから保護
User-agent: GPTBot
Disallow: /premium/
Disallow: /subscription/
Allow: /

User-agent: ClaudeBot
Disallow: /premium/
Disallow: /subscription/
Allow: /

# 無料のブログ記事は許可(上記のAllowで対応)

技術ドキュメントは公開、プライベートは保護

User-agent: *
Allow: /

# ドキュメントはAI学習にも提供
User-agent: GPTBot
Allow: /docs/
Allow: /blog/
Disallow: /internal/

User-agent: ClaudeBot
Allow: /docs/
Allow: /blog/
Disallow: /internal/

5. robots.txtの限界と追加対策

robots.txtの限界

重要な点として、robots.txtは法的拘束力を持たない紳士協定であることを理解する必要があります。悪意のあるクローラーはrobots.txtを無視する可能性があります。

追加の保護策

  1. TDM(Text and Data Mining)Reservationヘッダー

    TDM-Reservation: 1
    

    HTTPヘッダーで明示的にテキストマイニングを拒否(EU著作権指令に基づく)

  2. AI学習禁止の明記 利用規約やフッターに「本コンテンツのAI学習への利用を禁止します」と明記

  3. メタタグでの制御

    <meta name="robots" content="noai, noimageai">
    
  4. Rate Limiting サーバー側でクローラーのアクセス頻度を制限

  5. 認証保護 重要なコンテンツは会員制やパスワード保護

6. 企業が取るべき実践的なアプローチ

ステップ1: コンテンツの分類

自社のWebコンテンツを以下のように分類します。

  • 公開情報: ブログ、プレスリリース、製品情報など
  • 制限情報: 会員限定コンテンツ、技術ドキュメントなど
  • 非公開情報: 社内システム、管理画面など

ステップ2: AI利用方針の決定

各分類について、AI学習への利用方針を決定します。

  • 公開情報 → 許可 (認知度向上のため)
  • 制限情報 → 条件付き許可 (検索のみ許可)
  • 非公開情報 → 拒否 (厳格に保護)

ステップ3: robots.txtの実装

決定した方針をrobots.txtに実装します。

ステップ4: モニタリング

サーバーログを分析し、どのAIクローラーがアクセスしているかを定期的に確認します。

# アクセスログからAIクローラーを抽出
grep -E "GPTBot|ClaudeBot|Google-Extended|CCBot" access.log | \
  awk '{print $1, $7}' | sort | uniq -c

ステップ5: 定期的な見直し

AIクローラーは頻繁に追加・変更されるため、四半期ごとに見直しを行います。

7. tumf合同会社の方針

tumf合同会社では、技術情報の普及とAI時代への対応の観点から、Webサイトの公開コンテンツについてはAIクローラーを明示的に許可しています。

私たちは、AIアシスタントが正確な技術情報を提供する際に、当社のコンテンツが参照されることで、間接的に多くの開発者やビジネスパーソンに貢献できると考えています。

ただし、今後の技術動向や著作権法の整備状況を注視しながら、適宜方針を見直していく予定です。

8. まとめ

AI時代のrobots.txtは、単なる検索エンジン対策ではなく、自社コンテンツをどのようにAI時代に活用していくかという戦略的な判断が求められます。

重要なポイント:

  1. AIクローラーの種類と目的を理解する: トレーニング用と検索用を区別
  2. 自社のコンテンツ戦略に合わせる: 認知度向上か著作権保護か
  3. 部分的な制御も可能: ディレクトリ単位で柔軟に設定
  4. robots.txtだけに頼らない: 追加の技術的・法的保護策も検討
  5. 定期的に見直す: AI技術の進化に合わせてアップデート

今後、AI検索エンジンやAIアシスタントがますます普及する中で、robots.txtの重要性はさらに高まっていくでしょう。自社の方針を明確にし、適切に設定することをおすすめします。

参考情報

tumf合同会社では、AI時代のWebサイト戦略についてのアドバイザリーサービスを提供しています。