Wie konfiguriere ich die robots.txt für KI-Crawler?

Marcel Sarman  Marcel Sarman in OnSite SEO am 26. März 2026

Die robots.txt-Datei gibt Suchmaschinen-Bots Anweisungen, welche Bereiche bzw. Dateien sie crawlen bzw. nicht crawlen sollen. Durch den Ausschluss privater oder unwichtiger Inhalte schonen Sie Ihr Crawl-Budget. Lesen Sie unseren Leitfaden bzw. unseren Lexikon-Eintrag für weitere Details.

Das Grundprinzip der robots.txt besteht darin, bestimmte Dateien, Dateitypen oder Ordner vom Crawling auszuschließen oder fürs Crawling zuzulassen.

Durch die fortschreitende Verbreitung von KI-Suchen und Chatbots stellt sich die Frage, wie Sie Ihre robots.txt anpassen sollten.

Websites bzw. einzelne Bereiche vor KI-Zugriff schützen

Durch bestimmte Einstellungen in der robots.txt verhindern Sie die Nutzung Ihrer Daten durch KI-Modelle. Bedenken Sie, dass sich nicht alle Bots an die Anweisungen in dieser Datei halten.

Die einfachste Möglichkeit ist, sämtliche gängigen KI-Bots  zu blockieren.

  • GPTBot
  • Google-Extended (Gemini, Bard)
  • Claude-bot
  • CCBot
  • PerplexityBot
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Claude-bot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: PerplexityBot
Disallow: /

Meist ergibt diese Komplettblockade wenig Sinn, schützen Sie stattdessen nur bestimmte Seiten vor dem AI-Zugriff. Schließlich wollen Sie ja auch in den KI-Suchen auftauchen und dafür müssen die KI-Bots Ihre Inhalte auch verarbeiten können.

Im Beispiel blockieren Sie beispielsweise den Ordner /private mit nicht-öffentlichen Informationen vor dem Zugriff von ChatGPT:

User-agent: GPTBot
Disallow: /private

Gehen Sie bei Änderungen in der robots.txt-Datei besonders sorgfältig vor und überlassen Sie die Konfiguration im Zweifel Experten für KI-Suchen. Berücksichtigen Sie den Unterschied zwischen dem Googlebot und Google-Extended:

Googlebot Google Extended
Grundlage der Google-Suche. Der Bot besucht Seiten und speichert die Inhalte im Index. Sammelt Daten für Gemini.
Durch die Indexierung und die daraus ermittelten Rankings kommen Besucher auf die Seite. Googles KI-Modelle verbessern durch die Daten ihr Wissen.

In der Praxis gelten robots.txt-Dateien als optimal, die nur bestimmte Bereiche  aussperren.

# Google darf die Seite indexieren und anzeigen
User-agent: Googlebot
Allow: /

# Nur den admin- bzw. login-Bereich für alle Bots sperren
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /login/

Metatags hinzufügen

Mit dem HTML-Meta-Tag <meta name=“robots“ content=“noai, noimageai“> weisen Sie Bots an, Inhalte wie Texte und Bilder der betreffenden Webseite nicht zum Trainieren von KI-Modellen zu verwenden. Fügen Sie das Tag direkt im Headerbereich Ihrer Seite ein.

Mit diesen Anweisungen sperren Sie gezielt einzelne Seiten. Sie müssen das HTML-Tag somit jeder Seite einzeln hinzufügen bzw. in einem CMS wie WordPress einmal in der header.php einbauen, wenn die Anweisung für alle Seiten gelten soll.  Der Nachteil besteht darin, dass der Bot erst die Seite lädt, um das Tag zu lesen. Somit ist die Variante in der robots.txt ressourcenschonender, weil die Crawler (bei Befolgung der Anweisung)  dann erst gar nicht auf die gesperrten Seiten gehen.

Setzen Sie die Anweisungen noai und noimageai über das X-Robots-Tag, um die Seiten nicht einzeln bearbeiten zu müssen. Das X-Robots-Tag ist Teil des HTTP-Headers und wird vor dem Laden des Seiteninhalts gesendet.

.htaccess beim Apache-Webserver

    Header set X-Robots-Tag "noai, noimageai"

PHP (in der ersten Zeile der Headerdatei)

<?php 
header("X-Robots-Tag: noai, noimageai");
?>

 

Bei Implementierung (Befolgung) dieses Tags verwenden AI-Bots die Daten nicht zum KI-Training. Leider zählt auch diese Anweisung nicht zum Standard und viele Bots ignorieren dieses Metatag.

User-Agents nutzen

Browser (Bots) senden einen User-Agent-String an den Webserver. Dadurch erkennt der Server Browser, Betriebssystem und Version. Der String kann in der .htaccess verwendet werden, um den Zugriff auf die Seite zu verhindern. So sperren Sie die AI-Bots aus:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]
RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC]
RewriteRule ^.* - [F,L]

Nachteil: Jeder Bot kann sich als normaler Browser ausgeben und den User-Agent faken.

Wie ist die optimale Crawl-delay Einstellung?

Mit Crawl-delay weisen Sie die Bots an, eine bestimmte Anzahl an Sekunden zu warten, bevor sie die nächste Seite crawlen. Die Anweisung soll Server-Überlastung durch Bots verhindern.

Weisen Sie beispielsweise alle Bots an, 2 Sekunden zwischen der Indexierung der einzelnen Seiten zu warten.

User-agent: *
Crawl-delay: 2
  • Die Indexierung der Seite durch KI-Modelle wird verhindert, falls der Wert zu hoch ist (Die KI-Bots brechen bei zu großen Verzögerungen das Crawling ab.)
  • KI-Bots besuchen Ihre Seite (bei häufigen Abbrüchen) seltener. Die Informationen über Sie sind dann nicht auf dem neusten Stand.

Google ignoriert Crawl-Delay komplett, während andere Suchmaschinen die Angabe beachten.  Setzen Sie den Wert nur für Bots oder SEO-Tools, die hohe Serverlast auslösen. Wählen Sie aber nur einen geringen Ausgangswert von höchstens 2 Sekunden an, um Ihrer Indexierbarkeit nicht zu schaden.

#Aggressive Crawler (wie SEO-Tools) bremsen
User-agent: Agrresiver-Crawler
Crawl-delay: 2

Sitemap.xml zur Optimierung des Crawl-Budgets

Verzichten Sie nach Möglichkeit auf den Crawl-Delay Befehl in der robots.txt. Setzen Sie stattdessen auf eine saubere sitemap.xml zur Optimierung bzw. Steuerung der Indexierung.

Überprüfen Sie Ihre sitemap.xml auf folgende Fehler:

  1. Jede URL in der Sitemap muss den Statuscode 200 OK haben.  Entfernen Sie 301- bzw. 404-URLs aus der Sitemap.
  2. Verweisen Sie nicht auf duplizierte Inhalte und listen Sie nur kanonische URLs auf.
  3. Löschen Sie noindex-Seiten aus der Sitemap. Schließlich sollen hier nur Seiten stehen, die in den Index gelangen sollen.

Fazit

Mit der robots.txt schützen Sie Ihre Inhalte vor der Verwendung durch KI-Modelle. Bedenken Sie, dass

  • einige Bots die Datei ignorieren
  • Sie durch Aussperren bestimmter Bots eventuell Traffic und Sichtbarkeit verlieren

Tipp: Schützen Sie Ihre privaten Inhalte und ermöglichen Sie das Crawling Ihres öffentlichen Contents.

Anzeige


Beitrag kommentieren

EINE ANTWORT HINTERLASSEN

Ihr Kommentar wird vor der Freischaltung von einem Admin moderiert.



Marcel Sarman

Über Marcel Sarman

IT-Abteilung

Marcel Sarman betreut die ABAKUS Website und entwickelt sie weiter. Er ist unser Experte für HTML5, CSS3 und WordPress und schreibt Beiträge für unsere Seite.
Alle Artikel von:

Verwandte Beiträge

SEO-freundliche URLs – Tipps und Beispiele

SEO-freundliche URLs sind Webadressen, die von Suchmaschinen und Usern problemlos verstanden werden. Diese URLs fassen den Inhalt der jeweiligen Webseite zusammen, enthalten oftmals die wichtigsten Keywords und verbessern die Nutzererfahrung. Was ist eine URL? Was ist der Unterschied zwischen einer statischen und einer dynamischen URL? SEO-Probleme mit dynamischen URLs Tipps für SEO-freundliche URLS Fazit Was

> WEITERLESEN …

 
Googles Mobile First Index ist live

Mobilem Traffic gehört die Zukunft. Im Jahr 2015 hat der Anteil der Suchanfragen von Mobilgeräten den von Desktops überholt. Dies geht an Google nicht spurlos vorbei. Das Unternehmen arbeitet an einem mobilen Index, der zukünftig primär eingesetzt wird, um Suchanfragen zu bedienen. Es sollte somit jede Website und Shop SEO auf den Wechsel vorbereitet sein.

> WEITERLESEN …

 
Onlineshop: SEO für Markenseiten
Onlineshop: SEO für Markenseiten – Handlungsempfehlung

In den vergangen Monaten haben wir Ihnen bereits zwei Handlungsempfehlungen aus dem Hause ABAKUS vorgestellt. Heute folgt nun die dritte Handlungsempfehlung, in der wir uns mit der SEO für Markenseiten beschäftigen (Siehe auch : SEO für Online Shops). Zur genauen Situation: Unser Kunde besitzt einen Onlineshop mit hochwertigen Designprodukten. Das Ziel unseres Kunden ist wie

> WEITERLESEN …

 
Google’s Mobile first – Prüfen Sie Ihre Seite

Google will den Desktop Index durch den mobilen ersetzen, so dass dieser komplett verschwindet. Seit mittlerweile einem Jahr überwiegen die mobilen Suchanfragen von Desktop Geräten und somit wird klar: Google macht Nägel mit Köpfen. Im April 2015 schrieb Google im Google Webmaster Central Blog: „Das Update rund um Mobilfreundlichkeit ist zwar eine wichtige Änderung –

> WEITERLESEN …