Wie konfiguriere ich die robots.txt für KI-Crawler?
Die robots.txt-Datei gibt Suchmaschinen-Bots Anweisungen, welche Bereiche bzw. Dateien sie crawlen bzw. nicht crawlen sollen. Durch den Ausschluss privater oder unwichtiger Inhalte schonen Sie Ihr Crawl-Budget. Lesen Sie unseren Leitfaden bzw. unseren Lexikon-Eintrag für weitere Details.
Das Grundprinzip der robots.txt besteht darin, bestimmte Dateien, Dateitypen oder Ordner vom Crawling auszuschließen oder fürs Crawling zuzulassen.
Durch die fortschreitende Verbreitung von KI-Suchen und Chatbots stellt sich die Frage, wie Sie Ihre robots.txt anpassen sollten.

Websites bzw. einzelne Bereiche vor KI-Zugriff schützen
Durch bestimmte Einstellungen in der robots.txt verhindern Sie die Nutzung Ihrer Daten durch KI-Modelle. Bedenken Sie, dass sich nicht alle Bots an die Anweisungen in dieser Datei halten.
Die einfachste Möglichkeit ist, sämtliche gängigen KI-Bots zu blockieren.
- GPTBot
- Google-Extended (Gemini, Bard)
- Claude-bot
- CCBot
- PerplexityBot
User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Claude-bot Disallow: / User-agent: CCBot Disallow: / User-agent: PerplexityBot Disallow: /
Meist ergibt diese Komplettblockade wenig Sinn, schützen Sie stattdessen nur bestimmte Seiten vor dem AI-Zugriff. Schließlich wollen Sie ja auch in den KI-Suchen auftauchen und dafür müssen die KI-Bots Ihre Inhalte auch verarbeiten können.
Im Beispiel blockieren Sie beispielsweise den Ordner /private mit nicht-öffentlichen Informationen vor dem Zugriff von ChatGPT:
User-agent: GPTBot Disallow: /private
Gehen Sie bei Änderungen in der robots.txt-Datei besonders sorgfältig vor und überlassen Sie die Konfiguration im Zweifel Experten für KI-Suchen. Berücksichtigen Sie den Unterschied zwischen dem Googlebot und Google-Extended:
| Googlebot | Google Extended |
| Grundlage der Google-Suche. Der Bot besucht Seiten und speichert die Inhalte im Index. | Sammelt Daten für Gemini. |
| Durch die Indexierung und die daraus ermittelten Rankings kommen Besucher auf die Seite. | Googles KI-Modelle verbessern durch die Daten ihr Wissen. |
In der Praxis gelten robots.txt-Dateien als optimal, die nur bestimmte Bereiche aussperren.
# Google darf die Seite indexieren und anzeigen User-agent: Googlebot Allow: / # Nur den admin- bzw. login-Bereich für alle Bots sperren User-agent: * Allow: / Disallow: /admin/ Disallow: /login/
Metatags hinzufügen
Mit dem HTML-Meta-Tag <meta name=“robots“ content=“noai, noimageai“> weisen Sie Bots an, Inhalte wie Texte und Bilder der betreffenden Webseite nicht zum Trainieren von KI-Modellen zu verwenden. Fügen Sie das Tag direkt im Headerbereich Ihrer Seite ein.
Mit diesen Anweisungen sperren Sie gezielt einzelne Seiten. Sie müssen das HTML-Tag somit jeder Seite einzeln hinzufügen bzw. in einem CMS wie WordPress einmal in der header.php einbauen, wenn die Anweisung für alle Seiten gelten soll. Der Nachteil besteht darin, dass der Bot erst die Seite lädt, um das Tag zu lesen. Somit ist die Variante in der robots.txt ressourcenschonender, weil die Crawler (bei Befolgung der Anweisung) dann erst gar nicht auf die gesperrten Seiten gehen.
Setzen Sie die Anweisungen noai und noimageai über das X-Robots-Tag, um die Seiten nicht einzeln bearbeiten zu müssen. Das X-Robots-Tag ist Teil des HTTP-Headers und wird vor dem Laden des Seiteninhalts gesendet.
.htaccess beim Apache-Webserver
Header set X-Robots-Tag "noai, noimageai"
PHP (in der ersten Zeile der Headerdatei)
<?php
header("X-Robots-Tag: noai, noimageai");
?>
Bei Implementierung (Befolgung) dieses Tags verwenden AI-Bots die Daten nicht zum KI-Training. Leider zählt auch diese Anweisung nicht zum Standard und viele Bots ignorieren dieses Metatag.
User-Agents nutzen
Browser (Bots) senden einen User-Agent-String an den Webserver. Dadurch erkennt der Server Browser, Betriebssystem und Version. Der String kann in der .htaccess verwendet werden, um den Zugriff auf die Seite zu verhindern. So sperren Sie die AI-Bots aus:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ClaudeBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Google-Extended [NC,OR]
RewriteCond %{HTTP_USER_AGENT} CCBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} PerplexityBot [NC]
RewriteRule ^.* - [F,L]
Nachteil: Jeder Bot kann sich als normaler Browser ausgeben und den User-Agent faken.
Wie ist die optimale Crawl-delay Einstellung?
Mit Crawl-delay weisen Sie die Bots an, eine bestimmte Anzahl an Sekunden zu warten, bevor sie die nächste Seite crawlen. Die Anweisung soll Server-Überlastung durch Bots verhindern.
Weisen Sie beispielsweise alle Bots an, 2 Sekunden zwischen der Indexierung der einzelnen Seiten zu warten.
User-agent: * Crawl-delay: 2
- Die Indexierung der Seite durch KI-Modelle wird verhindert, falls der Wert zu hoch ist (Die KI-Bots brechen bei zu großen Verzögerungen das Crawling ab.)
- KI-Bots besuchen Ihre Seite (bei häufigen Abbrüchen) seltener. Die Informationen über Sie sind dann nicht auf dem neusten Stand.
Google ignoriert Crawl-Delay komplett, während andere Suchmaschinen die Angabe beachten. Setzen Sie den Wert nur für Bots oder SEO-Tools, die hohe Serverlast auslösen. Wählen Sie aber nur einen geringen Ausgangswert von höchstens 2 Sekunden an, um Ihrer Indexierbarkeit nicht zu schaden.
#Aggressive Crawler (wie SEO-Tools) bremsen User-agent: Agrresiver-Crawler Crawl-delay: 2
Sitemap.xml zur Optimierung des Crawl-Budgets
Verzichten Sie nach Möglichkeit auf den Crawl-Delay Befehl in der robots.txt. Setzen Sie stattdessen auf eine saubere sitemap.xml zur Optimierung bzw. Steuerung der Indexierung.
Überprüfen Sie Ihre sitemap.xml auf folgende Fehler:
- Jede URL in der Sitemap muss den Statuscode 200 OK haben. Entfernen Sie 301- bzw. 404-URLs aus der Sitemap.
- Verweisen Sie nicht auf duplizierte Inhalte und listen Sie nur kanonische URLs auf.
- Löschen Sie noindex-Seiten aus der Sitemap. Schließlich sollen hier nur Seiten stehen, die in den Index gelangen sollen.
Fazit
Mit der robots.txt schützen Sie Ihre Inhalte vor der Verwendung durch KI-Modelle. Bedenken Sie, dass
- einige Bots die Datei ignorieren
- Sie durch Aussperren bestimmter Bots eventuell Traffic und Sichtbarkeit verlieren
Tipp: Schützen Sie Ihre privaten Inhalte und ermöglichen Sie das Crawling Ihres öffentlichen Contents.




