Robots.TXT für Suchmaschinen richtig gemacht

Eine robots.txt Datei dient NICHT dazu, einem Spider der Suchmaschine und anderen Crawlern mitzuteilen, welche Seiten sie spidern dürfen, sondern primär dazu, welche Seiten (und Verzeichnisse) sie NICHT spidern dürfen.

Die robots.txt ist die erste Datei, die ein Crawler herunterlädt. Gerade für Google ist es wichtig, dass Ressourcen geschont werden. Jede gecrawlte Seite verursacht Kosten. Die Steuerung der Indexierung ist ein wichtiges Hilfsmittel. Man kann nett zu den Robots sein UND sein eigenes Crawling Budget schonen. Wenn Seiten vom Crawling ausgeschlossen werden, die sowieso nicht ranken sollen, kommen z.B. neue Seiten schneller in den Index und andere, wichtige Seiten werden häufiger vom GoogleBot besucht.

Was sind die Vorteile einer robots.txt?

Es folgen nun einige Gründe, die für das Benutzen einer robots.txt sprechen.

  1. Nicht alle Robots, die Ihre Seite besuchen, haben gute Absichten! Es gibt viele, viele Robots, deren einziger Zweck im Scannen Ihrer Webseite besteht und dem damit verbundenen Extrahieren Ihrer E-Mail Adresse zum Zwecke von Spam! Eine Liste der ’schlechten‘ Robots folgt später noch.
  2. Möglicherweise haben Sie Ihre Webseite noch nicht fertig erstellt oder sie beinhaltet bestimmte, zu schützende Teile. Ich habe zum Beispiel alle robots vor jeder Seite meiner Website ausgeschlossen, solange ich die Seiten noch designte. Ich wollte nicht, dass eine halb-fertige, nicht optimierte Seite mit einer unvollständigen Linkstruktur indexiert wird. Dies hätte dann ein schlechtes Licht auf mich und ABAKUS geworfen. Als die Website dann fertig war, erhielten die Robots auch Zugriff. Dieses Vorgehen gilt im Übrigen auch für die Zeit des Relaunches einer Website.
  3. Sie besitzen einen Mitgliedsbereich, der nicht im Google Cache auftauchen soll. Dem Robot den Zutritt zu verweigern stellt einen Weg dar, dies zu realisieren.
  4. Es gibt Dinge, die Sie privat halten möchten. Wenn Sie einen Blick auf die robots.txt Datei von ABAKUS werfen, werden Sie bemerken, dass ich das Indexieren der Profile aus dem Forum aus Gründen des Datenschutzes unterbinde. Einige Webmaster blockieren den robots auch den Zugriff auf ihr cgi-bin oder ihre Grafikverzeichnisse.
  5. Lassen Sie uns nun eine sehr einfache robots.txt Datei analysieren.
User-agent: EmailCollector
Disallow: /

Diese Anweisung können Sie kopieren und in Notepad einfügen, als robots.txt speichern und dann in das root Verzeichnis Ihres Servers kopieren (dem Verzeichnis, in dem auch die Index-Datei liegt). Sie untersagen damit einem nervigen Programm namens EmailCollector den Zugriff auf Ihre Website. Das sind doch mal gute Nachrichten für Ihr E-Mail Postfach!

SELF HTML Robots kontrollieren

Leider habe ich hier nicht den nötigen Platz für ein komplettes Tutorial zur robots.txt. Jedoch kann ich Ihnen dieses hier empfehlen: SELFHTML – Robots kontrollieren

robots.txt: Beispiel

Der grundsätzliche Aufbau ist ganz simpel. Als erstes wird der Robot, der Crawler angesprochen. Wenn man alle anspricht kommt das Sternchen / der Asterisk „*“ zum Einsatz:

User-agent: *

Darauf folgt das Verzeichnis oder die Datei, die nicht gecrawlt werden soll, z.B.:

Disallow: /hiernicht/

Es wird immer der Pfad vom Stammverzeichnis angegeben, da die robots.txt auch dort liegt.

Versuchen Sie mal die robots.txt unserer Domain zu finden.

Als Beispiel  für eine robots.txt für eine CMS siehe auch unseren Artikel: WordPress SEO

robots.txt: Generator

Der robots.txt Generator von IMN kann eine komplett neue robots.txt generieren, es kann aber auch eine bestehende robots.txt Datei eingelesen und hochgeladen werden. Es gibt eine Vorauswahl an Bots, die genutzt werden kann, die XML Sitemap kann auch gleich mit angegeben werden.

Hier geht es zum Robots.TXT Generator von Internet Marketing Ninjas.

Es gibt außerdem eine Vergleichsfunktion, um die bestehende und die neu generierte robots.txt Deiner Domain miteinander zu vergleichen.

Kamillo Kluth

Über Kamillo Kluth

Geschäftsleiter
Kamillo Kluth ist Geschäftsleiter der ABAKUS Internet Marketing GmbH und beschäftigt sich schon seit über 15 Jahren mit Suchmaschinenoptimierung. Als SEO der ersten Stunde hat er zahlreiche bekannte Unternehmen beraten und zu besseren Rankings verholfen. Er ist ein Experte für Nutzerpsychologie und die technischen Feinheiten des Google-Algorithmus. Kamillo Kluth ist außerdem ein gefragter Dozent und Fachautor.
Alle Artikel von: