Robots.TXT für Suchmaschinen richtig gemacht

Robots.txt

Eine robots.txt Datei dient NICHT dazu, einem Spider der Suchmaschine und anderen Crawlern mitzuteilen, welche Seiten sie spidern dürfen, sondern primär dazu, welche Seiten (und Verzeichnisse) sie NICHT spidern dürfen.

Die robots.txt ist die erste Datei, die ein Crawler herunterlädt. Gerade für Google ist es wichtig, dass Ressourcen geschont werden. Jede gecrawlte Seite verursacht Kosten. Die Steuerung der Indexierung ist ein wichtiges Hilfsmittel. Man kann nett zu den Robots sein UND sein eigenes Crawlung Budget schonen. Wenn Seiten vom Crawling ausgeschlossen werden, die sowieso nicht ranken sollen, kommen z.B. neue Seiten schneller in den Index und andere, wichtige Seiten werden häufiger vom GoogleBot besucht.

Was sind die Vorteile einer robots.txt?

Es folgen nun einige Gründe, die für das Benutzen einer robots.txt sprechen.

  1. Nicht alle Robots, die Ihre Seite besuchen, haben gute Absichen! Es gibt viele, viele Robots, deren einziger Zweck im Scannen Ihrer Webseite besteht und dem damit verbundenen Extrahieren Ihrer E-mail Adresse zum Zwecke von Spam! Eine Liste der ’schlechten‘ Robots folgt später noch.
  2. Möglicherweise haben Sie Ihre Webseite noch nicht fertig erstellt oder sie beinhaltet bestimmte, zu schützende Teile. Ich habe zum Beispiel alle robots vor jeder Seite meiner Website ausgeschlossen, solange ich die Seiten noch designte. Ich wollte nicht, dass eine halb-fertige, nicht optimierte Seite mit einer unvollständigen Linkstruktur indexiert wird. Dies hätte dann ein schlechtes Licht auf mich und ABAKUS geworfen. Als die Website dann fertig war, erhielten die Robots auch Zugriff. Dieses Vorgehen gilt im Übrigen auch für die Zeit des Relaunches einer Website.
  3. Sie besitzen einen Mitgliedsbereich, der nicht im Google Cache auftauchen soll. Dem Robot den Zutritt zu verweigern stellt einen Weg dar, dies zu realisieren.
  4. Es gibt Dinge, die Sie privat halten möchten. Wenn Sie einen Blick auf die robots.txt Datei von ABAKUS werfen, werden Sie bemerken, dass ich das Indexieren der Profile aus dem Forum aus Gründen des Datenschutzes unterbinde. Einige Webmaster blockieren den robots auch den Zugriff auf ihr cgi-bin oder den Grafikverzeichnissen.
  5. Lassen Sie uns nun eine sehr einfache robots.txt Datei analysieren.
User-agent: EmailCollector
Disallow: /

Diese Anweisung können Sie kopieren und in Notepad einfügen, als robots.txt speichern und dann in das root Verzeichnis Ihres Servers kopieren (dem Verzeichnis, in dem auch die Index-Datei liegt). Sie untersagen damit einem nervigen Programm namens EmailCollector den Zugriff auf Ihre Website. Das sind doch mal gute Nachrichten für Ihr E-mail Postfach!

SELF HTML Robots kontrollieren

Leider habe ich hier nicht den nötigen Platz für ein komplettes Tutorial zur robots.txt. Jedoch kann ich Ihnen dieses hier empfehlen: SELFHTML – Robots kontrollieren

robots.txt: Beispiel

Der grundsätzliche Aufbau ist ganz simpel. Als erstes wird der Robot, der Crawler angesprochen. Wenn man alle anspricht kommt das Sternchen / der Asterisk „*“ zum Einsatz:

User-agent: *

Darauf folgt das Verzeichnis oder die Datei, die nicht gecrawlt werden soll, z.B.:

Disallow: /hiernicht/

Es wird immer der Pfad vom Stammverzeichnis angegeben, da die robots.txt auch dort liegt.

Versuchen Sie mal die robots.txt unserer Domain zu finden.

robots.txt: Generator

Der robots.txt Generator von IMN kann eine komplett neue Datei generieren oder es kann eine bestehende robots.txt Dateie eingelesen oder hochgeladen werden. Es gibt eine Vorauswahl an Bots, die genutzt werden kann und die XML Sitemap kann auch gleich mit angegeben werden.

Hier gehts zum Robots.TXT Generator von Internet Marketing Ninjas.

Es gibt außerdem eine Vergleichsfunktion, um die bestehende und die neu generierte robots.txt Deiner Domain mit einander zu vergleichen.