Robots.TXT für Suchmaschinen richtig gemacht
Eine robots.txt Datei dient NICHT dazu, einem Spider der Suchmaschine und anderen Crawlern mitzuteilen, welche Seiten sie spidern dürfen, sondern primär dazu, welche Seiten (und Verzeichnisse) sie NICHT spidern dürfen.
Die robots.txt ist die erste Datei, die ein Crawler herunterlädt. Gerade für Google ist es wichtig, dass Ressourcen geschont werden. Jede gecrawlte Seite verursacht Kosten. Die Steuerung der Indexierung ist ein wichtiges Hilfsmittel. Man kann nett zu den Robots sein UND sein eigenes Crawling Budget schonen. Wenn Seiten vom Crawling ausgeschlossen werden, die sowieso nicht ranken sollen, kommen z.B. neue Seiten schneller in den Index und andere, wichtige Seiten werden häufiger vom GoogleBot besucht.
Was sind die Vorteile einer robots.txt?
Es folgen nun einige Gründe, die für das Benutzen einer robots.txt sprechen.
- Nicht alle Robots, die Ihre Seite besuchen, haben gute Absichten! Es gibt viele, viele Robots, deren einziger Zweck im Scannen Ihrer Webseite besteht und dem damit verbundenen Extrahieren Ihrer E-Mail Adresse zum Zwecke von Spam! Eine Liste der ’schlechten‘ Robots folgt später noch.
- Möglicherweise haben Sie Ihre Webseite noch nicht fertig erstellt oder sie beinhaltet bestimmte, zu schützende Teile. Ich habe zum Beispiel alle robots vor jeder Seite meiner Website ausgeschlossen, solange ich die Seiten noch designte. Ich wollte nicht, dass eine halb-fertige, nicht optimierte Seite mit einer unvollständigen Linkstruktur indexiert wird. Dies hätte dann ein schlechtes Licht auf mich und ABAKUS geworfen. Als die Website dann fertig war, erhielten die Robots auch Zugriff. Dieses Vorgehen gilt im Übrigen auch für die Zeit des Relaunches einer Website.
- Sie besitzen einen Mitgliedsbereich, der nicht im Google Cache auftauchen soll. Dem Robot den Zutritt zu verweigern stellt einen Weg dar, dies zu realisieren.
- Es gibt Dinge, die Sie privat halten möchten. Wenn Sie einen Blick auf die robots.txt Datei von ABAKUS werfen, werden Sie bemerken, dass ich das Indexieren der Profile aus dem Forum aus Gründen des Datenschutzes unterbinde. Einige Webmaster blockieren den robots auch den Zugriff auf ihr cgi-bin oder ihre Grafikverzeichnisse.
- Lassen Sie uns nun eine sehr einfache robots.txt Datei analysieren.
User-agent: EmailCollector Disallow: /
Diese Anweisung können Sie kopieren und in Notepad einfügen, als robots.txt speichern und dann in das root Verzeichnis Ihres Servers kopieren (dem Verzeichnis, in dem auch die Index-Datei liegt). Sie untersagen damit einem nervigen Programm namens EmailCollector den Zugriff auf Ihre Website. Das sind doch mal gute Nachrichten für Ihr E-Mail Postfach!
Leider habe ich hier nicht den nötigen Platz für ein komplettes Tutorial zur robots.txt. Jedoch kann ich Ihnen dieses hier empfehlen: SELFHTML – Robots kontrollieren
robots.txt: Beispiel
Der grundsätzliche Aufbau ist ganz simpel. Als erstes wird der Robot, der Crawler angesprochen. Wenn man alle anspricht kommt das Sternchen / der Asterisk „*“ zum Einsatz:
User-agent: *
Darauf folgt das Verzeichnis oder die Datei, die nicht gecrawlt werden soll, z.B.:
Disallow: /hiernicht/
Es wird immer der Pfad vom Stammverzeichnis angegeben, da die robots.txt auch dort liegt.
Versuchen Sie mal die robots.txt unserer Domain zu finden.
Als Beispiel für eine robots.txt für eine CMS siehe auch unseren Artikel: WordPress SEO
robots.txt: Generator
Der robots.txt Generator von IMN kann eine komplett neue robots.txt generieren, es kann aber auch eine bestehende robots.txt Datei eingelesen und hochgeladen werden. Es gibt eine Vorauswahl an Bots, die genutzt werden kann, die XML Sitemap kann auch gleich mit angegeben werden.
Hier geht es zum Robots.TXT Generator von Internet Marketing Ninjas.
Es gibt außerdem eine Vergleichsfunktion, um die bestehende und die neu generierte robots.txt Deiner Domain miteinander zu vergleichen.
Forenbeiträge zum Thema SEO Consulting
Ich hab' da mal 'ne FrageVerwandte Beiträge:
- htaccess – Ein mächtiges SEO-Werkzeug
- Marke und SEO: Wie messe ich die Bekanntheit?
- Sind Eintragungen in Webkataloge sinnvoll
- SEO-Grundlagen: Keyword Recherche
- SEO-Grundlagen: Webseitendesign
- Suchmaschinenoptimierung (SEO)
- SEO-Grundlagen: Webseitenstruktur
- SEO-Grundlagen: HTML Coding
- SEO-Grundlagen: Controlling
- SEO-Grundlagen: Suchmaschinenanmeldung
- SEO-Grundlagen: Zusammenfassung
- Crawl Budget Optimierung
- De-Optimierung der Startseite – Handlungsempfehlung
- Forum & SEO
- Häufige SEO-Fehler
- htaccess – Ein mächtiges SEO-Werkzeug
- JavaScript & SEO
- Marke und SEO: Wie messe ich die Bekanntheit?
- robots.txt
- SEO Grundlagen:Externe Verlinkungen – Webseitenstruktur
- SEO-Mythen
- Sind Eintragungen in Webkataloge sinnvoll
- Suchmaschineneintrag
- Umstellung auf HTTP/2 – Ladezeit Check