Noindex in robots.txt nicht mehr von Google unterstützt

Philipp Ehring  Philipp Ehring in OnPage SEO am 5. September 2019

Zum 1. September 2019 hat Google die Änderung bekannt gegeben, dass in der robots.txt die Regeln nofollow, noindex sowie crawl-delay nicht mehr unterstützt werden. Viele Webseitenbetreiber setzen noch auf eben jene Praktiken, weshalb sie sich in Zukunft alternative Umsetzungen aneignen müssen. Betroffene Domains werden bereits von Google persönlich informiert, sodass ausreichend Zeit bleibt, Änderungen vorzunehmen.

Mithilfe der disallow-Anweisung besteht weiterhin die Möglichkeit, bestimmte Seiten oder Verzeichnisse einer Domain für das Crawling auszuschließen – daran ändert sich soweit also nichts.


robots.txt, in der bestimmte Ordner gesperrt werden

Kurze Erklärung der drei betroffenen Anweisungen

Integrieren von noindex in die robots.txt

Mit der Einbindung des Eintrags „Noindex: /“ in der robots.txt erwarten sich Webseitenbetreiber, dass die entsprechenden URLs nicht in den Suchergebnissen auftauchen oder (sofern schon vorhanden) entfernt werden sollen. In den Meta-Tags hat  noindex genau diese Wirkung. Durch noindex teilt man der Suchmaschine mit, die Seite nicht in den Index aufzunehmen.

Integrieren von nofollow in die robots.txt

Im Vergleich zu noindex sagt die Anweisung nofollow aus, dass Links auf einer Seite nicht verfolgt werden sollen, wodurch die jeweiligen Ziel-URLs nicht ins Crawling mit eingehen. Das Ziel ist auf der eigenen Seite  ausgehende Links zu setzen, die von Google nicht gewertet werden. Beide Regeln wurden ursprünglich nicht in der robots.txt, sondern in den Meta-Tags eingesetzt.

Integrieren von crawl-delay in die robots.txt

Anders ist dies bei der Anweisung crawl-delay. Hierbei handelt es sich explizit um eine Erweiterung des REPs („Robots Exclusion Protocol“), welches von Yahoo! sowie Microsoft ins Leben gerufen wurde.

Mit crawl-delay wird dem Crawler vorgegeben, wie oft er eine Website besuchen darf. Crawl-delay: 30 bedeutet, dass der Crawler maximal alle 30 Sekunden eine Unterseite von einer Website abrufen darf. Eine Seite mit 100 Unterseiten muss dann also beispielsweise mindestens 3000 Sekunden (100 mal 30 Sekunden), also 50 Minuten indexiert werden. Dieser Befehl dient dazu, Server vor Überlastung zu schützen, falls Crawler im Sekundentakt Anfragen an die Website schicken.

User-agent: Beispielcrawler
Crawl-delay: 30

Die Weiterentwicklung des „Robots Exclusion Protocols“

Lange galt das REP lediglich als ein De-facto-Standard, was im Allgemeinen zu Unsicherheiten seitens der Webmaster führte:

„On one hand, for webmasters, it meant uncertainty in corner cases, like when their text editor included BOM characters in their robots.txt files.“ (Quelle: Google Webmaster Central Blog, 01.07.2019)

Nun hat Google sich dazu entschlossen, das REP zu einem Internetstandard zu ändern. Um Webmastern die Arbeit an der robots.txt zu erleichtern, wurde die C++ Bibliothek aus der Quelle geöffnet. Mit ihr können Google eigene Produktionssysteme für das Parsen sowie Abgleichen von Regeln in robots.txt Dateien genutzt werden.

Die Bibliothek entwickelte sich seit den 1990er Jahren kontinuierlich weiter. Während dieser Zeit erlangte auch Google neue Erkenntnisse darüber, wie die robots.txt von den Webmastern verwendet wird.

Die drei Anweisungen noindex, nofollow, und crawl-delay zählen jedoch zu den Funktionen, die nie von Google dokumentiert wurden, weshalb Ihre Verwendung in Relation zum Googlebot nur marginal ist. Gleichzeitig gibt es jedoch User, die zu den nicht-dokumentierten Regeln (noindex, nofollow und crawl-delay) Anweisungen mit in die robots.txt aufnahmen, die diesen Regeln widersprachen. Dadurch wurden die Regeln teilweise fehlerhaft umgesetzt, was natürlich so nicht beabsichtigt war. Um dies zu optimieren, entschied sich Google nun dazu, die besagten Anweisungen komplett zu ignorieren.

Google bietet Alternativen zur Umsetzung der Regeln noindex, nofollow und crawl-delay

Wer derzeit jedoch noch solche Regeln verwendet, dem bieten sich einige alternative Umsetzungsformen:

  1. noindex in Robots Meta-Tags

Hierfür fügen Sie im Header Bereich (<head>) Ihrer betreffenden URL folgende Zeilen ein:

Für eine Nicht-Indexierung der URL durch die allgemeinen Suchmaschinen-Crawler:

<!DOCTYPE html>
<html>
<head>
<meta name=“robots“ content=“noindex“ />
(…)
</head>
<body>(…)</body>
</html>

Für eine Nicht-Indexierung der URL lediglich durch den Google-Crawler:

<!DOCTYPE html>
<html>
<head>
<meta name=“googlebot“ content=“noindex“ />
(…)
</head>
<body>(…)</body>
</html>
  1. HTTP-Statuscodes 404 und 410

Teilen Sie dem Crawler mit, dass die betroffene URL nicht mehr existiert, sie dementsprechend aus dem Google-Index gelöscht werden kann. Diese Anweisung in der .htaccess entfernt die entsprechende Seite aus dem Index.

Redirect 410 /unterseite
  1. Passwortschutz

Hier verbergen Sie die URL hinter einer vorherigen Login-Aufforderung. Dadurch wird diese Seite ausgeblendet und aus dem Google-Index entfernt.

  1. Disallow Anweisung in der robots.txt verwenden

Mit dieser Anweisung in der robots.txt, welche auch weiterhin von Google beachtet wird, verhindern Sie das Crawlen von URLs. Jedoch kann es hier trotz alledem zu einer Indexierung dieser Seiten kommen. Hier arbeitet Google an der Behebung der Problematik.

So werden beispielsweise gewisse Ordner, wie die interne Suchfunktion oder der Checkout-Prozess während eines Kaufvorgangs via Disallow vom Crawling ausgeschlossen.

User-agent: *
Disallow: /bilderordner1/
Disallow: /search/
Disallow: /checkout/

Die Anweisungen in der robots.txt variieren natürlich jeweils entsprechend des verwendeten Systems.

  1. Remove URL Tool in der Google Search Console

Mithilfe des Google Search Console Remove Tools haben Sie die Möglichkeit, einzelne URLs schnell und individuell aus den Google-Suchergebnissen zu entfernen.

Alternative Möglichkeiten noindex umzusetzen

nofollow Grafik

Google liefert uns also einige alternative Wege, mit denen die Indexierung bestimmter Seiten vermieden werden kann. Welcher nun der für Sie passendste ist, bleibt Ihnen offen zu entscheiden.

Was denken Sie? Welche alternative Regel ist die Beste, um die Anweisungen noindex, nofollow bzw. crawl-delay in der robots.txt zu ersetzen?




Beitrag kommentieren

EINE ANTWORT HINTERLASSEN

Dein Kommentar wird vor der Freischaltung von einem Admin moderiert.



Philipp Ehring

Über Philipp Ehring

SEO
Philipp Ehring hat als Trainee SEO von der Pieke auf bei ABAKUS begonnen und setzt seitdem erfolgreich SEO-Strategien für unsere Kunden um. Er kennt sich bestens in allen Disziplinen des Digitalmarketings aus. Aus seinem Studium bringt er außerdem Kenntnisse aus den Bereichen Regional- & Stadtentwicklung, Tourismus, Geografie mit.
Alle Artikel von:

Verwandte Beiträge

HTML und SEO: Verbessern Sie Ihren Quelltext

Suchmaschinenbots rendern und indexieren Ihre Website. Dabei sehen sie den HTML-Quelltext Ihrer Seite. Die einzelnen HTML-Elemente erleichtern den Robots die inhaltliche Strukturierung. Sieht der Bot beispielsweise ein H1-Element, realisiert er, dass es sich um die besonders wichtige Überschrift erster Ordnung handelt. Exakt so verhält es sich mit den anderen HTML-Elementen. Semantische HTML-Tags kennzeichnen die Inhaltstypen

> WEITERLESEN …

 
Schaden KI-generierte Texte Ihren Google Rankings?

Per Knopfdruck erzeugte Texte haben ihren Reiz: Schließlich entsteht so ohne viel Mühe neuer Content. Schöne neue Welt? Nicht unbedingt: Es kommt hier, wie so oft, auf die Qualität an. Neue Inhalte sollten die Nutzer informieren und die Website-Rankings verbessern. Content ohne Mehrwert erhöht lediglich den Crawling-Aufwand der Bots. Durch das massenhafte Hinzufügen automatisiert erstellten

> WEITERLESEN …

 
SERP Features erklärt

Schon seit 2012 bestehen die Google SERPs (Search Engine Result Pages) nicht mehr nur aus Ergebnissen mit URLs, Title Tags und Meta Descriptions. Google ergänzt diese Standarddarstellung in den Suchergebnissen durch SERP Features. Die Suchmaschine verfolgt dadurch das Ziel, die Nutzererfahrung zu verbessern und mehr Informationen zu liefern, ohne dass die User die Suchergebnisseiten verlassen

> WEITERLESEN …

 
E-A-T Faktoren durch Onpage und Offpage-Maßnahmen verbessern

Nach jedem Update überprüfen die bei Google angestellten Quality Rater die Qualität der Suchergebnisse. Die Qualitätsprüfer orientieren sich dabei an Richtlinien. Das Expertise-Authoritativeness-Trustworthiness (Expertise-Autorität-Vertrauen) Prinzip zählt dabei zu den wichtigsten Kriterien und findet besonders bei Your-Money-or-Your-Life Seiten Anwendung. Doch was verbirgt sich genau hinter diesen Abkürzungen und welche konkreten Handlungsempfehlungen gibt es, um E-A-T (besonders

> WEITERLESEN …

 

SEO Beratung

Kompetente SEO-Berater kümmern sich individuell um Ihre Seite und verbessern Ihre Suchmaschinenrankings. Persönliche Betreuung steht dabei für uns an erster Stelle.

SEO Berater
SEO Beraterin
SEO Berater

▶ SEO Beratung anfragen