Crawl Budget Optimierung

Das Thema „Crawl Budget“ ist in aller Munde. Wir stellen Ihnen vor, was genau das Crawl Budget ist, für welche Webseiten es wichtiger wird und wie Sie eventuell selbst einen positiven Einfluss darauf nehmen können.

Crawl Budget Optimierung

Für viele Webseitenbetreiber ist das Thema „Crawl Budget“ zunächst trivial bzw. spielt eher eine untergeordnete Rolle. Doch besonders bei größeren Domains bzw. Shops, welche beispielsweise Produkt-URLs automatisiert erzeugen, kann eine gezieltere Steuerung der Indexierung durch technische Optimierung sinnvoll sein.

Erklärung des Crawl Budgets

Fast jeder Seitenbetreiber kennt das Problem: Nach dem Eintragen und Bestätigen der eigenen Domain in der Google Search Console wird lediglich ein Teil aller vorhandenen URLs in den Index aufgenommen. Für den Crawler (in diesem Fall „Googlebot“) sind zunächst alle URLs gleichwertig was die Indexierung anbelangt.  In der Praxis gibt es natürlich jedoch große Unterschiede in der Wertigkeit der URLs untereinander.

So gibt es beispielsweise bei Online Shops große Differenzen was den Traffic bzw. die Wertigkeit der Produkt-URLs untereinander angeht. Werden wichtige Produkte oder Dienstleistungen bei größeren Seiten erst nach sehr langer Zeit bzw. gar nicht indexiert, verliert man als Seitenbetreiber wertvolle potentielle Klicks. Gleichzeitig werden weniger wichtige Seiten (z.B aus Gründen der Seitenarchitektur) in der Indexierung bevorzugt, obwohl sie in Bezug auf den Umsatz eventuell nur eine untergeordnete Rolle spielen. Eine gezieltere Steuerung kann hier je nach Seitengröße bereits viele positive Auswirkungen auf den Traffic der Seite haben.

Ein weiterer Punkt ist die „Konditionierung“ des Crawlers. Statische Domains erhalten in der Regel weniger Besuche vom Googlebot, da dieser mitunter auch erkennt, dass dort eben verhältnismäßig wenig passiert und Ressourcen sparen möchte (z.B geringe Anzahl neuer URLs und/oder Inhalte in einer bestimmten Zeitspanne). Gibt es hingegen regelmäßige Änderungen, kann man davon ausgehen, dass der Bot neue Inhalte schneller indexiert bzw. Änderungen an bereits bestehenden Inhalten aufgrund der erhöhten Crawlfrequenz schneller übernimmt und so für den Suchenden bzw. potentiellen Kunden schneller in den SERP´s bereitstellen kann. Das kann z.B bei Produktneuheiten oder anderen aktuellen Themen/Keywords, zu welchen die Suchintention zu Beginn besonders hoch ist, über viele potentielle Klicks entscheiden.

Auch die Tiefe des Crawlings der Domain ist abhängig vom Crawling Budget. So werden beispielsweise nicht bei jedem Besuch durch den Googlebot alle Verzeichnisebenen direkt mit ausgelesen. Das Crawling Budget wiederum kann auch direkten Einfluss auf das Index-Budget (max. Anzahl indexierter Seiten) und umgekehrt nehmen. Fehlerseiten bzw. nicht erreichbare URLs verbrauchen Crawl Budget, werden aber in der Regel nicht indexiert (und falls doch, zehren sie unnötigerweise am Indexierungsbudget). Wird beispielsweise beim Crawling ein ungesundes Verhältnis an erreichbaren bzw. nicht erreichbaren URLs erkannt, ist das für Google ein negatives Indiz für die Seitenqualität bzw. Nutzererfahrung und kann so zu einer Reduktion des Crawl. bzw. Index Budgets führen.

Welche Haupteinflussfaktoren bestimmen das Crawl Budget?

  • Geschwindigkeit des Webservers bzw. der gecrawlten Domain sowie dessen Erreichbarkeit (korrekte Response Codes oder soft Errors etc.)
  • Historie bzw. Alter und demnach der Trust der Domain
  • Anzahl und Wertung der Backlinks der Domain sowie Session-Id-basierte URLs der Domain selber
  • Die bereits angesprochene Größe der Domain (Anzahl an URL´s) sowie dessen inhaltliche Aktualitäts-bzw. Veränderungsrate (Stichwort „Crawl Bedarf“)
  • Die Inhalte der gecrawlten Domain (existieren beispielsweise zu wenig oder doppelte Inhalte, welche keinen Mehrwert für Besucher mehr erzeugen)

Die Intention von Google liegt auf der Hand: So viele (relevante) URL`s wie möglich im eigenen Index aufnehmen und für Besucher bereitstellen. Schauen wir uns im nächsten Abschnitt mal eine Beispieldomain + zugehörige Crawl Statistiken an:

Crawlstatistik
Abb.1: Google Search Console / Crawlstatistik

Da die Seitengröße bzw. die Größe der gecrawlten URLs in der Regel recht konstant ist, korrespondiert die Zahl der gecrawlten Seiten häufig recht genau mit der Anzahl an heruntergeladenen Bytes. Betrachten wir die oberen 2 Kurven, sehen wir einen Rückgang der Crawlaktivität ab Mitte Mai von im Schnitt 150.000 gecrawlten Seiten auf rund 20.000 Crawl´s pro Tag. Ein Anstieg der letzten Kurve (Ladezeit einer Seite in Millisekunden) bzw. eine Korrelation zur Crawlaktivität ist hier jedoch nicht direkt feststellbar. Zwar gab es Anfang Juni mal einen peak-Wert von 1,2 Sekunden, welcher jedoch nicht mit dem Rückgang ab Mitte Mai in Zusammenhang zu bringen ist. Hier wäre eine tiefere Analyse zur Klärung des Sachverhalts notwendig.

Tipp: Da Google uns in einer weiteren Statistik die durchschnittliche Anzahl an gecrawlten URLs pro Tag übergibt, lässt sich dieser Wert mit dem Faktor 30 multiplizieren. So erhält man das ungefähre monatliche Crawl Budget für die entsprechende Domain.

Google Search Console / Pro Tag gecrawlte Seiten
Abb.2: Google Search Console / Pro Tag gecrawlte Seiten

Optimierung des Crawl Budgets

Um das Crawl Budget selber positiv zu beeinflussen gibt es viele Möglichkeiten, welche abhängig vom Typ & Größe der Domain unterschiedliche Gewichtung finden. Crawl Budget optimieren heißt in diesem Fall nicht nur die Steigerung des Crawlkontingents, sondern schließt ebenfalls auch Maßnahmen ein, welche die Indexierung gezielter steuern und dabei gleichzeitig Ressourcen sparen.

Seiten-Architektur

Ein erster entscheidender Faktor ist zunächst die Architektur der Seite. Eine gute Seitenarchitektur ist gleichermaßen für den Crawler als auch den potentiellen Kunden für eine schnelle Orientierung und Navigation wichtig. Daher sollte diese so einfach und übersichtlich wie möglich gestaltet sein. Je weniger Klicks / Zeit für die Orientierung benötigt wird, umso besser ist dies für den Crawler als auch für die Besucher (weniger Abbrüche & bessere Klickraten).

Im Folgenden ein Beispiel zur hierarchischen Struktur eines Online Shops:

Beispiel- Hierarchiestruktur eines Onlineshops
Abb.3: Beispiel- Hierarchiestruktur eines Onlineshops

Bei einem Onlineshop für Kleidung wären das beispielsweise „Frauen“, „Männer“ und „Kinder“ auf Ebene 1 (wenn man die Startseite, wie in diesem Fall, nicht als Ebene 1 zählt).

Auf Ebene 2 entsprechend Frauen / Männer / Kinder + Produktkategorie (z. B /Frauen/Röcke).

Auf Ebene 3 dann das Produkt bzw. die Zielseite des jeweiligen Conversionziels (z. B /Frauen/Röcke/rock_blau_gr24.html).

Im Idealfall liegt die Zielseite (in diesem Fall die Produktseite) möglichst wenige Klicks von der Startseite entfernt (max. 3-5 Klicks). Je nach Größe des Shops variiert dieser Richtwert natürlich auch mal.

URL Struktur & Lesbarkeit

Ein weiterer wichtiger Aspekt ist die Lesbarkeit/Crawlbarkeit der (erzeugten) URLs. Hier sollte sichergestellt werden, dass der Crawler keine Probleme beim Rendern der Seiten/URLs hat und somit auch keine Probleme entstehen, diese sauber zu indexieren bzw. für Suchende bereitzustellen.

Test auf Lesbarkeit der CSS/JS-Dateien
Abb.4: Test auf Lesbarkeit der CSS/JS-Dateien

Interne Verlinkung & Navigation

Ähnlich wie bei der URL Struktur geht es auch in diesem Fall darum, dem Crawler/Bot sowie dem User die Orientierung so einfach wie möglich zu machen. Durch eine strukturierte Breadcrumb-Navigation z. B lässt sich dies bereits relativ gut bewerkstelligen (siehe Beispiel Abakus-Webseite):

Beispiel Navigationsstruktur(Breadcrumb)
Abb.5: Beispiel Navigationsstruktur(Breadcrumb)

So ist es Google unter anderem auch möglich, anstatt einer in der Regel kryptischeren URL, den entsprechenden Pfad in den SERPs auszuspielen:

Beispiel Breadcrumb-Navigationsstruktur in den SERP
Abb.6: Beispiel Breadcrumb-Navigationsstruktur in den SERP

Gleiches gilt natürlich für die interne Verlinkung. Diese sollte ähnlicher Logik folgen und im Idealfall für den Crawler und Besucher sinnig, schnell und leicht nachvollziehbar sein. Hier empfiehlt sich ggf. auch auf das strukturierte Mark-Up von Shema.org zurückzugreifen um die Links zusätzlich mit relevanten Informationen anzureichern.

Gezielte Steuerung der Indexierung

Mit Hilfe der Robots.txt bzw. dem Robots Meta Tag lässt sich das Crawling bzw. die Indexierung bereits gut steuern. Wichtig zu wissen ist, dass Google die Robots Meta Tags nicht lesen kann, wenn die entsprechende URL vorher via robots.txt gesperrt wurde. So landen teilweise auch ungewünschte URLs im Index, da die „noindex“ Anweisung im Robots Meta Tag gar nicht erst gelesen wird. Falls hier Indexierungsanweisungen enthalten sein sollten, muss die entsprechende URL gecrawlt werden dürfen. Generell kann man sagen, dass das Robots Meta Tag in der Regel die bessere Wahl ist, da hier Anweisungen an den Crawler spezifischer übergeben werden können.

Besonders in Bezug auf die interne Verlinkung ist es wichtig, dass die Seite auch beim Wunsch auf nicht-indexierung gecrawlt werden kann. Hier ist anzumerken, auch die XML Sitemap entsprechend aktuell zu halten und nicht-indexierbare oder fehlerhafte URLs nicht zu übergeben. Nicht in den Index gehören zunächst Seiten mit wenig bis gar keinem Inhalt (z. B tag-URLs aber auch leere Kategorie Seiten, welche nur 1-2 Produkte beinhalten etc.). Gleiches gilt für Parameter URLs und dynamisch geschaffene Seiten/URLs, welche z. B durch Filtermechanismen der Inhalte oder Suchanfragen auf der Seite selber entstehen können.

Tipp: Neben der Auszeichnung mit rel=next / rel=prev (als Indexierungshilfe), bietet es sich bei der Paginierung vieler Artikel bzw. URLs unter Umständen an, die Anzahl an Artikeln bzw. Elementen pro Seite zu erhöhen, um so entsprechend weniger Seiten crawlen zu müssen.

Weiterleitungen & kanonisierte Seiten

Ein weiterer nennenswerter Aspekt ist die Art und Anzahl an eingesetzten Weiterleitungen auf der Domain. Sind bei großen Seiten beispielsweise viele 301-Weiterleitungen vorhanden, zählt jede Weiterleitung in das Crawl Budget. Dies kann mitunter eine große zusätzliche Belastung des vorhandenen Crawl Budgets darstellen. Hier sollte überprüft werden, ob eventuell unnötige Weiterleitungsketten vorhanden sind, welche das Crawl Budget unnötig belasten.

Tipp: Bei nicht mehr vorhandenen Seiten/Inhalten (404-Fehler) ohne neuem verlinkenswerten Äquivalent, empfiehlt sich eine entsprechende Kennzeichnung per 410=gone, da 404er in der Regel mehrfach gecrawlt werden bis sie (wenn überhaupt) irgendwann aus dem Index verschwinden.

Tipp: Teilt Google selber mit, wie mit bestimmten Parametern umzugehen ist:

Google Search Console / URL-Parameter
Abb.7: Google Search Console / URL-Parameter

Anstatt Google die Entscheidung zu überlassen, können wir selber Parameter als Anweisung für den Googlebot hinterlegen. Im Beispiel ist jeweils ein lang-Parameter (Sprache) sowie ein sdi-Parameter (Sling Dynamic Include=Servertool für dynamische Inhalte). Hier sollte jedoch mit Bedacht gehandelt werden, da das Ausschließen falscher Parameter dazu führen kann, dass auch wichtige URLs bei der Indexierung nicht mehr berücksichtigt werden.

Ladezeiten

Besonders bei mobilen Seiten ist die Ladezeit nicht nur ein wichtiger Rankingfaktor, sondern auch für Besucher & Crawler eine erste potentielle Einstiegshürde. Ab einer gewissen Ladezeit sehen sowohl menschliche Besucher als auch Crawler-Bots keinen Sinn bzw. Mehrwert für eine längere Verweildauer auf der Seite und kehren in die Suchergebnisse zurück.

AJAX / JavaScript & Co

Je nach Einsatzart bzw. Einsatzgebiet können diese Scriptsprachen/Programmiersprachen eine echte Bereicherung für die Webseite sein. Dennoch haben sie auch einen Einfluss auf die Crawlbarkeit der Seite und sollten besonders in der Navigation (da die auf praktisch jeder Seite mitgeladen wird) auf ein Minimum reduziert werden, um dem Crawler das Lesen der Seite nicht unnötig zu erschweren.

AMP & Externe Verlinkung

So wichtig die Ladezeiten auch sind.  In Bezug auf das Crawl Budget schaffen AMP Varianten einer URL zusätzlichen Crawlbedarf, da jede Seite doppelt erstellt und gecrawlt wird (normale URL+AMP URL). Beim Einsatz von AMP bei großen Domains (viele URLs) empfiehlt es sich deshalb vorher zu prüfen, ob entsprechend genug Crawlressourcen vorhanden sind um den Mehraufwand zu stemmen.

Ein letzter erwähnenswerter Punkt ist die externe Verlinkung der eigenen Seite. Bei vielen Backlinks auf die eigene Domain erhöht sich auch die Crawlfrequenz, weil der Googlebot den Links zwangsläufig auf die eigene Seite folgt (entsprechende do-follow Auszeichnung vorausgesetzt).

Fazit zur Crawl Budget Optimierung

Crawling sowie Indexierung sind nach wie vor die Grundvoraussetzungen dafür, dass eine Webseite überhaupt in den Suchergebnissen gelistet wird. Da jeder Domain nur ein begrenztes Budget zur Verfügung steht, macht es besonders bei größeren Domains Sinn, diese Crawlingsteuerung nicht sich selbst zu überlassen, sondern gezielt zu optimieren bzw. das Crawl Budget optimal auszuschöpfen.

Welche Erfahrungen haben Sie mit dem Crawl Budget gemacht?

Weiterführende Quellen:

  1. https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html
Tim Meseke

Über Tim Meseke

SEO
Tim Meseke beschäftigt sich seit rund 10 Jahren privat und beruflich mit dem Thema Suchmaschinenoptimierung. Als SEO ist er bei ABAKUS besonders gefragt, wenn es um die internationale und technische Suchmaschinenoptimierung geht.
Alle Artikel von:

Forenbeiträge zum Thema SEO Consulting

Ich hab' da mal 'ne Frage

SEO Beratung

Kompetente SEO-Berater kümmern sich individuell um Ihre Seite und verbessern Ihre Suchmaschinenrankings. Persönliche Betreuung steht dabei für uns an erster Stelle.

SEO Berater
SEO Beraterin
SEO Berater

▶ SEO Beratung anfragen