Seite 1 von 1

Google Bot crawled sich einen Wolf

Verfasst: 22.01.2018, 10:14
von supervisior
Hi Folks,

wir haben auf unserer Seite je nach Kategorie eine Filterfunktion zum Eingrenzen einer Listung. Diese Filterfunktion ist rel. einfach gehalten, also nix AJAX, sondern ganz normale <select> Menüs, die bei jeder Auswahl eine neue URL mit GET Variablen generieren. Man braucht aber Javascript, da es keinen "GO" Button gibt, sondern der Aufruf unmittelbar nach der Auswahl erfolgt. Bislang hatte ich diese Auswahl vor Google "versteckt", weil ich nicht davon ausgegangen bin, dass Google zwar Javascript kann, aber nicht ahnen konnte, dass Google auch ein <form> aktiv abschicken kann.

Nun habe ich diesen Filter aber auch für Google wieder sichtbar gemacht und fand nach kurzem in der Google Search Console unter URL-Parameter entsprechende Einträge, die ich manuell geändert habe, da jede URL, bzw. Parameter einer "Eingrenzung" entspricht. Das Problem ist nun, dass durch die Sichtbarkeit für Google rein rechnerisch ca. 20.000.000 Mio. URLs generiert werden. Nachdem die Auswahl zu dem vom Gerät abhängig ist, also Desktop, Mobile und Tablet und zu dem der Code einer jeden Seite je nach Gerät auch noch unterschiedlich ist, verdreifachen sich dadurch diese URLs. Also roundabout 60 Mio.

Google crawled täglich im Durchschnitt ca. 500.000 Seiten und darunter auch die o.g. Filterfunktion, aber angesichts der Menge an möglichen Seiten wird Google im Grunde genommen nie fertig, weil ja auch fast täglich neue Seiten hinzubekommen, bzw. wegfallen und vorhandene Seiten geändert werden.

Ich frag mich also grad, ob ich mir mit der Sichtbarkeit für Google nicht ins Bein geschossen haben?!

Was meint ihr?

Verfasst:
von

Verfasst: 13.07.2018, 16:35
von RK423
Schon mal in der Search Console unter Crawling => URL-Parameter nachgesehen?

Verfasst: 13.07.2018, 16:46
von supervisior
Ja natürlich und das schon in einem sehr frühen Status. Ich hab zwar die entsprechenden Einstellungen gemacht damit Google diese Seiten/Parameter ignoriert, aber da war es schon zu spät. Deswegen hab ich unmittelbar dafür gesorgt, dass Google diese Seiten gar nicht mehr zu sehen bekommt. Inzwischen hat sich das aber geklärt

Re: Google Bot crawled sich einen Wolf

Verfasst: 13.07.2018, 18:50
von Lyk
supervisior hat geschrieben:
Ich frag mich also grad, ob ich mir mit der Sichtbarkeit für Google nicht ins Bein geschossen haben?!
wenn du es richtig machst, wird die webseite besser ranken.

so wie du es gemacht hast, hätte die webseite ne abstrafung erhalten.

schau dir einfach mal google´s flugsuche an.

mit vordefinierten filtern gehts besser.

du muss jedoch die richtigen key´s benutzen damit google wie auch deine besucher es gut finden... und das wären die keywords, wonach nach deinem thema gesucht wird^^

Verfasst: 09.01.2019, 18:41
von Rem
Ich bin Lyks Meinung. Bzw. hast Du da ja auch schon nachgearbeitet...

Ich hatte Kollegen, die wegen solchen Thin-Content-Seiten, einen 900er Penalty erhielten.

Das könnte derbe nach hinten los gehen. Das kann definitiv nicht in Deinem Interesse sein.

Wegen Google's Parameter-Funktionen: normalerweise werden Parameter, die das selbe erzeugen, dann auch weggelassen. Kann sein, dass sich Dein "Problem" dann beschränken würde. Aber das wäre mir nicht wirklich geheuer.

Verfasst:
von

Re: Google Bot crawled sich einen Wolf

Verfasst: 10.01.2019, 11:56
von supervisior
Lyk hat geschrieben:
mit vordefinierten filtern gehts besser.

du muss jedoch die richtigen key´s benutzen damit google wie auch deine besucher es gut finden... und das wären die keywords, wonach nach deinem thema gesucht wird^^
Vordefinierte Filter machen bei der Menge an möglichen Filterkriterien weder Sinn noch wäre das praktisch überhaupt möglich. Die Anzahl an rein möglichen Kriterien und Kriterienpaarungen ist schlichtweg unendlich. Die Filterkriterien tauchen zwar auch in den URLs auf, aber in Form von IDs. Damit kann weder ein Nutzer was anfangen noch Google. Damit Google aber trotzdem was findet, habe ich nur für Suchmaschinen sichtbar einen Kategoriebaum angelegt, der letztlich genauso zum Ziel führt wie die Filterfunltion, aber mit schönen URLs und ohne GET Parameter. Die Sichtbarkeit der Filterfunktion habe ich mehrfach abgesichert vor Google unsichtbar/nicht vorhanden gemacht, um zu verhindern, dass Google diesen FORM Filter nicht in die Finger bekommt, aber ich weiß nicht wie Google es geschafft, Google crawled die erzeugten URLs trotzdem und vermute, dass Google diese URLs von den Nutzern abgreift.
Rem hat geschrieben: Wegen Google's Parameter-Funktionen: normalerweise werden Parameter, die das selbe erzeugen, dann auch weggelassen. Kann sein, dass sich Dein "Problem" dann beschränken würde. Aber das wäre mir nicht wirklich geheuer.
Also in den SERPS tauchen URLs mit GET Parametern nicht auf. Dafür aber die URLs aus dem o.g. Kategorienbaum auf die Nutzer eher durch Zufall gelangen oder wenn diese die "Brotkrümel" Navigation nutzen. Dass Google diese URLs aus dem Kategorienbaum indexiert, ist bewusst so gewollt und war schon von Beginn an Strategie. Ansonsten müsste Google im worst case bei bestimmten Hauptkategorien durch bis zu 1.000 Pagination Seiten blättern. Durch den Kategoriebaum wird das nicht nur enorm aufgedröselt, sondern lässt auch indexierbare Einzelseiten ohne GET Parameter entstehen, die letztlich in die SERPS wandern.

Alles in allem ist so, dass, obwohl ich die Filerfunktion mehrfach abgesichert für Suchmaschinen unsichtbar gemacht habe, besonders Google eine Unmenge an der täglichen Crawler Leistung mit dem Aufruf der besagten URLs verschwendet. Daran ändert sich auch nichts, wenn ich Google & Co. durch einen 301er auf die gleiche URL ohne Parameter umleite, wenn wieder mal so eine URL aufgerufen wird.