Wie man selbst mit @Tuborg's Logik Google nicht versteht.

supervisior

Eigentlich hatte ich mich aus guten Gründen von diesem Forum schon vor längerem verabschiedet, aber die aktuellen Ereignisse kann ich nicht für mich behalten und will Euch deswegen damit bereichern. Ich schicke voraus, dass sich diese aktuellen Ereignisse auch mit @Tuborg's Logik nicht erklären lassen. Deswegen stellt bitte nicht mich in Frage, sondern Google. Ich berichte nur über Fakten, zumindest Fakten, die mein webserver, bzw. Matomo mir liefert.

Wie in früheren Beiträgen bereits berichtet, betreibe ich ein sehr umfangreiches Logging, jedoch weniger mit dem Ziel um die Besucher meiner Webseiten auszuspionieren. Im Fokus des Tracking stehen deswegen nicht nur die normalsterblichen Nutzer, sondern auch alle anderen nichtsterblichen Nutzer, allen Google & Co. Ich kenne deswegen nicht nur das Nutzerverhalten der normalsterblichen, sondern auch der nicht normalsterblichen Nutzer.

Seit ich denken kann und das ist schon sehr lange, versuche ich die Antwort darauf zu finden, warum allen voran Google zwar viele meiner Seiten kennt, aber einen Großteil davon weder indiziert noch überhaupt crawlt. Letzteres wäre eine Grundvoraussetzung für eine Indizierung, zumindest wenn man ein normalsterblicher ist. Dieser vermeintliche Widerspruch ist aber nicht Thema dieses aktuellen Themas.

Solange ich nun denken kann, bin ich kein Freund eines CDN, zumal 9 von 10 Nutzern eine falsche Vorstellung davon haben. Kein Freund deswegen, weil Anycast in den meisten Fällen mind. das Gleiche bringt, aber ohne den zumeist negativen Konsequenzen. Dies aber nur als Vorabinformation zum Verständis worum es hier geht.

Worum geht es nun eigentlich?
Es geht in erster Linie um Google und das Crawling Verhalten von Google und der zu erwartenden Indizierung, bzw. die Aufnahme der gecrawlten URLs in den Suchindex, was seit gefühlten 1000 Jahren mein größtes Ärgernis ist. Vor einigen Tagen konnte ich mich nun überwinden CloudFlare zu nutzen, allerdings stark eingeschränkt, weil es mir primär nur um die DNS Funktion ging, damit die Auflösung der IP Adresse und somit der Zugriff auf meine Seiten schneller geht. Die ansonsten üblichen CF Funktionen, insbesondere das proxying und somit das Cachen war erstmal außen vor, um etwaige Konflikte mit meinem LiteSpeed basierten HTTP Cache erst gleich gar nicht entstehen zu lassen.

Es hat mich viel Überwindung gekostet, aber ich habe dann für 1 Seite dann doch das Proxying aktiviert und was ist passiert? Es scheint als hätte Google diese eine Seite neu entdeckt und crawlt nun zumindest in einem Ausmaß, den ich schon gar nicht mehr kannte. Wie sich das in Bezug auf die Indizierung auswirkt, ist zunächst mal Nebensache. Da es einen zeitlich sehr kurzen Zusammenhang mit der Aktivierung der Proxyierung und dem aktuellen Crawling Verhalten von Google gibt, kann das auffällige Crawling Verhalten kein Zufall sein. Zumindest hoffe ich das nicht, weil es könnte ja auch ein Wunschdenken von mir sein.....

Es gilt außerdem zu erwähnen, dass ich an einer Testphase von CloudFlare teilnehme. Diese Testphase beinhaltet, dass CF mir unbekannte Signale an Bots sendet, um anzuzeigen, dass der jeweilige Host problemlos mit einer höheren Anzahl an Requests umgehen kann, weil CF dem Anschein nach gewährleistet, dass der jeweilige Host auch unter höherer Last nicht den Dienst quittiert.

Was soll dieser viele Text nun eigentlich bedeuten?
Gute Frage, wirklich eindeutig beantworten kann ich diese Frage nicht. Zieht Eure eigenen Schlussfolgerungen daraus.

Servus, bin wieder (länger) weg

[EDIT]
Wer von interessierten, aber unwissenden Nutzern nicht viel mit dem Begriff Proxy oder Proxying anfangen kann, lässt sich das stark vereinfacht so beschreiben, dass ein Proxy ein Server ist, der quasi vor dem eigenen Server platziert ist. Das "vor" darf man aber nicht zwangsläufig so verstehen, dass dieser Proxy Server nicht in unmittelbar räumlicher Nähe zum eigenen Server seinen Standort hat. Der Proxy Server kann im Falle eines CDN auch mehrere Hundert Kilometer vom eigenen Server Standort entfernt sein, weil es bei einem CDN darum geht den Content einer Seite näher zum Nutzer zu bringen und eine kürzere Distanz bedeutet weniger Strecke zum Übertragen von Daten. Ein Proxy dient ungeachtet der Nutzung bei einem CDN als eine Art Stellvertreter zum sog. Origin Server, der Requests vor dem Origin Server beantwortet und weil oftmals leistungsfähiger als der Origin Server ist auch die Übertragung und somit auch die Ladezeit schneller. Allerdings gilt das nicht generell. Mit einem CDN sind auch Nachteile verbunden, sodass ein CDN nicht selten auch langsamer sein kann als der Origin Server.

arnego2

Google verändert sich.
Es gab eine Zeit, in der es zu Problemen kam, wenn man eine neue Seite in den Index bringen wollte.
Danach hat Google sich angestrengt und Seiten indexiert, die nicht in den Index gehören.
Heutzutage, also aktuell, haben die Webmaster eine gewisse Eigenverantwortung, wenn es Unterseiten nicht schaffen, in den Index zu geraten. Werkzeuge dazu gibt es in der GSC. Damit sieht Google auch welche Seite aktiv ist und welche einfach nur schläft.

Auch Bing und Yandex haben Mittel, um zu sehen, ob die Seiten aktuell sind.
Das Sucherverhalten hat sich geändert, Google's Merchant Plattform ist nicht grundlos geschaffen worden.

Indexieren und spekulieren: Eine oder mehrere Generation der Bots sind aus dem Verkehr genommen worden. Bei den Serverhallen, die Suchmaschinen unterhalten gilt es vor allem nichtaktive aus dem Index zu schubsen. IMHO.

supervisior

@arnego2

Dein Kommentar ist mir leider zu diffus. Er sagt alles aber auch nichts, trotzdem danke für dein Feedback.

supervisior

Nachdem ich eine Handvoll Rückmeldungen per PM bekommen habe, die mir alle meine Ausführungen bestätigen, scheinen sich meine Erläuterungen bei der Verwendung von CloudFlare zu bestätigen. Ich hab mir das also nicht nur eingebildet. Außerdem nimmt nicht nur die Crawl Frequenz, sondern nimmt auch die Menge an gecrawlten URLs je Google Sitzung zu. Was sich bislang aber nicht bewerten lässt, ist ob sich durch die Änderung des Crawling Verhaltens durch Google irgendwas an der Menge an Zugriffen durch Nutzer verändert, bzw. gesteigert wird. Das gilt es nachwievor abzuwarten. In dieser Hinsicht traue ich der Sache noch nicht.

party

Hey, danke für die Grundsatzinfo.

Habe es jetzt auch einmal ausgetestet und die Beobachtung dass mehr gecrawlt wird kann ich bestätigen. Ist als ob eine Bremse für erneute DNS -Aufrufe entfernt wurde und nicht nur die Seite mit der der Bot auf die Domain gekommen war gecrawlt wird, sondern auch einmal etwas tiefer.

Meine ungenaue Meinung dazu, es werden interne Links als Zugang zum Webauftritt auf genutzt und nicht nur externe und anschließend abgebrochen. Ob es zu mehr indexierten Seiten führt werden wir sehen. Bei mir sind es auch gefühlt zu wenige als es sein sollten.

Also das wirklich erhöht Mehrseiten-Crawling bei etwas erhöhten Visits kann ich auch bestätigen.