Seite 1 von 1

Googlebot erkennen

Verfasst: 05.02.2020, 21:22
von santamo
Moin zusammen,

fangen eigentlich alle von Google benutzten IPs mit 66.249.xx.xx an?

Mir sind jetzt ein paar Russen aufgefallen, die sich gerne als Googlebot tarnen, z.b ....pppoe.omsknet.ru

Würde ja gerne alles bannen, was sich als Google ausgibt und nicht mit og. IP beginnt.

Oder kann das ins Auge gehen?

Danke und viele Grüße,

Mike

Verfasst:
von

Re: Googlebot erkennen

Verfasst: 05.02.2020, 21:25
von Hanzo2012
Ja, das kann und wird ins Auge gehen!
Schau hier, was Google sagt, wie man den Googlebot sicher erkennen kann: https://support.google.com/webmasters/answer/80553
(Du musst den Hostnamen zur IP-Adresse ermitteln und schauen, ob er mit ".googlebot.com" oder ".google.com" endet.)

Re: Googlebot erkennen

Verfasst: 06.02.2020, 06:00
von supervisior
Hanzo2012 hat geschrieben: 05.02.2020, 21:25 Ja, das kann und wird ins Auge gehen!
Schau hier, was Google sagt, wie man den Googlebot sicher erkennen kann: https://support.google.com/webmasters/answer/80553
(Du musst den Hostnamen zur IP-Adresse ermitteln und schauen, ob er mit ".googlebot.com" oder ".google.com" endet.)

Google sagt das zwar so und hat natürlich recht, um bei der Identifizierung absolut sicher zu gehen, aber ich habe beides in großem Stil und über einen längeren Zeitraum ausprobiert. Im Vergleich zu Bing klappt das mit der 66.249.x.x fehlerfrei. Frag jetzt aber bitte nicht, wofür ich das brauche....

Re: Googlebot erkennen

Verfasst: 06.02.2020, 07:46
von Hanzo2012
Wer sagt dir, dass Google nicht morgen einen zusätzlichen IP-Adressblock erwirbt und den auch für Crawler nutzt, oder seine hunderttausende IP-Adressen intern umstrukturiert?

Den Hostnamen zu ermitteln ist in PHP mit der Funktion „gethostbyaddr“ möglich. Das ist genauso ein Einzeiler wie zu prüfen, ob die IP mit 66.249 beginnt, nur eben sicherer. Dauert allerdings ein paar Millisekunden. Könnte man ggf. cachen, wenn das ein Problem ist.

Re: Googlebot erkennen

Verfasst: 06.02.2020, 07:56
von supervisior
Da hast Du absolut recht! Wir reden hier aber von Google und nicht vom nächsten Providerwechsel vom Umzug eines WP Blogs. Wenn Google die IP Adressen seiner Bots ändern will, dann ist das ein kleiner Staatsakt und selbst wenn, dann ändert man die IP Adressen halt einfach und das ist dann kein Staatsakt. :)

Nicht falsch verstehen, wenn man 101% sichergehen will, dann nur unter Prüfung des RDNS, aber das dauert eben ein Stück weit länger als die IP zu bekommen.

Re: Googlebot erkennen

Verfasst: 06.02.2020, 09:05
von Hanzo2012
Ich persönlich bevorzuge in diesem Fall maximale Sicherheit, denn ein versehentliches Blockieren des Googlebots kann großen Schaden anrichten. Wahrscheinlich wär's im Ernstfall nicht ganz so tragisch, weil man von Google via Search Console über Probleme informiert würde (oder?), aber ich möchte es nicht drauf ankommen lassen.

Ein Vorschlag für eine pragmatische Vorgehensweise, die sowohl sicher als auch schnell ist (schnell, solange Google seine IPs nicht ändert):

Ein Fake-Googlebot (den man guten Gewissens blockieren kann) liegt dann vor, wenn alle der folgenden Bedingungen erfüllt sind:
1. sein User Agent behauptet, er sei ein Googlebot
2. seine IP beginnt nicht mit 66.249
3. sein Hostname endet nicht auf .google.com oder .googlebot.com

Wenn man Bedingung 2 vor Bedingung 3 testet, kommt es erst dann zu einer langsamen Reverse DNS-Anfrage, wenn Google mal seine IPs ändert (in dem Fall könnte das Script direkt eine E-Mail an den Admin schicken, damit der sich das anschauen kann).

Re: Googlebot erkennen

Verfasst: 06.02.2020, 09:29
von supervisior
Du hast ja nicht ganz unrecht. Ginge es nur darum sicherzustellen, ob Google auch Google ist und sonst nix, müssten wir das nicht ausdiskutieren. Bei der Fragestellung, ob Google nun Google ist oder nicht, verbindet sich ja eine wie auch immer geartete Funktion oder Zielsetzung, wobei ich das gar nicht so hoch aufhängen will. Allein schon während des Requests festzustellen, ob Google auch Google ist, zieht ja eine Konsequenz nach sich. Die IP Adresse bekomme ich ohne zutun während des Requests schon mitgeliefert. Den RDNS muss ich mir separat erst holen. Und auch wenn das im allergünstigsten Fall nur im Millisekunden Bereich liegen mag, gibt es unweigerlich eine Verzögerung. Wenn ich das bei jedem Request machen muss, baue ich mir damit unweigerlich eine Bremse ein. Darauf kann zumindest ich verzichten, wenn ich für mich empierisch feststellen kann, dass mir die IP Adresse ausreicht. Wäre dem nicht so, hätte mir Google schon längstens auf die Füße getreten, dass es irgendwelche Problem beim Crawlen gibt. Und ich praktiziere das nicht erst seit 3 Tagen so, sondern mind. 3 Jahre lang.

Aber es gilt, Du hast uneingeschränkt recht, wenngleich mit der besagten Einschränkung!

Re: Googlebot erkennen

Verfasst: 06.02.2020, 09:32
von Hanzo2012
Darum schlage ich ja vor, den RDNS erst dann - und nur dann - zu machen, wenn der User Agent behauptet, es sei ein Googlebot, die IP jedoch nicht mit 66.249 beginnt. Quasi als letzte Chance, bevor eine wie auch immer geartete Reaktion (z. B. Bannen) gegen den vermeintlichen Fake-Bot erfolgt. Dann hast du kein Problem mit langsamem RDNS, aber trotzdem maximale Sicherheit.

Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?

Re: Googlebot erkennen

Verfasst: 06.02.2020, 09:40
von supervisior
Hanzo2012 hat geschrieben: 06.02.2020, 09:32 Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?
Nicht, dass ich wüsste....

Re: Googlebot erkennen

Verfasst: 06.02.2020, 12:13
von staticweb
>> Übrigens, was ist eigentlich mit IPv6? Sind Googlebots unterwegs, die via IPv6 crawlen?

> Nicht, dass ich wüsste....

Setzt doch mal einen Server auf, der nur über IPv6 zu erreichen ist. Mal schauen was passiert.

Re: Googlebot erkennen

Verfasst: 06.02.2020, 13:17
von santamo
Hanzo2012 hat geschrieben: 06.02.2020, 09:05 I
Ein Fake-Googlebot (den man guten Gewissens blockieren kann) liegt dann vor, wenn alle der folgenden Bedingungen erfüllt sind:
1. sein User Agent behauptet, er sei ein Googlebot
2. seine IP beginnt nicht mit 66.249
3. sein Hostname endet nicht auf .google.com oder .googlebot.com

Wenn man Bedingung 2 vor Bedingung 3 testet, kommt es erst dann zu einer langsamen Reverse DNS-Anfrage, wenn Google mal seine IPs ändert (in dem Fall könnte das Script direkt eine E-Mail an den Admin schicken, damit der sich das anschauen kann).
Guter Vorschlag. Besten Dank ;)