Seite 1 von 2

Logfile: Googlebot verwendet gleichzeitig HTTP/1.0+1.1

Verfasst: 14.05.2019, 14:10
von Guy-Incognito
Hallo,

bei der Analyse von Kundenlogfiles ist mir aufgefallen das der Googlebot immer zur gleichen Zeit jeweils das alte Protokoll HTTP/1.0 und das neuere HTTP/1.1 abfragt:

Code: Alles auswählen

[06/May/2019:00:00:31 +0200] ""GET /page1/example/ HTTP/1.0"" 200 96439 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)
[06/May/2019:00:00:31 +0200] ""GET /page1/example/ HTTP/1.1"" 200 22909 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)
Wisst ihr eventuell warum der Googlebot hier noch das alte Protokoll verwendet? Hat es eventuell etwas mit der Serverkonfiguration zu tun? Der Kunde nutzt Nginx 1.10.3.

Verfasst:
von

Verfasst: 14.05.2019, 16:03
von staticweb
> ... das der Googlebot immer zur gleichen Zeit ...

War es denn überhaupt der Google Bot???

Verfasst: 15.05.2019, 00:18
von Guy-Incognito
War es denn überhaupt der Google Bot???
Ja, wie in dem kurzen Codeausschnitt zu sehen ist.

Verfasst: 15.05.2019, 06:10
von Hanzo2012
Jeder kann sich als Googlebot ausgeben. Sicher kannst du erst sein, wenn du die IP-Adresse rückwärts auflöst.

Verfasst: 15.05.2019, 08:25
von staticweb
> Ja, wie in dem kurzen Codeausschnitt zu sehen ist.

Es ist sehr naiv nach dem Schema WYSIWYG vorzugehen.

Verfasst:
von

Re: Logfile: Googlebot verwendet gleichzeitig HTTP/1.0+1.1

Verfasst: 15.05.2019, 08:36
von supervisior
Guy-Incognito hat geschrieben: Wisst ihr eventuell warum der Googlebot hier noch das alte Protokoll verwendet? Hat es eventuell etwas mit der Serverkonfiguration zu tun? Der Kunde nutzt Nginx 1.10.3.
Lass Dich von dem, was in Deinen Logfiles steht nicht in die Irre leiten. Webserver sind generell abwärtskompatibel, sodass auch ältere HTTP Protokolle unterstützt werden. Welche Version aber verwendet wird, entscheidet nicht der Webserver, sondern der Client. Mein Webserver unterstützt in Teilen bereits das HTTP/3 Protokoll und verwendet trotzdem noch ältere Protokolle, wenn der Browser nicht mehr kann. Siehe Internet Explorer oder so ziemlich jeder Bot. Allerdings ist der Wahrheitsgehalt zum Protokoll in den Logfiles mit Vorsicht zu genießen.

Was Deine Entdeckung zum Googlebot anbetrifft, hättest Du die IP Adresse mitliefern sollen, aber auch ohne diese IP ist da aus Deinem Logfile Auszug etwas verdächtig. Es mag daran liegen wie nginx die Logfiles formatiert, aber ein Googlebot User Agent ohne Semikolon, ist eigentlich ungewöhnlich.

Verfasst: 15.05.2019, 13:50
von Guy-Incognito
Was Deine Entdeckung zum Googlebot anbetrifft, hättest Du die IP Adresse mitliefern sollen
Hier die Logs mit IP:

Code: Alles auswählen

2019-05-05T22:00:32.852Z,"10.111.62.22 - - [06/May/2019:00:00:31 +0200] ""GET /page1/example HTTP/1.0"" 200 96439 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:00:32.852Z,"66.249.76.52 - - [06/May/2019:00:00:31 +0200] ""GET /page1/example HTTP/1.1"" 200 22909 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:01:18.641Z,"10.111.62.22 - - [06/May/2019:00:01:17 +0200] ""GET /page2/example HTTP/1.0"" 200 99563 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:01:19.851Z,"66.249.76.50 - - [06/May/2019:00:01:17 +0200] ""GET /page2/example HTTP/1.1"" 200 23072 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
Die IP 66.249.76 ist wohl den Googleservern zuzuschreiben.

Verfasst: 15.05.2019, 13:58
von supervisior
Guy-Incognito hat geschrieben: Die IP 66.249.76 ist wohl den Googleservern zuzuschreiben.
Womit Du Dir Dein Thema selbst beantwortet hast, was was und was nicht der Googlebot ist....

Verfasst: 15.05.2019, 14:21
von staticweb
Es gäbe noch die Möglichkeit, dass ein Google Rater oder Mitarbeiter deine Seite parallel mit einer IP außerhalb von Google inspiziert und schaut ob du über diese den gleichen Content auslieferst.

Verfasst: 15.05.2019, 15:04
von Guy-Incognito
Womit Du Dir Dein Thema selbst beantwortet hast, was was und was nicht der Googlebot ist....
Es geht mir auch viel mehr um die IP 10.111.62.22

Verfasst: 15.05.2019, 15:13
von supervisior
Was soll daran interessant sein? Außer diese IP zu blocken damit der gleiche Nutzer am nächsten Tag mit einer anderen IP und einem gefakten User Agent Deine Seite wieder aufruft, kannst Du eh nix machen. Den User Agent zu ändern, kann jeder, Also was solls?!
staticweb hat geschrieben:Es gäbe noch die Möglichkeit, dass ein Google Rater oder Mitarbeiter deine Seite parallel mit einer IP außerhalb von Google inspiziert und schaut ob du über diese den gleichen Content auslieferst.
Wenn dem so wäre, dann würde dieser eine andere HTTP Version verwenden und vermutlich auch den User Agent richtig schreiben.

Verfasst: 15.05.2019, 16:15
von Hanzo2012
Interessant: Diese IP ist eigentlich eine private IP (so wie 192.168.xxx.xxx). Komisch, dass die in deinen Logs auftaucht.

@supervisior:
Das wird kein Fake-User sein, denn die Anfrage findet ja scheinbar immer zeitgleich mit der Google-Anfrage statt (bzw. unmittelbar davor).

Verfasst: 15.05.2019, 16:40
von supervisior
Na wie konnte ich denn das Offensichtliche übersehen? Zefünferl....

Eine interne IP nachzubilden, ist dann eher die kleinere Herausforderung. Die aber in einen zeitgleichen Zusammenhang mit dem echten Request zusammen zu bringen dann aber schon, sofern das kein Copy&Paste Fehler ist?!

Nun wird das aber schon etwas seltsam.....

Verfasst: 15.05.2019, 23:02
von Hanzo2012
supervisior hat geschrieben:Eine interne IP nachzubilden, ist dann eher die kleinere Herausforderung.
Nur interessehalber - wie würdest du das anstellen? IP Spoofing geht ja hier nicht wegen TCP. Du kannst zwar einzelne IP-Pakete mit falschem Absender schicken, und wenn du Glück hast, kommen sie auch an, aber die Antwort kriegst du nicht und kannst dementsprechend auch keine TCP-Verbindung zum Server aufbauen, um eine HTTP-Anfrage zu schicken.

Verfasst: 16.05.2019, 07:17
von supervisior
Sorry, aber ich kann (darf) Deine Neugierde leider nicht befriedigen. Hier eine Anleitung zu veröffentlichen womit man böse Dinge machen kann, würde wohl auch gegen die Abakus Netiquette verstoßen und möchte es nicht darauf anlegen schon wieder von einem Offiziellen abgemahnt zu werden.

Nebenbei.... Man kann mit dem Wissen darüber, ich betone mit dem Wissen, auch Geld verdienen und gebe ungern solche Informationen preis.