Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Logfile: Googlebot verwendet gleichzeitig HTTP/1.0+1.1

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
Benutzeravatar
Guy-Incognito
PostRank 4
PostRank 4
Beiträge: 196
Registriert: 29.09.2011, 10:28

Beitrag von Guy-Incognito » 14.05.2019, 14:10

Hallo,

bei der Analyse von Kundenlogfiles ist mir aufgefallen das der Googlebot immer zur gleichen Zeit jeweils das alte Protokoll HTTP/1.0 und das neuere HTTP/1.1 abfragt:

Code: Alles auswählen

[06/May/2019:00:00:31 +0200] ""GET /page1/example/ HTTP/1.0"" 200 96439 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)
[06/May/2019:00:00:31 +0200] ""GET /page1/example/ HTTP/1.1"" 200 22909 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)
Wisst ihr eventuell warum der Googlebot hier noch das alte Protokoll verwendet? Hat es eventuell etwas mit der Serverkonfiguration zu tun? Der Kunde nutzt Nginx 1.10.3.

ABAKUS Anzeige
Wohnort: Berlin

von ABAKUS Anzeige »





SEO Consulting bei ABAKUS Internet Marketing.
Nutzen Sie unsere jahrelange Erfahrung und lassen Sie sich beraten!
Jetzt anfragen unter: SEO Consulting oder kontaktieren Sie uns direkt unter: 0511 / 300325-0


staticweb
PostRank 9
PostRank 9
Beiträge: 1376
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 14.05.2019, 16:03

> ... das der Googlebot immer zur gleichen Zeit ...

War es denn überhaupt der Google Bot???

Benutzeravatar
Guy-Incognito
PostRank 4
PostRank 4
Beiträge: 196
Registriert: 29.09.2011, 10:28
Wohnort: Berlin

Beitrag von Guy-Incognito » 15.05.2019, 00:18

War es denn überhaupt der Google Bot???
Ja, wie in dem kurzen Codeausschnitt zu sehen ist.

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1716
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 15.05.2019, 06:10

Jeder kann sich als Googlebot ausgeben. Sicher kannst du erst sein, wenn du die IP-Adresse rückwärts auflöst.

staticweb
PostRank 9
PostRank 9
Beiträge: 1376
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 15.05.2019, 08:25

> Ja, wie in dem kurzen Codeausschnitt zu sehen ist.

Es ist sehr naiv nach dem Schema WYSIWYG vorzugehen.

supervisior
PostRank 9
PostRank 9
Beiträge: 1095
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 15.05.2019, 08:36

Guy-Incognito hat geschrieben: Wisst ihr eventuell warum der Googlebot hier noch das alte Protokoll verwendet? Hat es eventuell etwas mit der Serverkonfiguration zu tun? Der Kunde nutzt Nginx 1.10.3.
Lass Dich von dem, was in Deinen Logfiles steht nicht in die Irre leiten. Webserver sind generell abwärtskompatibel, sodass auch ältere HTTP Protokolle unterstützt werden. Welche Version aber verwendet wird, entscheidet nicht der Webserver, sondern der Client. Mein Webserver unterstützt in Teilen bereits das HTTP/3 Protokoll und verwendet trotzdem noch ältere Protokolle, wenn der Browser nicht mehr kann. Siehe Internet Explorer oder so ziemlich jeder Bot. Allerdings ist der Wahrheitsgehalt zum Protokoll in den Logfiles mit Vorsicht zu genießen.

Was Deine Entdeckung zum Googlebot anbetrifft, hättest Du die IP Adresse mitliefern sollen, aber auch ohne diese IP ist da aus Deinem Logfile Auszug etwas verdächtig. Es mag daran liegen wie nginx die Logfiles formatiert, aber ein Googlebot User Agent ohne Semikolon, ist eigentlich ungewöhnlich.
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

Benutzeravatar
Guy-Incognito
PostRank 4
PostRank 4
Beiträge: 196
Registriert: 29.09.2011, 10:28
Wohnort: Berlin

Beitrag von Guy-Incognito » 15.05.2019, 13:50

Was Deine Entdeckung zum Googlebot anbetrifft, hättest Du die IP Adresse mitliefern sollen
Hier die Logs mit IP:

Code: Alles auswählen

2019-05-05T22:00:32.852Z,"10.111.62.22 - - [06/May/2019:00:00:31 +0200] ""GET /page1/example HTTP/1.0"" 200 96439 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:00:32.852Z,"66.249.76.52 - - [06/May/2019:00:00:31 +0200] ""GET /page1/example HTTP/1.1"" 200 22909 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:01:18.641Z,"10.111.62.22 - - [06/May/2019:00:01:17 +0200] ""GET /page2/example HTTP/1.0"" 200 99563 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
2019-05-05T22:01:19.851Z,"66.249.76.50 - - [06/May/2019:00:01:17 +0200] ""GET /page2/example HTTP/1.1"" 200 23072 ""-"" ""Mozilla/5.0 (compatible Googlebot/2.1 +http://www.google.com/bot.html)"""
Die IP 66.249.76 ist wohl den Googleservern zuzuschreiben.

supervisior
PostRank 9
PostRank 9
Beiträge: 1095
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 15.05.2019, 13:58

Guy-Incognito hat geschrieben: Die IP 66.249.76 ist wohl den Googleservern zuzuschreiben.
Womit Du Dir Dein Thema selbst beantwortet hast, was was und was nicht der Googlebot ist....
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

staticweb
PostRank 9
PostRank 9
Beiträge: 1376
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 15.05.2019, 14:21

Es gäbe noch die Möglichkeit, dass ein Google Rater oder Mitarbeiter deine Seite parallel mit einer IP außerhalb von Google inspiziert und schaut ob du über diese den gleichen Content auslieferst.

Benutzeravatar
Guy-Incognito
PostRank 4
PostRank 4
Beiträge: 196
Registriert: 29.09.2011, 10:28
Wohnort: Berlin

Beitrag von Guy-Incognito » 15.05.2019, 15:04

Womit Du Dir Dein Thema selbst beantwortet hast, was was und was nicht der Googlebot ist....
Es geht mir auch viel mehr um die IP 10.111.62.22

supervisior
PostRank 9
PostRank 9
Beiträge: 1095
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 15.05.2019, 15:13

Was soll daran interessant sein? Außer diese IP zu blocken damit der gleiche Nutzer am nächsten Tag mit einer anderen IP und einem gefakten User Agent Deine Seite wieder aufruft, kannst Du eh nix machen. Den User Agent zu ändern, kann jeder, Also was solls?!
staticweb hat geschrieben:Es gäbe noch die Möglichkeit, dass ein Google Rater oder Mitarbeiter deine Seite parallel mit einer IP außerhalb von Google inspiziert und schaut ob du über diese den gleichen Content auslieferst.
Wenn dem so wäre, dann würde dieser eine andere HTTP Version verwenden und vermutlich auch den User Agent richtig schreiben.
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1716
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 15.05.2019, 16:15

Interessant: Diese IP ist eigentlich eine private IP (so wie 192.168.xxx.xxx). Komisch, dass die in deinen Logs auftaucht.

@supervisior:
Das wird kein Fake-User sein, denn die Anfrage findet ja scheinbar immer zeitgleich mit der Google-Anfrage statt (bzw. unmittelbar davor).

supervisior
PostRank 9
PostRank 9
Beiträge: 1095
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 15.05.2019, 16:40

Na wie konnte ich denn das Offensichtliche übersehen? Zefünferl....

Eine interne IP nachzubilden, ist dann eher die kleinere Herausforderung. Die aber in einen zeitgleichen Zusammenhang mit dem echten Request zusammen zu bringen dann aber schon, sofern das kein Copy&Paste Fehler ist?!

Nun wird das aber schon etwas seltsam.....
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1716
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 15.05.2019, 23:02

supervisior hat geschrieben:Eine interne IP nachzubilden, ist dann eher die kleinere Herausforderung.
Nur interessehalber - wie würdest du das anstellen? IP Spoofing geht ja hier nicht wegen TCP. Du kannst zwar einzelne IP-Pakete mit falschem Absender schicken, und wenn du Glück hast, kommen sie auch an, aber die Antwort kriegst du nicht und kannst dementsprechend auch keine TCP-Verbindung zum Server aufbauen, um eine HTTP-Anfrage zu schicken.

supervisior
PostRank 9
PostRank 9
Beiträge: 1095
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 16.05.2019, 07:17

Sorry, aber ich kann (darf) Deine Neugierde leider nicht befriedigen. Hier eine Anleitung zu veröffentlichen womit man böse Dinge machen kann, würde wohl auch gegen die Abakus Netiquette verstoßen und möchte es nicht darauf anlegen schon wieder von einem Offiziellen abgemahnt zu werden.

Nebenbei.... Man kann mit dem Wissen darüber, ich betone mit dem Wissen, auch Geld verdienen und gebe ungern solche Informationen preis.
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag