Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Googlebot tarnt sich

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 09.12.2018, 19:52

Beim sporadischen Überfliegen meiner Logfiles fällt mir nun schon mehrfach auf, dass sich Google auch ohne den sonst üblichen Zusatz im Useragent auf Webseiten herumtreibt. Die 66.249.x.x ist ja Google zu eigen, aber wenn im Useragent nur "Mozilla/5.0" steht und sonst nix, dann ist das schon auffallend, zumal das auch kein Bot sein kann, weil dieser neben font Dateien auch die css Dateien herunterläd, also scheint da ein Mensch vor der Kiste zu sitzen. Das sind selten mehr als 1 oder max. 2 Seitenaufrufe.

Ist da vielleicht Jonny Controletti unterwegs? ;)

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1694
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 09.12.2018, 20:24

Könnte es nicht der Google-Proxy sein, der im mobilen Chrome-Browser unter der Option "Datensparmodus" angeboten wird?
supervisior hat geschrieben:zumal das auch kein Bot sein kann, weil dieser neben font Dateien auch die css Dateien herunterläd
Soweit ich weiß, lädt der Googlebot auch CSS.

nerd
PostRank 10
PostRank 10
Beiträge: 4037
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 09.12.2018, 21:40

supervisior hat geschrieben:zumal das auch kein Bot sein kann, weil dieser neben font Dateien auch die css Dateien herunterläd
der bot laedt imho schon lange css und javascript dateien herrunter. Muss er ja auch, um festzustellen welche seitenhalte sichtbar oder unsichtbar sind, oder ob du die user mit irgendwelchen popups belaestigst...

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 09.12.2018, 21:50

nerd hat geschrieben: der bot laedt imho schon lange css und javascript dateien herrunter. Muss er ja auch, um festzustellen welche seitenhalte sichtbar oder unsichtbar sind, oder ob du die user mit irgendwelchen popups belaestigst...
Aber nicht beim normalen crawlen. Das Crawlen ähnelt im Grunde genommen einem Curl Request bei dem keine Inhalte gerendered werden. Ansonsten würde man die Requests für Bilder, css usw auch in den Logfiles sehen.

Hanzo2012 hat geschrieben:Könnte es nicht der Google-Proxy sein, der im mobilen Chrome-Browser unter der Option "Datensparmodus" angeboten wird?


Soweit ich weiß, lädt der Googlebot auch CSS.
Zwecks css siehe oben.

Ich habe einen anderen Verdacht und kommt Deiner Annahme sehr nahe und zwar die Übersetzungsfunktion von Google bei dem die zu übersetzende Seite zunächst vom Proxy gerendert wird und dann dem eigentlichen Aufrufer übergeben wird. Das würde erklären, warum eine Google IP im Logfile steht, aber der User Agent vom Aufrufer kommt. Wenn es das ist, geht mir das fürchterlich auf den Senkel. Google hebelt damit die ganze Content Security Policy aus.

xlb
PostRank 5
PostRank 5
Beiträge: 282
Registriert: 13.08.2009, 22:11

Beitrag von xlb » 10.12.2018, 02:23

N'Abend.

Habe mir eigene Logs gebaut, bei denen zu den IPs die entsprechenden Hostnamen einlaufen.

Das sieht dann z.B. so aus:

66.249.64.61 - crawl-66-249-64-61.googlebot.com
66.102.8.189 - google-proxy-66-102-8-189.google.com

Pack die IPs doch mal da rein: https://codebeautify.org/ip-to-hostname

Google feuert auch mit einer ganzen Kaskade verschiedener Bots, wenn z.B. Page Speed Insights, Fetch as GoogleBot oder andere Google-Tools über eine Seite laufen. Mit "typischen" Google-IPs, aber individuellen Hosts und UAs.
Ansonsten würde man die Requests für Bilder, css usw auch in den Logfiles sehen.

Die sieht man auch - allerdings weniger häufig, da Bilder, CSS, Fonts und Javascript von Google als Static Assets betrachtet werden, die sich in der Regel seltener ändern und im Idealfall auch entsprechend gecacht sind.


Grüße!

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 09:51

@xlb

Mache ich bereits, bzw. ist Bestandteil von Matomo aka Piwik, hilft aber auch nicht weiter. Mein Verdacht, dass es sich um den Google Proxy handelt und auch von Euch schon zur Sprache gebracht wurde, erhärtet sich.

Was mich an der Sache stört, ist nicht Google an sich, sondern dass der Proxy die CSP aushebelt. Da gehts zwar in der Regel nur um Übersetzungszugriffe, die an sich harmlos sind, aber nicht wie Google das macht. Früher lief das über einen iframe, was man noch rel. einfach unterbinden kann, aber die jetzige Methode widerspricht so ziemlich allen Sicherheitsinteressen. Microdoof ist da nicht viel besser.

Ich muss mir da was Neues einfallen lassen, um das ein für allemal zu unterbinden!

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1694
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 10.12.2018, 10:23

Was genau meinst du mit Sicherheit in diesem Fall? Was könnte da passieren?
Versuch's mal mit einem no-transform-Header.

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 11:01

Hm, ich weiß grad nicht, was der no-transform-Header im konkreten Fall bringen soll? Der Proxy verändert ja nichts, sondern reduziert den Request nur darauf, dass keine .js files geladen werden, zumindest lässt sich das den logfiles entnehmen. Ansonsten erfolgt der Aufruf so wie bei einem normalen Nutzer.

Was das Sicherheitsproblem anbetrifft, verhält es sich so, dass ich eine sehr restriktive CSP habe, die eigentlich genau das verhindern soll, was Google über den Übersetzungs-Proxy ermöglicht. Ich weiß jetzt aber nicht, ob Du das schon mal live gesehen hast, wie das praktisch aussieht, wenn ein Nutzer den Übersetzungsdienst von Google verwendet. In jedem Fall ist es so, dass ein Nutzer quasi anonym eine Seite aufrufen kann. Der Request erfolgt über den Proxy und genau das steht auch in den Logfiles. Was sich damit konkret "Böses" daraus machen lässt, kann ich Dir auch nicht sagen. Ich bin kein Hacker. ;) Ich weiß nur, dass mir das nicht passt. Wenn ich Google den no-translate Hinweis gebe, dann gehts nicht darum, dass ich nicht wollen würde, dass die Seite übersetzt wird, sondern wie Google das dem Nutzer ermöglicht. Also wenn no-translate, dann bitte auch keinen Seitenaufruf! Ich und niemand anderes kontrolliert wer was auf meinen Seiten sehen soll und eben nicht Google.

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1694
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 10.12.2018, 11:16

supervisior hat geschrieben:Hm, ich weiß grad nicht, was der no-transform-Header im konkreten Fall bringen soll? Der Proxy verändert ja nichts, sondern reduziert den Request nur darauf, dass keine .js files geladen werden, zumindest lässt sich das den logfiles entnehmen.
Laut diesem Eintrag lässt sich damit der Google Web Light-Proxy „aussperren“. Ich dachte, dass das vielleicht auch gegen den Übersetzer hilft. Und klar verändert der was - er übersetzt doch sämtliche Texte auf der abgerufenen Seite.
In jedem Fall ist es so, dass ein Nutzer quasi anonym eine Seite aufrufen kann. Der Request erfolgt über den Proxy und genau das steht auch in den Logfiles. Was sich damit konkret "Böses" daraus machen lässt, kann ich Dir auch nicht sagen. Ich bin kein Hacker. ;) Ich weiß nur, dass mir das nicht passt.
Anonymes Aufrufen geht auch über normale Proxys (auch solche wie die von Universitäten oder Unternehmen, wo hunderte/tausende Leute „hinter derselben IP stecken“), Tor oder VPN. Die alle auszusperren wird schwierig bis unmöglich und finde ich auch fragwürdig.
Also wenn no-translate, dann bitte auch keinen Seitenaufruf!
Er muss ja erstmal die Seite anfragen, bevor er deinen Hinweis sehen kann ...

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 11:38

Hanzo2012 hat geschrieben:
supervisior hat geschrieben:Hm, ich weiß grad nicht, was der no-transform-Header im konkreten Fall bringen soll? Der Proxy verändert ja nichts, sondern reduziert den Request nur darauf, dass keine .js files geladen werden, zumindest lässt sich das den logfiles entnehmen.
Laut diesem Eintrag lässt sich damit der Google Web Light-Proxy „aussperren“. Falls es sich um diesen handelt.
Stimmt, das hab ich vor längerem schon mal gelesen, aber der Alzheimer hat mich das vergessen lassen. Muss ich mich nochmal reinlesen, danke!!

Hanzo2012 hat geschrieben:
In jedem Fall ist es so, dass ein Nutzer quasi anonym eine Seite aufrufen kann. Der Request erfolgt über den Proxy und genau das steht auch in den Logfiles. Was sich damit konkret "Böses" daraus machen lässt, kann ich Dir auch nicht sagen. Ich bin kein Hacker. ;) Ich weiß nur, dass mir das nicht passt.
Anonymes Aufrufen geht auch über normale Proxys (auch solche wie die von Universitäten oder Unternehmen, wo hunderte/tausende Leute „hinter derselben IP stecken“), Tor oder VPN. Die alle auszusperren wird schwierig bis unmöglich und finde ich auch fragwürdig.
Da hast natürlich recht! Hab mich da etwas zu verallgemeinernd ausgedrückt. Aufrufe über Proxies ist ja nichts ungewöhnliches, zumal das über Unternehmen eh die Regel ist ab einer gewissen Größe. Einen Unterschied zu dem Google Übersetzungs-Proxy gibts dann aber schon und das ist einmal mehr die Methodik wie Google den Request an den Nutzer übergibt. Tor lässt sich übrigens rel. einfach handlen, zimindest bei mir über die Firewall und einer nahezu tagesaktuellen Blacklist.
Hanzo2012 hat geschrieben:
Also wenn no-translate, dann bitte auch keinen Seitenaufruf!
Er muss ja erstmal die Seite anfragen, bevor er deinen Hinweis sehen kann ...
Der no-translate Hinweis steht im header, also kann man den auch respektieren ohne erst die ganze Seite reinsaugen zu müssen.

*****************************
Ich bin deswegen so empfindlich, was die Thematik anbetrifft, weil ich fast im 10-Minuten-Takt Meldungen von der Firewall bekomme, dass wieder einer versucht, was Böses zu machen. Das reicht vom einfachen Portscanning über MySql Injection Versuche bis hin zu SSH Zugriffe. Ich will gar nicht wissen, was wäre, wenn ich die Firewall nicht hätte!

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 11:50

Jetzt weiß ich wieder, warum ich den no-transform header nicht damals schon eingefügt habe. Es gibt natürlich schon Nachteile, wenn man sich opt-outed.
What happens if I opt out of Web Light?

If you opt out, Google will not transcode your page for users on slow devices. Please note that traffic to your site from search users on slow devices may decrease, as they would need to spend more time loading your pages.
https://support.google.com/webmasters/a ... 4438566314

Hanzo2012
Community-Manager
Community-Manager
Beiträge: 1694
Registriert: 26.09.2011, 23:31

Beitrag von Hanzo2012 » 10.12.2018, 11:51

supervisior hat geschrieben:Einen Unterschied zu dem Google Übersetzungs-Proxy gibts dann aber schon und das ist einmal mehr die Methodik wie Google den Request an den Nutzer übergibt.
Wie ist das gemeint?
supervisior hat geschrieben:Ich bin deswegen so empfindlich, was die Thematik anbetrifft, weil ich fast im 10-Minuten-Takt Meldungen von der Firewall bekomme, dass wieder einer versucht, was Böses zu machen. Das reicht vom einfachen Portscanning über MySql Injection Versuche bis hin zu SSH Zugriffe. Ich will gar nicht wissen, was wäre, wenn ich die Firewall nicht hätte!
Das ist leider völlig normal im heutigen Web. Zigtausende Bots grasen ständig das Netz nach schlecht gesicherten Servern ab, um sie zu infizieren und für kriminelle Zwecke zu missbrauchen (vor allem wahrscheinlich DDoS-Attacken, Hosting illegaler Inhalte, ...). Eine Firewall zu haben ist zwar gut, davon sollte aber deine Sicherheit nicht abhängen. Beispiel SSH: Wenn du ein sicheres Passwort oder besser einen sicheren Key benutzt, dann können Angreifer bis in alle Ewigkeit rumprobieren und werden nie Erfolg haben.

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 12:16

Hanzo2012 hat geschrieben:
supervisior hat geschrieben:Einen Unterschied zu dem Google Übersetzungs-Proxy gibts dann aber schon und das ist einmal mehr die Methodik wie Google den Request an den Nutzer übergibt.
Wie ist das gemeint?
Na das ergibt sich doch aus Handhabe. Wenn ein normaler Proxy den Request nur durchleitet, parsed und modifiziert Google die ganze Anfrage und das ist bei dem Weblight noch eine Ecke schlimmer.

Damit werden alle Anweisungen im Umgang mit einem Seitenaufruf komplett ausgehebelt. Is ja schön, dass Google das Maximale zu Gunsten der Nutzererfahrung ermöglichen will, aber entmündigt damit den Seitenbetreiber und das nicht nur aus Sicherheitsaspekten, sondern auch rechtlich.

supervisior
PostRank 8
PostRank 8
Beiträge: 967
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 10.12.2018, 18:29

Also dieser Datensparmodus ist es nicht und da kommt auch kein Proxy von Google zum Einsatz. Wenn der Datensparmodus im Einsatz, bzw. aktiv ist, dann werden js und css Dateien von Google und eben nicht vom aufgerufenen Host geladen. So weit, so gut.

@Hanzo2012
Mit diesem Datensparmodus, bzw. dem no-transform header hast mich aber auf was gebracht, das mir die Zornesröte ins Gesicht treibt. Schon mal so viel, gäbs für Google eine Alternative würde ich alles blocken, was selbst um 10 Ecken herum noch irgendwas mit Google zu tun hat! Zefünferl!

nerd
PostRank 10
PostRank 10
Beiträge: 4037
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 10.12.2018, 21:16

supervisior hat geschrieben: Ich bin deswegen so empfindlich, was die Thematik anbetrifft, weil ich fast im 10-Minuten-Takt Meldungen von der Firewall bekomme, dass wieder einer versucht, was Böses zu machen.
Ohje, hast du etwa Norton, AVG oder anderes Computer-Aids bei dir auf dem desktop installiert, oder um wechen firewall geht es?
Natuerlich melden die kommerziellen scanner alle nase lang dass sie ein gefaehrlichen ping-request erfolgreich abgewehrt haben, damit du auch ganz sicher das kostenpflichtige abo erneuerst.
:wink:

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag