Seite 1 von 2

Google erkennt keine Microsoft-Bots: Absprungrate steigt

Verfasst: 25.03.2019, 08:53
von blinks
Ich habe 3-4 Mal pro Woche ziemlich viel offensichtlichen Bot-Traffic von IPs aus Chicago (NetRange: 23.96.0.0 - 23.103.255.255, Organization: Microsoft Corporation (MSFT), 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; Trident/5.0)').

Es handelt sich immer um direkte Zugriffe. Ich sehe diesen Traffic bei Google Analytics, nicht jedoch bei Matomo. Dadurch, dass Analytics den Traffic anzeigt, gehe ich davon aus, dass Google diesen Traffic nicht als Bot-Traffic identifiziert und das 'Verhalten' als User-Signale wertet.

Das Problem: Immer, wenn diese Zugriffe erfolgen, steigt meine Absprungrate enorm! Und da Haltezeiten ein Signal für die Qualität der Seite sind, befürchte ich, dass der Suchalgorithmus das falsch/negativ bewertet.

Klar, ich könnte in Analytics einen Filter anlegen, aber das löst ja nicht das eigentliche Problem, sondern nimmt ihm nur die Visualität.

Mache ich mir da umsonst Gedanken? Und falls nicht, was kann ich dagegen tun?

Verfasst:
von

Verfasst: 25.03.2019, 09:01
von staticweb
> Mache ich mir da umsonst Gedanken? Und falls nicht, was kann ich dagegen tun?

Das selbe Phänomen habe ich schon mal beobachtet. Da kannst du maximal das Logging dieser IPs für GA blockieren.

Verfasst: 25.03.2019, 09:22
von supervisior
@blinks

Das sind Pseudo Bots, die sich nicht als Bot ausgeben, sondern sind vermeintlich reale Zugriffe aus der MS Cloud. Deswegen siehst Du die auch in GA. Du müsstest diese eigentlich auch in Matomo sehen. Falls nicht, dann liegts mit großer Wahrscheinlichkeit daran, dass Du im Tracker Code das statische img nicht eingebunden hast für den Fall, dass Javascript OFF ist, was bei diesen "Nutzern" der Fall ist

Ich weiß nicht, ob es mit GA möglich ist, aber damit die Auswertung in GA von diesen Aufrufen nicht verfälscht wird, müsstest Du einen IP Filter einrichten. In Matomo ginge so was. Oder alternativ über die .htaccess.

Verfasst: 25.03.2019, 09:28
von blinks
supervisior hat geschrieben:Falls nicht, dann liegts mit großer Wahrscheinlichkeit daran, dass Du im Tracker Code das statische img nicht eingebunden hast für den Fall, dass Javascript OFF ist, was bei diesen "Nutzern" der Fall ist
Doch, ist eingebunden.
staticweb hat geschrieben:>Das selbe Phänomen habe ich schon mal beobachtet. Da kannst du maximal das Logging dieser IPs für GA blockieren.
supervisior hat geschrieben:@blinks

Ich weiß nicht, ob es mit GA möglich ist, aber damit die Auswertung in GA von diesen Aufrufen nicht verfälscht wird, müsstest Du einen IP Filter einrichten. In Matomo ginge so was. Oder alternativ über die .htaccess.
Ich vermute aber, dass das nicht das eigentliche Problem löst, oder? Ich befürchte ja, dass Google dieses 'Verhalten' als trotzdem User-Signals bewertet, unabhängig davon, ob ich es in Analytics blocke oder nicht, denn erfasst werden diese Bots und deren Verhalten ja dennoch.

Es geht mir also nicht primär darum, dass ich diesen Traffic nicht sehen möchte, sondern darum, dass Google diesen Traffic falsch interpretieren könnte.

Verfasst: 25.03.2019, 09:38
von supervisior
Das hat mit interpretieren nichts zu tun. Google Analytics tracked, was es tracken kann. Du musst aber differenzieren, worum es Dir geht. Google Analytics != Google Bot. Also was ist Dein Problem?!

Verfasst:
von

Verfasst: 25.03.2019, 09:52
von blinks
supervisior hat geschrieben: Google Analytics != Google Bot. Also was ist Dein Problem?!
Das ist mir durchaus klar. Bots crawlen die Seiten und analysieren die Inhalte. Bots können aber kein Userverhalten messen. Das kann aber u.A. über Analytics gemacht werden, da Google via Analytics sehr genau mitbekommt, welche User von wo kommen, wie lange sie auf einer Seite bleiben, was sie klicken, ob sie zurück zu den Serps gehen etc pp. Bots können das nicht, die crawlen nur.

Du hast Also korrekt festgestellt: Google Analytics != Google Bot

Es geht mir um die User-Signale. Ich gehe davon aus, dass Google diese Pseudobots und deren Verhalten als User-Signale bewertet, denn wenn Google diese Bots als Bots erkennen würde, würden sie kaum in Analytics auftauchen.

Oder weiter gefragt: Wird das Userverhalten, dass über Anayltics ja definitiv gemessen wird, dazu genutzt, die Qualität einer Seite zu bestimmen?

Verfasst: 25.03.2019, 10:07
von supervisior
blinks hat geschrieben:
Oder weiter gefragt: Wird das Userverhalten, dass über Anayltics ja definitiv gemessen wird, dazu genutzt, die Qualität einer Seite zu bestimmen?
Thja, das ist die große Spekulationsfrage, wobei, ohne Beweise zu haben, ist es naheliegend, dass Google aus GA mehr Daten herauszieht als man als GA Nutzer in der Lage ist. Verneinen kann man diese Frage sicherlich nicht. In wie weit Google für sich selbst solche Aufrufe nicht doch aus der eigenen Bewertung herausfiltert, kann man auch nur spekulieren. Ich kann Dir nur sagen, was ich gemacht habe und unabhängig davon, ob Google ggf. etwas falsch interpretiert. Bei mir bleibt alles außen vor, was mir keinen Vorteil bringt und pflege meine Sperrliste an Bots/User Agents in einer .htaccess Blacklist. Das mache ich aber unabhängig davon, ob Google etwas falsch interpretiert.

Verfasst: 25.03.2019, 10:09
von blinks
supervisior hat geschrieben:Bei mir bleibt alles außen vor, was mir keinen Vorteil bringt und pflege meine Sperrliste an Bots/User Agents in einer .htaccess Blacklist.
Bock, die Liste zu teilen?

Verfasst: 25.03.2019, 10:14
von supervisior
Das ist nicht die vollständige Liste und ein erheblicher Anteil wird über die Firewall geblockt, wenn es wie bei der MS Cloud oder Google Cloud möglich ist ganze Class C oder D Netzwerke zu blocken.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} "com.google.GoogleMobile|Photon|SemrushBot|Uptimebot|Wappalyzer|WhatsApp|NetcraftSurveyAgent|contxbot|Gluten Free Crawler|facebookexternalhit|Dalvik|MJ12bot|WordPress|Apache-HttpClient|MSOffice|Dataprovider|www.ru|RU_Bot|FunWebProducts|netEstate|IndustryIndexBot|scrapy|Excel|Exabot|DomainStatsBot|DomainCrawler|Microsoft Windows Network Diagnostics|MegaIndex|oBot|spbot|AlphaBot|TinEye-bot|MauiBot|BacklinkCrawler|Guzzle|ImplisenseBot|Daum|pycurl|PHPCrawl|VelenPublicWebCrawler|Sogou|IndeedBot|HubSpot|WebDataStats|Wget|zgrab|libwww-perl|DotBot|Python-urllib|CCBot|MSIE 6.0|Media Center PC|Java|python-requests|NortheasternSysNetBot|Nimbostratus|Ruby|ZDM|SafeDNSBot|Apache HttpClient|Xbox|SMART-TV|TagVisit|TelegramBot|aiohttp|curl" [NC]
RewriteRule .* - [F,L]

Verfasst: 25.03.2019, 10:16
von blinks
supervisior hat geschrieben:Das ist nicht die vollständige Liste und ein erheblicher Anteil wird über die Firewall geblockt, wenn es wie bei der MS Cloud oder Google Cloud möglich ist ganze Class C oder D Netzwerke zu blocken.
Schau ich mir mal an, danke!

Verfasst: 25.03.2019, 12:03
von supervisior
Nur der Vollstänigkeit halber. Blocken solltest Du diese Pseudo Nutzer trotzdem. Die Cloud Angebote von Google und Microsoft werden nur zu gern für SPAM und Hack Angriffe genutzt. Google hat das inzwischen besser im Griff als Microsoft über die ich die meisten Angriffsversuche bekomme.


MS Cloud
52.152.0.0/13
52.160.0.0/11
52.145.0.0/16
52.146.0.0/15
52.148.0.0/14

Google Cloud
35.184.0.0/13
34.64.0.0/10
...

Verfasst: 25.03.2019, 13:25
von staticweb
> Es geht mir also nicht primär darum, dass ich diesen Traffic nicht sehen möchte, sondern darum, dass Google diesen Traffic falsch interpretieren könnte.

Du solltest nicht davon ausgehen, dass Google deine Daten intern verwendet.

1. Gibt es viele Seiten ohne GA.
und
2. Habe ich diverse Möglichkeiten die Daten welche GA erfasst vorher zu manipulieren, da alles über JS läuft!

Verfasst: 25.03.2019, 13:58
von supervisior
staticweb hat geschrieben:
Du solltest nicht davon ausgehen, dass Google deine Daten intern verwendet.
Das ist jetzt eine Frage der Logik. Google bietet kostenlos eine gewaltiges Tool an, das sehr viel über Nutzer erfasst. Warum etwas kostenlos anbieten, wenn man darüber nicht auch für sich selbst was nutzen kann? Seit wann ist Google uneigennützig?
staticweb hat geschrieben: 1. Gibt es viele Seiten ohne GA.
Ja und?
staticweb hat geschrieben: 2. Habe ich diverse Möglichkeiten die Daten welche GA erfasst vorher zu manipulieren, da alles über JS läuft!

Dazu müsste man erstmal wissen, was übertragen wird, um etwas manipulieren zu können?! Aber Du darfst Deinem Wissen freien Lauf lassen. Vielleicht lern ich ja doch etwas dazu, das nur Du weißt, ha? ;)

Verfasst: 25.03.2019, 17:54
von top
Echte Nutzerdaten sind für Google wertvoll, gefälschte Daten die der Algorithmus nicht von den echten Daten unterscheiden kann, verschlechtern die Qualität und damit den Wert der erfassten Daten.

Wenn die Suchergebnisse durch die erfassten Daten von GA beeinflussen ließen, würde das von Black-Hat-SEOs exzessiv ausgenutzt werden. (Man könnte z. B. unzählige Nutzer mit langer Aufenthaltsdauer vorgaukeln. Oder man pflastert die Analytics-Daten die Mitbewerber mit extrem hoher Absprungrate oder Referrern mit von eindeutigen Spam-Seiten.)

Daher gehe ich davon aus, dass es mittel- bis langfristig nicht für Google rechnen wird wenn sie die Analytics-Daten für das Ranking nutzen würden. Schließlich sollen die Nutzerdaten für Werbung genutzt werden, die Umsatz generieren. Bots kaufen aber (noch?) keine Produkte.

Verfasst: 25.03.2019, 18:29
von staticweb
> Das ist jetzt eine Frage der Logik. Google bietet kostenlos eine gewaltiges Tool an, das sehr viel über Nutzer erfasst. Warum etwas kostenlos anbieten, wenn man darüber nicht auch für sich selbst was nutzen kann? Seit wann ist Google uneigennützig?

Natürlich nutzt es auch diese Daten, aber sie fließen nicht direkt in den Algo, da sie manipulierbar sind.

> Ja und?

... dort gibt es keine Daten.

> Dazu müsste man erstmal wissen, was übertragen wird, um etwas manipulieren zu können?! Aber Du darfst Deinem Wissen freien Lauf lassen. Vielleicht lern ich ja doch etwas dazu, das nur Du weißt, ha?

Da gibt es kein Geheimnis. Für Chrome gibt es z.B. ein AddOn wo du alle erfassten und gesendeten Daten in der Console sehen kannst.

Ansonsten hat "top" alles dazu gesagt. Wegen der Fake-Gefahr werden diese Daten niemals direkt in die SERPs einfließen.