Seite 1 von 2

Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 23.08.2019, 16:58
von Joe85
Hi Leute!

Ich hab mir vor einiger Zeit eine kleine Affiliate-Website aufgebaut, die so eine Mischung aus Affiliate-Shop und Magazin ist. Dort hab ich natürlich auch eine ganze Menge Affiliate-Links implementiert, momentan noch in erster Linie von/zu Amazon.

Das Problem, das ich damit habe, ist, dass sich auf meiner Seite auch Bots/Crawler von SEO-Tools wie Semrush rumtreiben, die genau diese Links massenweise anklicken. Und zwar genau jeden Sonntag und Montag. An sich ist das ja nicht schlimm, doch führt das dazu, dass meine Statistiken bei Amazon komplett unbrauchbar werden und meine Conversion-Zahlen in einen sehr niedrigen Bereich fallen.

Ich hab deshalb versucht, die Bots per robots.txt auszusperren - ohne Erfolg:

User-agent: *
Disallow: /produkt/

User-agent: seoscanners[.]net
Disallow: /

User-agent: Dotbot
Disallow: /

User-agent: SemrushBot
Disallow: /


Dann hab ich's per htaccess versucht und auch das hat nichts gebracht:

BrowserMatchNoCase "Dotbot" bots
BrowserMatchNoCase "SemrushBot" bots
BrowserMatchNoCase "Seoscanners[.]net" bots

Order Allow,Deny
Allow from ALL
Deny from env=bots

SetEnvIfNoCase User-Agent (Seoscanners[.]net|SemrushBot|Dotbot) bad_bot
Order Deny,Allow
Deny from env=bad_bot


Der letzte Versuch bestand darin, das Verzeichnis meiner Cloaked Links, die beim Laden der Site in Amazon-Links umgewandelt werden, mittels einer weiteren .htaccess im Verzeichnis für die Bots zu sperren - auch das ohne Erfolg ( https[:]//meinedomain[.]de/produkt/.htaccess ):

<Files "*">
Deny from all
</Files>


Bin ich wirklich der einzige, der dieses Problem hat? Hat einer von euch vielleicht eine Idee, was ich noch machen könnte? Optimal wäre es, wenn sich alle Bots und Crawler einfach nur von meinen Amazon-Links fernhalten ( z.B. https[:]//meinedomain[.]de/produkt/beispielprodukt/ ). Die zweitbeste Lösung wäre wohl, wenn zumindest alle Bots mit Ausnahme der Suchmaschinen-Crawler wie Google und Bing sich komplett von meiner Site fernhalten. Geht das?

Verfasst:
von

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 23.08.2019, 17:40
von staticweb
Ungeprüft!

RewriteCond %{HTTP_USER_AGENT} SemrushBot [OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule .* - [R=403]

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 23.08.2019, 21:06
von Joe85
Super, danke dir! Ich probier's mal aus.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 23.08.2019, 22:50
von nerd
Hilft natuerlich nur bei bots die so nett sind ihre eigene kennung in den user agent zu schreiben - und nicht bei solchen die sich als google chrome, firefox, safari usw. tarnen

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 26.08.2019, 10:16
von Joe85
Hat leider auch nichts gebracht. Gestern wieder 600% mehr Amazon-Klicks als an normalen Tagen "dank" der Bots. Hat jemand noch eine Idee?

Verfasst:
von

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 26.08.2019, 11:22
von staticweb
> Hat jemand noch eine Idee?

Du musst den Auszug natürlich um alle (!) bei die benutzten Bot-Signaturen erweitern.

Und wie von "nerd" bereits erwähnt, wirst du so nur die "seriösen" bots erwischen.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 27.08.2019, 10:32
von supervisior
Es gäbe da m.E. schon eine gesicherte Methode, aber die hängt von der verwendeten Software ab. Alles was sich als böser Bot bezeichnet, weil diese sich als reale User ausgeben, haben alle was gemein. Sie können keine Session Cookies, will heißen, verfügt die jeweilige Software die Möglichkeit eine Session zu starten und falls ja, dann einen Cookie zu schreiben, dann kann man es von diesem Cookie abhängig machen, bzw. einen realen Nutzer von einem Fake Nutzer zu unterscheiden. Das ist keine Theorie, sondern reale Praxis, die ich noch nicht mal extra erst einbauen musste, sondern schon vorhanden war. Für den konkreten Fall, aber "missbräuchlich" verwendet. Diese Handhabe kann mal also sehr gut für den konkreten Fall nutzen, um diese Anzeigen nur dann anzeigen zu lassen, wenn der besagte Cookie, bzw. eine Session existiert.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 27.08.2019, 13:41
von Vegas
Ein Problem dabei ist, dass viele der SEO Bots sich eben nicht als solche ausweisen. Die Toolanbieter müssen ihren Kunden möglichst vollständige Daten liefern und da immer mehr Leute die Bots sperren, kommen die oft nicht mehr als Bot daher, sondern tarnen sich als normale Nutzer. Will heißen, Du müßtest eigentlich auf IP Ebene sperren, um wirkungsvoll zu verhindern, dass sowas passiert. Der Aufwand steht kaum im Verhältnis zum Nutzen.

Sobald Deine Seite nennenswerte Besucherzahlen und Kicks aufweist, löst sich das Problem von selbst, weil dann die Zahl der Botklicks in den echten Klicks untergeht.

Vielleicht solltest Du auch andenken, den Umfang des Affiliate Shops (wird von Google eher kritisch gesehen) gegenüber dem redaktionellen Teil etwas runterzufahren.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 29.08.2019, 19:36
von Joe85
Du musst den Auszug natürlich um alle (!) bei die benutzten Bot-Signaturen erweitern.
Was meinst du damit? Wie würde das konkret aussehen?
Diese Handhabe kann mal also sehr gut für den konkreten Fall nutzen, um diese Anzeigen nur dann anzeigen zu lassen, wenn der besagte Cookie, bzw. eine Session existiert.
Wie kann ich das umsetzen? Gibt es irgendwo eine Anleitung dafür?
Ein Problem dabei ist, dass viele der SEO Bots sich eben nicht als solche ausweisen.
Aber ich kann meine Problem-Bots ja in den Log-Files klar identifizieren, d.h. die tarnen sich doch gar nicht. So sehen z.B. die Einträge in einer Log-Datei aus:

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 29.08.2019, 20:03
von supervisior
Joe85 hat geschrieben: 29.08.2019, 19:36
  • 85.93.88.91 - - [24/Aug/2019:01:52:50 +0200] "GET /produkt/ein-produktname-blabla/ HTTP/2.0" 301 26 "-" "Mozilla/5.0 (compatible; adscanner/)/1.0 (Mozilla/5.0 (compatible; seoscanners.net/1.0; +spider@seoscanners.net); http[:]//seoscanners[.]net; spider@seoscanners.net)" "Traffic IN:294 OUT:283" "ReqTime:1 sec"
  • 46.229.168.145 - - [24/Aug/2019:02:47:31 +0200] "GET /produkt/ein-produktname-blabla/ HTTP/1.1" 301 26 "-" "Mozilla/5.0 (compatible; SemrushBot/6~bl; +http[:]//www[.]semrush[.]com/bot.html)" "Traffic IN:789 OUT:3635" "ReqTime:0 sec"
Na diese Bots kannst Du doch rel. einfach aussperren. Jeden weiteren einfach da rein klemmen.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} "seoscanners|SemrushBot" [NC]
RewriteRule .* - [F,L]

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 29.08.2019, 23:20
von nerd
Joe85 hat geschrieben: 29.08.2019, 19:36
Ein Problem dabei ist, dass viele der SEO Bots sich eben nicht als solche ausweisen.
Aber ich kann meine Problem-Bots ja in den Log-Files klar identifizieren, d.h. die tarnen sich doch gar nicht.
Das problem sind aber die bots, die sich eben als normaler webbrowser ausgeben. Die sieht man beim ueberfliegen der logfiles nicht, aber erkennt man z.b. daran dass sie pro session 100x soviele seiten abrufen wie richtige nutzer, oder dass sie 5 seiten pro sekunde laden, oder dass sie z.b. keine bilder, css oder js dateien laden.
Es ist kein problem einfach Mozilla, Chrome, Jason Ernst Karli oder sonstwas in den user-agent zu schreiben.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 30.08.2019, 08:08
von staticweb
>> Du musst den Auszug natürlich um alle (!) bei die benutzten Bot-Signaturen erweitern.

> Was meinst du damit? Wie würde das konkret aussehen?

RewriteCond %{HTTP_USER_AGENT} SemrushBot [OR]
RewriteCond %{HTTP_USER_AGENT} seoscanners.net/1.0 [OR]
# hier weitere Einträge hinzufügen
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule .* - [R=403]

Du kannst auch noch IP-Bereiche sperren, musst aber aufpassen, dass du keine normalen User oder Google, Bing, ... mit aussperrst. Möglich wären z.B. die AWS Server in Irland, da viele Bots von dort agieren.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 30.08.2019, 09:27
von supervisior
@staticweb

Womit wir wieder in der Endlosschleife wären. Diejenigen Bots, die sich als solche zu erkennen geben, lassen sich ja vergleichsweise einfach aussperren, wobei ich die Kurzform Deines Schnipsel bevorzugen würde, weil es auch für den Ungeübten leichter zu handlen ist.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} "seoscanners|SemrushBot" [NC]
RewriteRule .* - [F,L]

Was an anderer Stelle schon mehrfach angemerkt wurde, ist ja das Problem, dass sich viele Bots als normale User ausgeben und eben keinen UA ausspucken, den man aussperren könnte. Das geht nur über Sessions, bzw. Session Cookies, was aber Programmierarbeit erfordert falls die jeweilige Software so was nicht schon an Board hat. Damit ist die Trefferquote aber nahezu 99.99%.

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 31.08.2019, 14:48
von Joe85
RewriteCond %{HTTP_USER_AGENT} "seoscanners|SemrushBot" [NC]
RewriteRule .* - [F,L]
Spielt es eine Rolle, ob da "seoscanners" oder "seoscanners.net" steht?

----------------------------
Das problem sind aber die bots, die sich eben als normaler webbrowser ausgeben. Die sieht man beim ueberfliegen der logfiles nicht, aber erkennt man z.b. daran dass sie pro session 100x soviele seiten abrufen wie richtige nutzer, oder dass sie 5 seiten pro sekunde laden, oder dass sie z.b. keine bilder, css oder js dateien laden.
Klar, aber ich glaube, die machen mir aktuell noch keine Probleme. Die, die meine Amazon-links anklicken, sind wirklich hauptsächlich SEMrush, seoscanners.net und Dotbot.

-----------------------------
RewriteCond %{HTTP_USER_AGENT} SemrushBot [OR]
RewriteCond %{HTTP_USER_AGENT} seoscanners.net/1.0 [OR]
# hier weitere Einträge hinzufügen
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule .* - [R=403]
Das hatte ich ja schon versucht. Du hattest das Folgende empfohlen, das aber auch nicht geklappt hat:
von staticweb » 23.08.2019, 17:40

Ungeprüft!

RewriteCond %{HTTP_USER_AGENT} SemrushBot [OR]
RewriteCond %{HTTP_USER_AGENT} AhrefsBot
RewriteRule .* - [R=403]
-------------------------------
Das geht nur über Sessions, bzw. Session Cookies, was aber Programmierarbeit erfordert falls die jeweilige Software so was nicht schon an Board hat. Damit ist die Trefferquote aber nahezu 99.99%.
Was genau meinst du denn mit "Software"? Ich betreibe eine kleine Werbeagentur und hab da einige Webentwickler am Start, die das vielleicht hinkriegen würden. Allerdings weiß ich gerade nicht so genau, wie ich den Auftrag beschreiben soll. Was genau müssten die für mich entwickeln?

Re: Crawler/Bots am "Klicken" meiner Amazon-Links hindern

Verfasst: 31.08.2019, 15:16
von elmex
Gibt auch eine einfache Lösung dafür, wenn man sich selber nicht mit den technischen Details rumärgern möchte:

http://www.bot-trap.de/home/

Probier mal aus....