Online Marketing Forum Deutschland
 
ABAKUS Online Marketing Forum
Suchmaschinenoptimierung
+ABAKUS
ABAKUS bei Google+
Facebook
ABAKUS bei Facebook
Google+ SEO Community von ABAKUS
Google+
SEO Community

   

ABAKUS Foren-Übersicht -> Spiders / Robots Themen
 

Email harvester und unerwünschte Bots mit .htaccess sperren

Neues Thema eröffnen   Neue Antwort erstellen Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
 Zugrife von xyz-domains verhindern Nur 20% meiner Seiten indexiert - was mache ich falsch?  
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 01.03.2005, 12:47    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 01.03.2005, 12:47
Antworten mit Zitat Antworten mit Zitat

Deine bisherige Liste ist schon so in Ordnung - und soll auch so bleiben, einschließlich der letzten Zeile RewriteRule ^.* - [F,L]
Eine error403-Datei ist nur optional, kann also weggelassen werden. Den Code von mir oben schreibst Du einfach in der .htaccess unter das, was schon drinsteht.
Denn neben dem "normalen" Blocken basierend auf User-agent, wie Du es ja schon praktizierst, ist dieser Code etwas anderes: wird bei Deinem bisherigen Code einfach alles geblockt, bei dem der User-agent den entsprechenden RewriteConds entspricht (was auch vollkommen in Ordnung ist), so gilt der Anti-Kein-User-agent-Code nur dann, wenn kein Referer UND kein User-agent UND GET oder POST-Request. AOL-Proxies sind nicht betroffen, da sie zwar keinen User-agent und keinen Referer senden, aber stets mit HEAD den Request senden - und daher trifft die Regel nicht zu.

also konkret:
Code:
...
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu_Link_Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
RewriteRule ^.* - [F,L]

RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !robots\.txt|favicon\.ico - [F]

RewriteCond %{... weitere Conds und Rules nach Bedarf
...


Man kann, sofern man will, auch nur RewriteRule !favicon\.ico - [F] schreiben, ich erlaube robots.txt stets, da es vorkommen kann, daß Bots (wenn ich mich recht entsinne hatte der polnische szukaj dieses Verhalten) ohne User-agent und Referer die robots.txt lesen und sich eigentlich auch an die robots.txt halten.

jan
00
Nach oben
bull Private Nachricht senden
ABAKUS


: Werbung 




Professionelles und nachhaltiges Linkbuilding bei ABAKUS Internet Marketing.
Nutzen Sie unsere jahrelange Erfahrung und lassen Sie sich zu den Themen Offpage-Optimierung und Linkaufbau beraten!
Jetzt anfragen unter: www.abakus-internet-marketing.de

Caterham

pr


: 20.09.2004
: 331



: 01.03.2005, 20:19    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: Caterham
Caterham
00 01.03.2005, 20:19
Antworten mit Zitat Antworten mit Zitat

:
Die 195. . . . kommt sehr oft daher.
Es ist 1000te Mal eine 195. 93.60. (die letzten 2-3 Ziffern immer andere). Die melden sich auch immer mit einer Browserkennung.
Jene mit "-" "-" haben dann als letzte Ziffern z.B. die 13 , 15, 80 , 111 oder auch die 137.
Das sieht nach dem AOL Cache proxy aus. Sollte der das sein und solltest du ihn aussperren, hast du mitunter die AOL user ausgesperrt

:
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR]
die Klammern müssen hier escaped werden
Code:
RewriteCond %{HTTP_USER_AGENT} dloader\(NaverRobot\) [OR]


:
Muss ich dann noch eine error403-Datei erstellen?
Nicht unbedingt. Das ist eine benutzerdefinierte Fehlerseite, die dann ausgegeben wird.
:
Wenn ja, wo muss die liegen?
Kommt drauf an, wie das ErrorDocument in der .htaccess definiert wurde. Das könnte z.B. so aussehen
Code:
ErrorDocument 403 /err403.htm
Dann muss die Datei ins Hauptverzeichnis des Webs.

Grüße
Robert
00
Nach oben
Caterham Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 04.03.2005, 07:11    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: robbelsche
robbelsche
00 04.03.2005, 07:11
Antworten mit Zitat Antworten mit Zitat

bull hat Folgendes geschrieben:
Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code:
RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
...
...
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b [OR]
...
...
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^PortalBSpider
RewriteRule !err403\.htm|robots\.txt - [F]



Leider verstehe ich nicht viel von .htaccess und benutze auch nicht so eine Scheiße wie IE6. Aber wenn ich zu
http://wannabrowser.com/ gehe wie Mario es empfiehlt, beschleicht mich das Gefühl, dass ich mit diesen Zeilen meinen häufigsten user agent aussperre, kann das sein?

Habe vorerst mal auf sklavisches Kopieren verzichtet...

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
ABAKUS


: Werbung 




Professionelles und nachhaltiges Linkbuilding bei ABAKUS Internet Marketing.
Nutzen Sie unsere jahrelange Erfahrung und lassen Sie sich zu den Themen Offpage-Optimierung und Linkaufbau beraten!
Jetzt anfragen unter: www.abakus-internet-marketing.de

robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 04.03.2005, 23:30    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: robbelsche
robbelsche
00 04.03.2005, 23:30
Antworten mit Zitat Antworten mit Zitat

manute hat Folgendes geschrieben:
...mozilla wollte ich doch eher nicht sperren.


Wieso nicht...?

Code:
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9]\.[0-9]{1,2}$ [OR]


Übrigens:

Code:
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]


Was für'n Tierchen ist denn Konqueror ?

Aussperren könnte man hingegen diese ganzen "Zeus"...

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 05.03.2005, 00:08    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: robbelsche
robbelsche
00 05.03.2005, 00:08
Antworten mit Zitat Antworten mit Zitat

Da dieser freundliche Header Viewer nun nach dem Einfügen der Zeile

Code:
RewriteCond %{HTTP_USER_AGENT} !^grub-client-2.3


in die Ausnahmeliste behauptet, dass inklusive des Grub Clienten nun alle einigermaßen tauglichen User Agents in meiner Webalyzer-Statistik von diesem Monat nicht ausgesperrt werden, lade ich mir jetzt mal meine Log-Files herunter...

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 05.03.2005, 00:14    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 05.03.2005, 00:14
Antworten mit Zitat Antworten mit Zitat

:
Was für'n Tierchen ist denn Konqueror?

Der fängt aber auch mit Mozilla/x.y an und ist daher nicht betroffen

:
RewriteCond %{HTTP_USER_AGENT} !^grub-client-2.3

Punkt und - escapen?
00
Nach oben
bull Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 05.03.2005, 00:20    : Re: Email harvester und unerwünschte Bots mit .htaccess sper
Von: robbelsche
robbelsche
00 05.03.2005, 00:20
Antworten mit Zitat Antworten mit Zitat

bull hat Folgendes geschrieben:

:
RewriteCond %{HTTP_USER_AGENT} !^grub-client-2.3

Punkt und - escapen?


Danke!!!

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 05.03.2005, 00:59    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: robbelsche
robbelsche
00 05.03.2005, 00:59
Antworten mit Zitat Antworten mit Zitat

Der benannter Header Viewer versucht mir weiß zu machen, dass ich mit der Zeile

Code:
RewriteCond %{HTTP_USER_AGENT} MMCrawler [OR]


Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com) aussperre. Das kann doch nicht sein, das Ding interpretiert doch da irgendwas nicht richtig, oder? Ich bin jetzt wirklich verunsichert...

@bull
Jedenfalls Euch nochmal vielen Dank für Eure wertvolle Arbeit, die man auch hier wieder einmal mehr erkennen kann... #Flash

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 05.03.2005, 01:23    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: robbelsche
robbelsche
00 05.03.2005, 01:23
Antworten mit Zitat Antworten mit Zitat

Aha robbelsche, erst posten, dann denken... Ferner: wer lesen kann...

Zu ergänzen wäre desweiteren also bei Ausschluss der Kleinbuchstaben:

Code:
RewriteCond %{HTTP_USER_AGENT} !^boitho\.com\-robot
RewriteCond %{HTTP_USER_AGENT} !^gigabot


Ich glaube mit den Logfiles mach ich erst morgen weiter...

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
roland

pr


: 28.02.2005
: 17



: 05.03.2005, 11:24    : Re: Email harvester und unerwünschte Bots mit .htaccess sper
Von: roland
roland
00 05.03.2005, 11:24
Antworten mit Zitat Antworten mit Zitat

Hallo Robert, hallo bull,

vielen Dank für Eure wertvollen Antworten.

Die Regel von bull werde ich darin lassen.
Ein paar der "-" "-" verursachen keinen Traffik mehr.
:
Die 195. . . . kommt sehr oft daher.
Es ist 1000te Mal eine 195. 93.60. (die letzten 2-3 Ziffern immer andere). Die melden sich auch immer mit einer Browserkennung.
Jene mit "-" "-" haben dann als letzte Ziffern z.B. die 13 , 15, 80 , 111 oder auch die 137.


Die 195. 93.60.xxx können nach einfügen der Regel von bull jedoch noch Inhalte lesen.


Bin jetzt dabei meine kleine .htaccess mal etwas zu überarbeiten

Caterham hat Folgendes geschrieben:

:
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR]
die Klammern müssen hier escaped werden
Code:
RewriteCond %{HTTP_USER_AGENT} dloader\(NaverRobot\) [OR]


Grüße
Robert


Nun gleich ein paar Fragen zum maskieren von Zeichen.

Laut Deiner obigen Antwort, nehme ich einmal an, daß alle Klammern in den Zeichenketten der user_agent mit escape versehen werden müssen.

Wie sieht es aus mit Leerzeichen. Das würde mich schon brennend intressieren.

Aus bull seiner Liste:
:
RewriteCond %{HTTP_USER_AGENT} ^Tcl\ http\ client\ package [OR]


also:
:
Tcl http client package

wird o.g. Regel?

Aus:
RewriteCond %{HTTP_USER_AGENT} ^Crawl of The Dead [OR]

sollte doch dann folgender Ausdruck werden:
RewriteCond %{HTTP_USER_AGENT} ^Crawl\ of\ The\ Dead [OR]

Ist das richtig. daß alle Leerzeichen mit escape markiert werden müssen?

Wenn ich das richtig verstehe, sind das dann folgende Zeichen innerhalb eines user_agent die mit escape maskiert werden müssen:

Code:

"Leerzeichen"
(
)
/
.


Ist das richtig?
Wenn ja, kann o.g. Liste noch verlängert/vervollständigt werden?

Schon einmal vielen Dank für Eure Antworten und ein schönes Wochenende wünscht
Roland
00
Nach oben
roland Private Nachricht senden
robbelsche

pr


: 09.09.2004
: 1053
: Berlin


: 05.03.2005, 15:26    : Re: Email harvester und unerwünschte Bots mit .htaccess sper
Von: robbelsche
robbelsche
00 05.03.2005, 15:26
Antworten mit Zitat Antworten mit Zitat

@roland

Dein Posting war zwar nicht an mich gerichtet, aber das ist ja auch egal...

roland hat Folgendes geschrieben:
roland hat Folgendes geschrieben:

Jene mit "-" "-" haben dann als letzte Ziffern z.B. die 13 , 15, 80 , 111 oder auch die 137.


Die 195. 93.60.xxx können nach einfügen der Regel von bull jedoch noch Inhalte lesen.


Vielleicht ist dann der User Agent auch "-", sodass man es mit:

Code:
RewriteCond  %{HTTP_USER_AGENT}  ^-?$


probieren könnte...?



roland hat Folgendes geschrieben:
Ist das richtig?
Wenn ja, kann o.g. Liste noch verlängert/vervollständigt werden?


So wie ich das verstanden habe, müssen neben Leerzeichen alle Zeichen escaped werden, die in der Syntax irgendeine Bedeutung haben...

Gruß robbelsche
++++++++++++++++++++++++++++++++++++++++++++++++++++
Niemand braucht PR. Vergleichbare Seiten mit weniger PR werden sowieso besser gelistet!
00
Nach oben
robbelsche Private Nachricht senden
Caterham

pr


: 20.09.2004
: 331



: 05.03.2005, 19:47    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: Caterham
Caterham
00 05.03.2005, 19:47
Antworten mit Zitat Antworten mit Zitat

:
neben Leerzeichen alle Zeichen escaped werden, die in der Syntax irgendeine Bedeutung haben
ganz genau. Je nach Stelle (Pattern oder Substitution/Ersetzung) müssen folgende Zeichen escaped werden, wenn sie als "Zeiechen" verwendung finden sollen. Interessant dabei ist, dass die schließenden Klammern ] und } nicht escaped werden müssen
:
. - der Punkt: bspw. RewriteRule ^index\.php$ /index.html
+ - das Pluszeichen: \+
* - der Stern: etc.
^ - ...
$ - Dollarzeichen
%
[Leerzeichen] bspw. hallo\ welt
? - Fragezeichen
\ - Backslash
| - ...
( - sämtliche Klammern
)
[
{
In der Ersetzung einer RewriteRule müssen weniger Zeichen escaped werden, da sie dort nicht als Steuerzeichen fungieren.


Der einfache Slash / muss jedoch nicht escaped werden.

aus
Code:
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
müsstest du also
Code:
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4\.0\ \(compatible;\ MSIE\ 6\.0;\ Win32\) [OR]
machen, sonst "matched" die Condition nur bei
:
Mozilla/4.0 compatible; MSIE 6.0; Win32
also ohne Klammern .

Grüße
Robert
00
Nach oben
Caterham Private Nachricht senden
mg8

pr


: 02.04.2005
: 29



: 07.04.2005, 18:26    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: mg8
mg8
00 07.04.2005, 18:26
Antworten mit Zitat Antworten mit Zitat

hi,

ich bin recht neu in diesem bereich, wie ich so mitbekommen habe rufen nicht alle (spam)-crawler die robots.txt auf. Die .htaccess wird wohl von allen berücksichtigt. ?

Ist es eigentlich von vorteil eine robots.txt und eine .htaccess auf den server zu haben oder ist das unütz beide systeme zu nutzen.?

Mfg
mg8
00
Nach oben
mg8 Private Nachricht senden
larsneo

pr


: 03.01.2005
: 178
: Schwäbisch Gmünd


: 07.04.2005, 19:02    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: larsneo
larsneo
00 07.04.2005, 19:02
Antworten mit Zitat Antworten mit Zitat

die zielsetzung ist unterschiedlich - die robots.txt ist quasi ein hinweis an interessierte suchbots, bestimmte bereiche nicht in den index aufzunehmen. der zugriff auf die seiten ist aber normal möglich. die .htaccess ist ein serverseitiges instrument um z.b. bestimmte bereich komplett zu sperren - u.a. auf grundlage der jeweilgen USER_AGENT angabe.
die robots.txt sollte man auf jeden fall immer haben, selbst wenn's nur eine leere datei ist - alleine schon um die fehlermeldungen im log bei anfragen nach der datei einzusparen.
die .htaccess kann man je nach bedarf einsetzen - um den zugriff einzuschränken, um bots auszusperren oder auch um statisch aussehende links zu realisieren.

grüsse aus dem wilden süden
andreas <larsneo>
..::[zikula ]::.. ..::[cms-sicherheit.de]::..
00
Nach oben
larsneo Private Nachricht senden WWW
mg8

pr


: 02.04.2005
: 29



: 07.04.2005, 20:31    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: mg8
mg8
00 07.04.2005, 20:31
Antworten mit Zitat Antworten mit Zitat

die robost.txt liegt doch dort wo auch die index.html von der webseite ist oder.?
Wo liegt den die .htaccess bzw wo muss ich die anlegen.?
mfg
mg8
00
Nach oben
mg8 Private Nachricht senden
Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen

Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
Seite 6 von 8
Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
 





Ähnliche Beiträge
Thema Online Marketing Forum Antworten
Unbekannte Weiterleitung in der htaccess? Unbekannte Weiterleitung in der htacc... Major Tom Weiterleitungen und mod_rewrite 3 04.08.2018, 02:23 Unbekannte Weiterleitung in der htaccess?
.htaccess-Einträge - Avoid Refererspam & Co. .htaccess-Einträge - Avoid Refererspa... codemonk Spiders / Robots Themen 16 02.08.2018, 12:13 .htaccess-Einträge - Avoid Refererspam & Co.
STrato htaccess 200 vs 404 vs 203 STrato htaccess 200 vs 404 vs 203 /Affilitiv/ Weiterleitungen und mod_rewrite 2 08.06.2018, 19:39 STrato htaccess 200 vs 404 vs 203
https Umstellung mittels htaccess https Umstellung mittels htaccess Internetagentur Ich hab' da mal 'ne Frage 2 08.03.2018, 20:01 https Umstellung mittels htaccess
Passwortschutz mit .htaccess funzt nicht Passwortschutz mit .htaccess funzt nicht j.kanuft Webprogrammierung, Templatedesign & Microformats 5 17.12.2017, 18:01 Passwortschutz mit .htaccess funzt nicht
301 Redirect per htaccess  mit Parametern 301 Redirect per htaccess mit Parame... GoogleRocks Weiterleitungen und mod_rewrite 5 20.11.2017, 20:38 301 Redirect per htaccess  mit Parametern
Müllmail.com - Wegwerf-Email Anbieter Müllmail.com - Wegwerf-Email Anbieter Trashmaster SEO-Feedback und -Reviews von Mitgliederwebseiten 0 30.10.2017, 00:12 Müllmail.com - Wegwerf-Email Anbieter


SEO Wetter von www.seowetter.de

Startseite der SEO-Agentur ABAKUS | Social Media & SEO Blog | SEO Online Tools | Suchmaschinenmarketing Angebot | Reif für die Klinik?

Impressum | Datenschutz

Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 6 Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 6 - Österreich Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 6 - Schweiz

Dieses SEO Forum läuft unter phpBB.


Sie lesen gerade: Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 6