Seite 4 von 8

Verfasst: 26.09.2004, 15:52
von mario
...dann gehört diese Adresse wohl nicht in die email-hervester-Kategorie... aber ich denke, dass der Archiver für die wenigsten sehr wichtig ist... trotzdem vielen Dank, Jörg

Verfasst:
von

Verfasst: 28.09.2004, 11:30
von luminatus
bei mir hat die version von web4free auch nicht funktioniert, die von viggen schon.
da ich aber echt genervt bin von den spam bots, hab ich per hand zeile fuer zeile
der mir fragwuerdig erscheinenden spider in viggens version uebernommen.

zum glueck hab ich hinten angefangen. nachdem die zeile
RewriteCond %{HTTP_USER_AGENT} ^Web Sucker [OR]
drin war, bekam ich auch den internal server errror.

welche anderen zeilen noch fuer den fehler sorgen, weiss ich nicht. ich
kann nur sagen, dass es nicht die einzige zeile ist, die probleme macht.

gruesse
luminatus

Verfasst: 28.09.2004, 17:05
von bull
welche anderen zeilen noch fuer den fehler sorgen, weiss ich nicht.
Es wurde doch schon darauf hingewiesen, daß bestimmte Zeichen, darunter Leerzeichen und Punkte, "escaped" werden müssen. Dann muß man sich halt die Zeit nehmen und jede Zeile durchgehen.

Bevor hier 14 User-agents à la Web Sucker gepostet werden, ist es durchaus sinnvoller,

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^Web [OR]
zu verwenden.
Weiterhin kommen hinzu (Überschneidungen mit bereits erwähnten sind möglich) :

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^HLoader [OR]
RewriteCond %{HTTP_USER_AGENT} Lite\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Demo\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Production\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/3\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} research [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Franklin [OR]
RewriteCond %{HTTP_USER_AGENT} Extract [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MFC\ Foundation\ Class\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Industry\ Program [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} locator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Surf [OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Browse [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEP\ Search [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missouri\ College [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTPLib [OR]
RewriteCond %{HTTP_USER_AGENT} Wavepluz [OR]
RewriteCond %{HTTP_USER_AGENT} ^Educate\ Search [OR]
Weiterhin erscheint es sinnvoll, User-agents, welche mit Kleinbuchstaben oder Zahlen beginnen, auszuschließen, einige wie msnbot hingegen nicht. Es gab letzthin immer wieder zufällige User-agents, welche mit Kleinbuchstaben begannen.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteCond %{HTTP_USER_AGENT} !^contype
RewriteCond %{HTTP_USER_AGENT} !^wwwster
RewriteCond %{HTTP_USER_AGENT} !^ia_archiver
RewriteCond %{HTTP_USER_AGENT} !^arianna\.libero
Heute war hier ein gewisser Faxobot von faxo.com - Nach Besichtigung der Seite habe ich ihn gleich mit in die Liste aufgenommen.

edit: gerade frisch
218.217.200.111 - - [28/Sep/2004:22:16:39 +0200] "GET / HTTP/1.1" 403 1286 - "-" "dsdl0" "-"
hat gleich das passende bekommen. Kann also das Antikleinbuchstabenskript nur empfehlen.

edit2: noch ein Kollege, der automatisch geblockt wurde
216.55.190.25 - - [29/Sep/2004:05:53:06 +0200] "GET /verzeichnis/ HTTP/1.0" 403 1286 - "-" "booch_1.0.7 tankvit@e-mail.ru" "-"

Verfasst: 09.10.2004, 21:41
von fool
Hallo Bull,
ich finde die Idee mit der Kleinbuchstabensperre ganz gut, habe sie auch in meine htaccess eingebaut und sehe seitdem auch keine spider/robots mit Kleinbuchstaben am Anfang mehr. Allerdings sehe ich auch den msnbot nicht mehr.
Irgendwas habe ich da wohl falsch gemacht.

So sieht das bei mir am Ende der RewriteGeschichte jetzt aus:

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9] +
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteRule ^.*$ - [F]

Was ist falsch

fragt sich
fool

Beste Grüße

Verfasst: 10.10.2004, 21:56
von Caterham
Was ist falsch
Du kannst ja mal versuchen, das umzudrehen

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} !^msnbot 
RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+ 
RewriteRule ^.*$ - [F] 
Du postest hier zw. "9] +" ein Leerzeichen, dort darf jedoch keins gesetzt werden.

Gruß
Robert

Verfasst:
von

Verfasst: 11.10.2004, 14:39
von fool
@ caterham,
hast natürlich recht mit dem Leerzeichen. Wenn man es drin hat funktioniert die ganze Seite nicht.

Aber irgendwas stimmt mit dem ganzen doch noch nicht. Der msnbot ist zwar nicht wieder aufgetaucht (was ja eigentlich unbeabsichtig ist)
- aber so ein Logfileeintrag sollte ja eigentlich auch nicht mehr sein, oder:

61.135.131.207 - - [10/Oct/2004:22:14:19 +0200] "GET / HTTP/1.1" 200 10196 "-" "sohu-search"
61.135.131.207 - - [10/Oct/2004:22:14:20 +0200] "GET //robots.txt HTTP/1.1" 200 5841 "-" "sohu-search"
61.135.130.74 - - [10/Oct/2004:23:46:57 +0200] "GET / HTTP/1.1" 200 10196 "-" "sohu-search"

Fängt doch auch klein an!

Kapier ich nicht.

Gruß
fool

Verfasst: 12.10.2004, 15:06
von Caterham
Hi,

ich habe (da ich derzeit mir mehr oder minder die Grippe gefangen habe...) noch nicht getestet, wie mod_rewrite da vorgeht:

Zur Verdeutlichung:
^[a-z0-9]+ "matched" sohu-search bzw. msnbot/0.3 (+https://search.msn.com/msnbot.htm) sollte eigentlich zutreffen, da der Pattern / search-string sich ja nicht bis zum Ende der Zeichenkette (durch $ markiert) durchzeihen muss. Interessant wäre herauszufinden, was sohusearch, also ohne - verursachen würde.

Hast du in deiner .htaccess-Datei noch mehr Regeln zu stehen, die evtl. etwas beeinflussen könnten?

Werde das, wenn ich wieder gesund bin, mal testen.

Gruß
Robert

Verfasst: 12.10.2004, 16:51
von fool
Hallo Robert,

das mit dem - Bindestrich habe ich mir nach dem posten meines letzen Beitrags auch schon gedacht. Aber besten Dank für die Verdeutlichung.

Fakt ist aber, dass ich den msnbot immer noch nicht wieder auf meinen Seiten gesehen habe seit ich das eingebaut habe.

Zu der Frage: meine htaccess hat vorneweg so ziemlich ein Aussehen wie das von der, die HULOT auf Seite 3 dieses Threads gepostet hat:
lauter Aussperrungen von nervigen bots, spidern und ein paar IP-Nummern/Ranges (vor allem aus China oder NP-Bot).

Wenn du noch eine Idee hast, laß sie mich wissen.
Vor allem aber - Gute Besserung!

Gruß
fool

Verfasst: 13.10.2004, 13:03
von fool
Ein Nachtrag zum gestrigen Post von mir:

ratet mal was heute morgen passiert ist - ohne dass ich bislang etwas in der htaccess geändert habe - steht also immer noch so drin wie

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteRule ^.*$ - [F]

--- der msnbot war wieder da. Offensichtlich funktioniert der Eintrag so wie er ist.
Absolut seltsam war allerdings, dass ausgerechnet nach der Änderung der msnbot für 3-4 Tage nicht mehr vorbeigekommen ist. Sonst ist der ja so aktiv - ohne Sinn und Nutzen - dass ich überlegt hatte ihn zu bannen.

Wahrscheinlich hat der Urlaub gemacht.

Viele Grüße
fool

Verfasst: 13.10.2004, 13:43
von bull
Absolut seltsam war allerdings, dass ausgerechnet nach der Änderung der msnbot für 3-4 Tage nicht mehr vorbeigekommen ist.
Kann rein technisch nichts damit zutun haben.

Verfasst: 13.10.2004, 15:50
von Sunbringer
Ich bin nun nicht so fit mit den htaccess - Rules .. wenn ich dei Liste von web4Free reinsetze, bekomme ich nun immer einen 500er Server error ... woran kannd as denn liegen?

modrewrite etc funzt super, aber die liste crasht alles...

Verfasst: 13.10.2004, 23:08
von fool
Hallo Sunbringer,

das Problem hatten doch einige in diesem Thread mit der htaccess von web4free.

Guck mal die Beiträge an und Versuch mal die von viggen oder die von hulot und bau drauf auf.

Manchmal ist es nur ein Leerzeichen oder eine # zuviel - oft in der letzten Zeile vor der rewrite rule. Und manchmal sind es die Serverrechte.

Gruß
fool

Verfasst: 21.10.2004, 09:35
von bull
Liste von web4Free
Zeichen wie / oder . oder $ oder Leerzeichen müssen "escaped" werden, also \/ und \. und \$ . Bei der Liste ist nochmals auf das Einsparpotential nahezu identischer aufeinanderfolgender Zeilen hinzuweisen (z.B. Mister Pix)

Verfasst: 22.10.2004, 08:15
von bull
Das Kleinzeichenskript hat eben wieder zugeschlagen:

66.205.208.3 - - [22/Oct/2004:07:33:01 +0200] "GET /tiefdrinundimodp/ HTTP/1.0" 403 1654 - "-" "sna-0.0.1 mikeelliott@hotmail.com" "-"

Mittlerweile gehe ich allerdings sogar dazu über, neben Kleinbuchstaben bestimmte Anfangsbuchstaben zu sperren und bewege mich mehr oder weniger auf eine Positivliste zu.

Code: Alles auswählen

RewriteCond %{HTTP_USER_AGENT} ^A.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^C.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^D.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^E.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^H.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^I.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^J.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^L.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^N.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Q.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^T.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^U.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^V.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^X.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Y.+
usw.

Verfasst: 22.10.2004, 15:08
von Lightmaster-AH
Hallo zusammen,

ich habe soeben folgende Mitteilung vom support meines Hosters erhalten:
Zudem rate ich davon ab, bei der Bot-Kennung mit führenden "^" zu
arbeiten. Dadurch greift die Regel nur, wenn die Agent-Kennung auch
wirklich mit z.B. "Zeus" _beginnt_. Steht dort jedoch "Mozilla 4.0 -
Zeus" oder ähnliches, so greift der Filter nicht, weil vor dem "Zeus"
noch etwas anderes steht.
Ist das so machbar? Dadurch würde die Liste ja um einiges kleiner ausfallen können.

lichtvolle Grüße: Lightmaster-AH