Online Marketing Forum Deutschland
 
ABAKUS Online Marketing Forum
Suchmaschinenoptimierung
+ABAKUS
ABAKUS bei Google+
Facebook
ABAKUS bei Facebook
Google+ SEO Community von ABAKUS
Google+
SEO Community

   

ABAKUS Foren-Übersicht -> Spiders / Robots Themen
 

Email harvester und unerwünschte Bots mit .htaccess sperren

Neues Thema eröffnen   Neue Antwort erstellen Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
 Zugrife von xyz-domains verhindern Es gibt keine neueren Themen in diesem Forum.  
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 22.10.2004, 15:11    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 22.10.2004, 15:11
Antworten mit Zitat Antworten mit Zitat

Im Prinzip schon, man sollte allerdings vorsichtig damit umgehen und u.U. Ausnahmen definieren. Eine generelle Sperre von "mail" verhindert z.B. auch den Zugriff eines Internet Explorer, der mit irgendeinem Zusatz namens "i-mail" unterwegs ist, der sich freilich im User-agent verewigt. Daß man die Liste eindampfen kann wurde ja bereits erwähnt.00
Nach oben
bull Private Nachricht senden
Lightmaster-AH

pr


: 17.02.2004
: 55
: Schalksmühle / Sauerland


: 22.10.2004, 15:22    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: Lightmaster-AH
Lightmaster-AH
00 22.10.2004, 15:22
Antworten mit Zitat Antworten mit Zitat

:
Daß man die Liste eindampfen kann wurde ja bereits erwähnt.

Das habe ich glatt überlesen, besser gesagt ich find es garnicht (leichte Postingleseblindheit )

@bull:
Hast du denn eine Liste, die man einsetzen kann? Lust diese dann einmal komplett zu posten, oder per PN zu schicken?

suche ständig interessante Linktauschpartner! Vorzugsweise Esoseiten, und artverwandte!
00
Nach oben
Lightmaster-AH Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 22.10.2004, 15:28    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 22.10.2004, 15:28
Antworten mit Zitat Antworten mit Zitat

Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code:
RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
RewriteCond %{HTTP_USER_AGENT} aspseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} cerberian [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^BlackMask [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Cache [OR]
RewriteCond %{HTTP_USER_AGENT} ^CFNetwork [OR]
RewriteCond %{HTTP_USER_AGENT} CipinetBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CIS\ TE [OR]
RewriteCond %{HTTP_USER_AGENT} ^ClariaBot [OR]
RewriteCond %{HTTP_USER_AGENT} Clustered\-Search\-Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CoolBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^CydralSpider [OR]
RewriteCond %{HTTP_USER_AGENT} Deepnet\ Explorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^DiaGem [OR]
RewriteCond %{HTTP_USER_AGENT} EasyWebPromotion [OR]
RewriteCond %{HTTP_USER_AGENT} efp@gmx [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Ekko\ Client [OR]
RewriteCond %{HTTP_USER_AGENT} eventax [OR]
RewriteCond %{HTTP_USER_AGENT} Exotic\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Faxobot [OR]
RewriteCond %{HTTP_USER_AGENT} Fetch\ API\ Request [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Find [OR]
RewriteCond %{HTTP_USER_AGENT} GeorgeTheTouristBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^GoForIt [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister [OR]
RewriteCond %{HTTP_USER_AGENT} HTML2JPG [OR]
RewriteCond %{HTTP_USER_AGENT} HTTPClient [OR]
RewriteCond %{HTTP_USER_AGENT} ^IEXPLORE\.EXE [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Explorer\ 5\.5 [OR]
RewriteCond %{HTTP_USER_AGENT} ^IE\ 5\.5\ Compatible\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^J.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^K.+ [OR]
RewriteCond %{HTTP_USER_AGENT} ^L.+ [OR]
RewriteCond %{HTTP_USER_AGENT} \ oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^oBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} \.\.\.\.\.\/1\. [OR]
RewriteCond %{HTTP_USER_AGENT} MarcoPolo [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MetaSpider [OR]
RewriteCond %{HTTP_USER_AGENT} MITLL [OR]
RewriteCond %{HTTP_USER_AGENT} MMCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mnogosearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9]\.[0-9]{1,2}$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/3\.0\ \(Compatible;Viking/ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\(IE\ Compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(Windows\ XP\ 5\.1\) [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Moozilla [OR]
RewriteCond %{HTTP_USER_AGENT} Myzilla [OR]
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MSProxy [OR]
RewriteCond %{HTTP_USER_AGENT} NetNoseCrawler [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutscrape [OR]
RewriteCond %{HTTP_USER_AGENT} IconSurf [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ocelli [OR]
RewriteCond %{HTTP_USER_AGENT} ^Netscape$ [OR]
RewriteCond %{HTTP_USER_AGENT} Omni\-Explorer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Szukacz [OR]
RewriteCond %{HTTP_USER_AGENT} SKIZZLE [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Dumbot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TREX [OR]
RewriteCond %{HTTP_USER_AGENT} ^TECOMAC [OR]
RewriteCond %{HTTP_USER_AGENT} ^THTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Willow\ Internet\ Crawler [OR]
RewriteCond %{HTTP_USER_AGENT} Rainbow [NC,OR]
RewriteCond %{HTTP_USER_AGENT} Teradex [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tcl\ http\ client\ package [OR]
RewriteCond %{HTTP_USER_AGENT} ^T\-Online\ Browser [OR]
RewriteCond %{HTTP_USER_AGENT} ^CosmixCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^Haste [OR]
RewriteCond %{HTTP_USER_AGENT} ^FLPro [OR]
RewriteCond %{HTTP_USER_AGENT} sygol [OR]
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^PlantyNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Homerbot [OR]
RewriteCond %{HTTP_USER_AGENT} UrlDispatcher [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^UTSE [OR]
RewriteCond %{HTTP_USER_AGENT} ^River [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^TulipChain [OR]
RewriteCond %{HTTP_USER_AGENT} InternetSeer [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NY\ Internet\ Srvcs [OR]
RewriteCond %{HTTP_USER_AGENT} ^[0-9] [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^BrainySearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Search [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AsiaNetBot [OR]
RewriteCond %{HTTP_USER_AGENT} Indy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^MSIE\ 6\.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ (compatible;\ MSIE\ 6\.0;\ Win32) [OR]
RewriteCond %{HTTP_USER_AGENT} MSIE\ 6\.0b [OR]
RewriteCond %{HTTP_USER_AGENT} compatible\ ;\ MSIE [OR]
RewriteCond %{HTTP_USER_AGENT} Intelliseek [NC,OR]
RewriteCond %{HTTP_USER_AGENT} molbsy [NC,OR]
RewriteCond %{HTTP_USER_AGENT} phpdig [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^IM4U [OR]
RewriteCond %{HTTP_USER_AGENT} WinHttp [OR]
RewriteCond %{HTTP_USER_AGENT} NPT\ 0\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nutch [OR]
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft [OR]
RewriteCond %{HTTP_USER_AGENT} MiniRedir [OR]
RewriteCond %{HTTP_USER_AGENT} FrontPage [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Python [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^PHP [OR]
RewriteCond %{HTTP_USER_AGENT} SuperGet [OR]
RewriteCond %{HTTP_USER_AGENT} WorQmada [OR]
RewriteCond %{HTTP_USER_AGENT} TAMU_CS_IRL_CRAWLER [OR]
RewriteCond %{HTTP_USER_AGENT} TrueRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Tutorial [OR]
RewriteCond %{HTTP_USER_AGENT} ^Url\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vakes [OR]
RewriteCond %{HTTP_USER_AGENT} Watchfire [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Wildsoft [OR]
RewriteCond %[HTTP_USER_AGENT} ^WTA [OR]
RewriteCond %{HTTP_USER_AGENT} ^WMWWebBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^WWWeasel [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^PortalBSpider
RewriteRule !err403\.htm|robots\.txt - [F]


Spambots etc:
Code:

RewriteCond %{HTTP_USER_AGENT} mail [NC]
RewriteCond %{HTTP_USER_AGENT} !i\-MailBook [NC]
RewriteCond %{HTTP_USER_AGENT} !mailto [NC]
RewriteRule !err403\.htm|robots\.txt - [F]

RewriteCond %{HTTP_USER_AGENT} ^HLoader [OR]
RewriteCond %{HTTP_USER_AGENT} Lite\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Demo\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Production\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/4\.0\ \(compatible\) [OR]
RewriteCond %{HTTP_USER_AGENT} research [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Franklin [OR]
RewriteCond %{HTTP_USER_AGENT} Extract [NC,OR]
RewriteCond %{HTTP_USER_AGENT} MFC\ Foundation\ Class\ Library [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Industry\ Program [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mac\ Finder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Program\ Shareware [OR]
RewriteCond %{HTTP_USER_AGENT} locator [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Surf [OR]
RewriteCond %{HTTP_USER_AGENT} ^[A-Z]Browse [OR]
RewriteCond %{HTTP_USER_AGENT} ^WEP\ Search [OR]
RewriteCond %{HTTP_USER_AGENT} ^Missouri\ College [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTPLib [OR]
RewriteCond %{HTTP_USER_AGENT} Wavepluz [OR]
RewriteCond %{HTTP_USER_AGENT} ^Educate\ Search
RewriteRule !err403\.htm|robots\.txt - [F]

#offline browsers etc
RewriteCond %{HTTP_USER_AGENT} download [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Offline [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla\/6 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget
RewriteRule !err403\.htm|robots\.txt err/offlinebrowsers\.htm [L]

#rest
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR]
RewriteCond %{HTTP_USER_AGENT} ^EasyDL [OR]
RewriteCond %{HTTP_USER_AGENT} attach [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^UtilMind [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Telesoft [OR]
RewriteCond %{HTTP_USER_AGENT} ^UdmSearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider
RewriteRule !err403\.htm|robots\.txt - [F]


Zuletzt bearbeitet von bull am 22.10.2004, 17:55, insgesamt einmal bearbeitet
00
Nach oben
bull Private Nachricht senden
marc75

pr


: 06.10.2004
: 1916



: 22.10.2004, 17:17    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: marc75
marc75
00 22.10.2004, 17:17
Antworten mit Zitat Antworten mit Zitat

mhh,

hab mal folgendes probiert,

Code:
 
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^/errors/error403.htm$ - [F]


Jetzt müssten doch alle IE Browser ausgespeert sein oder nicht?
Funktioniert nur nicht, jedenfalls bei dem IE hier bei mir.

mfg
marc75
00
Nach oben
marc75 Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 22.10.2004, 18:01    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 22.10.2004, 18:01
Antworten mit Zitat Antworten mit Zitat

Weil Du nur für errors/error403.htm aussperrst. Wenn Du MSIE generell sperren willst, dann

Code:
RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule ^.*$ - [F]

und wenn Du MSIE für alles außer z.B. robots.txt sperren willst dann
Code:
RewriteCond %{HTTP_USER_AGENT} MSIE
RewriteRule !robots\.txt - [F]

Den führenden Slash in der Rule weglassen, dies kann je nach Anbieter und oder Server nicht funktionieren. Siehe hier
00
Nach oben
bull Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 31.10.2004, 10:58    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 31.10.2004, 10:58
Antworten mit Zitat Antworten mit Zitat

Es empfiehlt sich dringend, in der htaccess
Code:
deny from 195.166.237.

einzufügen. Es handelt sich um einen nigerianischen Provider. Viele von uns kennen ja die afrikanischen Bettelbriefe in der elektronischen Post.
195.166.237.40 trat früher mit dem User-agent "Green Research, Inc." auf. Jetzt ist es "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)". Es handelt sich offenbar um automatische Suma-Anfragen, die nicht korrekt geparst werden.

195.166.237.40 - - [31/Oct/2004:09:17:07 +0100] "GET /datei.htm&prev=/search%3Fq%3Dsuchwort%26start%3D70%26hl%3Dde%26lr%3D%26sa%3DN HTTP/1.1" 404 920 - "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98)" "-"
00
Nach oben
bull Private Nachricht senden
fool

pr


: 28.03.2004
: 200



: 31.10.2004, 15:01    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: fool
fool
00 31.10.2004, 15:01
Antworten mit Zitat Antworten mit Zitat

Hi bull,
würde das auch so gehen?

RewriteCond %{REMOTE_ADDR} ^195.166.237. [OR]

um es bei der rewritecondition einzufügen?

fragt sich
fool
00
Nach oben
fool Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 31.10.2004, 15:03    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 31.10.2004, 15:03
Antworten mit Zitat Antworten mit Zitat

Die Punkte mußt Du "escapen" - und das OR freilich nur, wenn dann noch andere Bedingungen folgen

RewriteCond %{REMOTE_ADDR} ^195\.166\.237\. [OR]
00
Nach oben
bull Private Nachricht senden
fool

pr


: 28.03.2004
: 200



: 31.10.2004, 15:30    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: fool
fool
00 31.10.2004, 15:30
Antworten mit Zitat Antworten mit Zitat

Besten Dank bull,
habe ich gleich geändert.

Muß mann Punkte generell immer escapen?

Ich habe in meiner htaccess noch eine rewriteCond für den Cyveillance spybot so stehen

RewriteCond %{REMOTE_ADDR} ^63.148.99.2(2[4-9]|[3-4][0-9]|5[0-5])$ [OR] # Cyveillance spybot

und den eigentlich auch nicht mehr gesehen in meinen Logs.

Schönen Sonntag
fool
00
Nach oben
fool Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 31.10.2004, 15:49    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 31.10.2004, 15:49
Antworten mit Zitat Antworten mit Zitat

:
Muß mann Punkte generell immer escapen?

Was HTTP_HOST und REMOTE_ADDR in RewriteCond betrifft, so ist dies wenigstens bei Apache 1.3.x nicht zwingend notwendig. Man sollte es sich m.E. dennoch angewöhnen, wird man doch, wie ich aus eigener Erfahrung weiß, hier schnell nachlässig, und Fehlersuche in .htaccess gehört durchaus zu den weniger angenehmen Dingen.

Grüße
jan
00
Nach oben
bull Private Nachricht senden
fool

pr


: 28.03.2004
: 200



: 01.12.2004, 18:40    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: fool
fool
00 01.12.2004, 18:40
Antworten mit Zitat Antworten mit Zitat

@ bull,
noch mal eine Frage zu der Kleinbuchstabensperre auf Seite 4 dieses Threads.
Wenn man mehr als einen Bot erlaubt,
brauch man in diesem besonderen Fall,
zur Abwechslung mal kein [OR]
dahinter?

habe neben dem msnbot jetzt noch appie erlaubt:

RewriteCond %{HTTP_USER_AGENT} ^[a-z0-9]+
RewriteCond %{HTTP_USER_AGENT} !^msnbot
RewriteCond %{HTTP_USER_AGENT} !^appie
RewriteRule ^.*$ - [F]

Wäre das dann so richtig?
fragt sich
fool

Besten Dank schon mal für die Antwort.
00
Nach oben
fool Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 01.12.2004, 20:14    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 01.12.2004, 20:14
Antworten mit Zitat Antworten mit Zitat

Ja, da es ja hier um ein logisches "UND" geht (welches angenommen wird, wenn kein OR angegeben wird), also heißt der genannten Codeabschnitt hier Kleinbuchstaben UND NICHT msnbot UND NICHT appie.00
Nach oben
bull Private Nachricht senden
roland

pr


: 28.02.2005
: 17



: 28.02.2005, 14:30    : user_agent "-" verursacht viel Traffic
Von: roland
roland
00 28.02.2005, 14:30
Antworten mit Zitat Antworten mit Zitat

bull hat Folgendes geschrieben:
Ohne Gewähr - es ist durchaus möglich, daß man sie noch etwas eindampfen kann (Microsoft...), aber sie ist halt gewachsen mit der Zeit.
Generell rate ich sowieso bei .htaccess vom sklavischen Kopieren ab.

Code:
RewriteCond %{HTTP_USER_AGENT} Aleksika [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
. . .

RewriteRule !err403\.htm|robots\.txt - [F]


Hallo bull, hallo all,

ich bin neu hier im Forum und hoffe hier an der richtigen Stelle zu sein.

Ich habe die letzte Zeit unsere Apache-Log Datei einmal etwas genauer angeschaut. Grund ist der hohe Traffik.

Dort taucht z.B. ein useragent mit "-" auf.
Der kommt jeden Tag und verursacht verdammt viel Trafik.
Ein kleiner Auszug aus dem Log:
Code:
195.xxx.xx.xxx - - [18/Feb/2005:14:32:39 +0100] "HEAD /klausuren/dateixyz.htm HTTP/1.0" 200 0 "-" "-"

xx.xx.xxx.xx - - [24/Feb/2005:16:22:22 +0100] "HEAD / HTTP/1.0" 200 0 "-" "-"
oder:
xx.xxx.xxx.xxx - - [24/Feb/2005:17:51:18 +0100] "HEAD /dateixy.html HTTP/1.1" 200 0 "-" "-"

Im Vergleich z.B. zu gooleboot sieht das so aus:
xx.xxx.xx.xx - - [18/Feb/2004:05:47:53 +0100] "GET /dateixy.html HTTP/1.0" 200 12417 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"



Kann mir jemand sagen, wie ich diesen
Code:
"-"

Typen (evtl. per htaccess) los werden kann.

Besten Dank schon einmal und freundliche Grüße
Roland
00
Nach oben
roland Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 28.02.2005, 14:46    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: bull
bull
00 28.02.2005, 14:46
Antworten mit Zitat Antworten mit Zitat

Hallo,

Du bist hier richtig.
Was ist denn die volle IP-Adresse von dem 195.xxx.xx.xxx ? (IP kann man hier schon posten)
Vielleicht ist es in diesem Falle http://www.abakus-internet-marketing.de/foren/viewtopic/t-8573/highlight-.html Punkt 16, scheint mir auch wegen dem HEAD plausibel zu sein, also AOL proxies, die (vermutlich) prüfen, ob sich was an den Dateien geändert hat.
Da aber leere User-agents auch von bösen Buben gebraucht werden (tatsächlich handelt es sich um wirklich leere User-agents und keinen "-", dieser taucht nur in den Logs auf), könnte folgende Lösung helfen:

Code:
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F]


Beschreibung: HEAD von AOL wird durchgelassen, da nur GET und POST-Requests von dem Code betroffen sind. Manche Browser lesen das Fav-Icon mit leerem User-agent, daher gilt die Regel für dieses nicht wie auch nicht für robots.txt und eine eventuelle eigene Fehlerseite.
Bedenke aber, daß manche Firewall-Software auch den User-agent und den Referer unterdrücken. Der Anteil bewegt sich aber im Promillebereich.
00
Nach oben
bull Private Nachricht senden
roland

pr


: 28.02.2005
: 17



: 01.03.2005, 12:29    : Email harvester und unerwünschte Bots mit .htaccess sperren
Von: roland
roland
00 01.03.2005, 12:29
Antworten mit Zitat Antworten mit Zitat

Hallo bull,

vielen Dank für Deine schnelle und ausführliche Antwort.

bull hat Folgendes geschrieben:
Hallo,

Du bist hier richtig.
Was ist denn die volle IP-Adresse von dem 195.xxx.xx.xxx ? (IP kann man hier schon posten)
Vielleicht ist es in diesem Falle http://www.abakus-internet-marketing.de/foren/viewtopic/t-8573/highlight-.html Punkt 16, . . .


Die 195. . . . kommt sehr oft daher.
Es ist 1000te Mal eine 195. 93.60. (die letzten 2-3 Ziffern immer andere). Die melden sich auch immer mit einer Browserkennung.
Jene mit "-" "-" haben dann als letzte Ziffern z.B. die 13 , 15, 80 , 111 oder auch die 137.

bull hat Folgendes geschrieben:


Da aber leere User-agents auch von bösen Buben gebraucht werden (tatsächlich handelt es sich um wirklich leere User-agents und keinen "-", dieser taucht nur in den Logs auf), könnte folgende Lösung helfen:

Code:
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST
RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F]


. . . .


Zunächst einmal meine jetzige Liste:

Code:
RewriteCond %{HTTP_USER_AGENT} ^Alligator [OR]
RewriteCond %{HTTP_USER_AGENT} ^AnswerBus [OR]
RewriteCond %{HTTP_USER_AGENT} ^asterias [OR]
RewriteCond %{HTTP_USER_AGENT} aspseek [OR]
RewriteCond %{HTTP_USER_AGENT} ^Atomz [OR]
.
.
.
RewriteCond %{HTTP_USER_AGENT} ^dloader [OR]
RewriteCond %{HTTP_USER_AGENT} dloader(NaverRobot) [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Wonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^Dumbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^FrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^Full\ Web\ Bot [OR]
.
.
.

RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^vspider* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu_Link_Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
#
RewriteRule ^.* - [F,L]




Dies meine bisherige Liste.
Vieleicht seit Ihr einmal so nett, einen Blick darauf zu werfen, ob die Regel überhaut so richtig ist.
Der "Xenu" wird jedenfalls abgehalten/gestoppt.


Nun bin ich mir nicht ganz klar, wie ich die genannte Regel *genau* einbinden kann.
Bitte seit nicht böse, aber ich habe davon wenig Ahnung
Wenn ich das richtig verstehe, einfach so:


Code:
 .
.
.
.
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^vspider* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Zeus.*Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZipppBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu_Link_Sleuth* [OR]
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg
# in obiger Zeile muß natürlich noch ein [OR] stehen, also so und nicht wie in obiger Zeile:
#
RewriteCond %{HTTP_USER_AGENT} ^ZyBorg  [OR]
RewriteCond %{HTTP_REFERER} ^$ [NC]
RewriteCond %{HTTP_USER_AGENT} ^$ [NC]
RewriteCond %{THE_REQUEST} ^GET [OR]
RewriteCond %{THE_REQUEST} ^POST


Nun muss ich am Schluß evtl. folgende Zeile austauschen:

Code:
RewriteRule ^.* - [F,L]


gegen diese:
Code:
RewriteRule !err403\.htm|robots\.txt|favicon\.ico - [F]


Muss ich dann noch eine error403-Datei erstellen?
Wenn ja, wo muss die liegen? Ich denke dort wo "favicon.ico" und "robots.txt" bereits liegen, im Hauptverzeichniss des Webs?


Schon einmal vielen Dank für eure Antworten und einen schönen Tag
wünscht Roland
00
Nach oben
roland Private Nachricht senden
Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen

Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
Seite 5 von 8
Gehe zu Seite Zurück  1, 2, 3, 4, 5, 6, 7, 8  Weiter
 





Ähnliche Beiträge
Thema Online Marketing Forum Antworten
https Umstellung mittels htaccess https Umstellung mittels htaccess Internetagentur Ich hab' da mal 'ne Frage 2 08.03.2018, 20:01 https Umstellung mittels htaccess
Passwortschutz mit .htaccess funzt nicht Passwortschutz mit .htaccess funzt nicht j.kanuft Webprogrammierung, Templatedesign & Microformats 5 17.12.2017, 18:01 Passwortschutz mit .htaccess funzt nicht
301 Redirect per htaccess  mit Parametern 301 Redirect per htaccess mit Parame... GoogleRocks Weiterleitungen und mod_rewrite 5 20.11.2017, 20:38 301 Redirect per htaccess  mit Parametern
Müllmail.com - Wegwerf-Email Anbieter Müllmail.com - Wegwerf-Email Anbieter Trashmaster SEO-Feedback und -Reviews von Mitgliederwebseiten 0 30.10.2017, 00:12 Müllmail.com - Wegwerf-Email Anbieter
robots.txt - URL mit varibablem Zwischenpfad sperren robots.txt - URL mit varibablem Zwisc... mxdb Ich hab' da mal 'ne Frage 3 25.10.2017, 10:00 robots.txt - URL mit varibablem Zwischenpfad sperren
"[...]Methoden von Social Bots und Fake-Accounts[...]&q "[...]Methoden von Social Bots u... hanneswobus Social Media & Content-Marketing 2 14.09.2017, 11:43 "[...]Methoden von Social Bots und Fake-Accounts[...]&q
SMS Sign-Up für Email-Newsletter? SMS Sign-Up für Email-Newsletter? gaschi Andere Marketingmaßnahmen und Webpromotion 0 01.08.2017, 14:50 SMS Sign-Up für Email-Newsletter?


SEO Wetter von www.seowetter.de

Startseite der SEO-Agentur ABAKUS | Social Media & SEO Blog | SEO Online Tools | Suchmaschinenmarketing Angebot | Reif für die Klinik?

Impressum | Datenschutz

Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 5 Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 5 - Österreich Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 5 - Schweiz

Dieses SEO Forum läuft unter phpBB.


Sie lesen gerade: Email harvester und unerwünschte Bots mit .htaccess sperren - Seite 5