|
|
viggen

: 12.05.2003 : 6268 : Villach
|
| : 10.08.2003, 14:36 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Hier werden alle bekannten Suchmaschinen Robots/Spider/Crawler gelistet.
________________________________________________________________________
Boitho.com-robot/1.1
Spider von der norwegischen Suchmaschine http://www.boitho.com/index.htm.en
(englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 217.118.38.226 - 217.118.38.234
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: boitho.com-robot
Disallow: /
_______________________________________________________________________
Gigabot/1.0
Spider von der englischsprachigen Suchmaschine www.gigablast.com,
beachtet Robots.txt
bekannte IP: 63.236.66.119 | 216.243.113.1
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: gigabot
Disallow: /
_______________________________________________________________________
Slurp (slurp/si,slurp/cat)
Spider des Datenproviders Inktomi http://www.inktomi.com/slurp.html
beachtet Robots.txt
bekannte IP: 66.196.64.0 - 66.196.127.255 | 209.131.32.0 - 209.131.63.255
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: slurp
Disallow: /
Anmerkung: Wichtiger Robot - Inktomi liefert Daten für MSN und Hotbot
_______________________________________________________________________
Szukacz/1.5
Spider von der polnischsprachigen Suchmaschine http://www.szukacz.pl/
(deutsche und englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 193.218.115.XXX | 194.181.35.X
bramka.proszynski.pl und brama.proszynski.pl
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: szukacz
Disallow: /
_______________________________________________________________________
----- Vertriebspartner Gesucht ----- |
|
| Nach oben |
|
 |
bull


: 20.09.2003 : 2176 : Vèneto
|
| : 21.10.2004, 09:06 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Googlebot
Es ist zu beachten, daß sich der Googlebot mit verschiedenen User-agents identifiziert.
| : |
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html) |
Daher ist, sofern man cloakt, nur IP-basiertes Cloaking wirklich sicher
beachtet robots.txt
bekannte IP-Bereiche:
crawl1.googlebot.com - crawl9.googlebot.com: 216.239.46.0 - 216.239.46.255
crawl10.googlebot.com - crawl15.googlebot.com: 64.68.84.0 - 64.68.84.255
crawl16.googlebot.com - crawl21.googlebot.com : 64.68.85.0 - 64.68.85.255
crawl22.googlebot.com - crawl27.googlebot.com: 64.68.80.0 - 64.68.80.255
crawl28.googlebot.com - crawl30.googlebot.com: 64.68.81.0 - 64.68.81.80 (?)
crawl31.googlebot.com - crawl36.googlebot.com: 64.68.88.0 - 64.68.88.208 (?)
crawler1.googlebot.com - crawler6.googlebot.com: 64.68.86.0 - 64.68.86.208 (?)
crawler7.googlebot.com - crawler9.googlebot.com: 64.68.87.0 - 64.68.87.80 (?)
crawler10.googlebot.com - crawler15.googlebot.com: 64.68.82.0 - 64.68.82.208 (?)
Bei den mit (?) angegebenen Bereichen ist die obere Grenze empirisch gesichert.
Um diesen Robot vom Spidern Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: Googlebot
Disallow: /
--------
Nachtrag vom 01.11.04 : Während der Googlebot ohne Mozilla-Kennung seine Anfragen als HTTP/1.0 sendet, allerdings tatsächlich HTTP/1.1 unterstützt, sendet der Googlebot mit Mozilla-Kennung ausdrücklich HTTP/1.1 - Anfragen und unterstützt u.a. GZIP
Ferner ist darauf hinzuweisen, daß bei den beiden nicht-Mozilla-Varianten der Accept-Type verschieden ist. application/xhtml+xml wird allerdings nicht unterstützt. (Quelle)
google.com/bot.html
text/html,text/plain
text/html,text/plain,application/*
googlebot.com/bot.html
text/html,text/plain
text/html,text/plain,application/*
text/html,text/plain,application/xml,text/xml,application/atom+xml
_______________________________________________________________________
Googlebot/Test
März/April 2004 und derzeit nicht mehr im Einsatz. Der Roboter wurde bei mir von 64.68.89.144-190 sowie 64.68.83.132-204 und 64.68.81.152 gesichtet. Es handelt sich also um einen echten Google-Roboter. Manche Benutzer bei webmasterworld berichteten, daß robots.txt nicht geholt worden wäre - bei mir allerdings schon. Der Roboter holte auch JavaScript-Dateien.
_______________________________________________________________________
Googlebot-Image/1.0
Die Google-Bildersuche.
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: Googlebot-Image
Disallow: /
_______________________________________________________________________
Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
Google-AdSense-Roboter. Dieser taucht auch in Ihren Logs auf, wenn sie kein AdSense einsetzen, die Seite aber von einem Benutzer von Opera besucht wird, da diese Software, sofern man sie nicht erwirbt, sich durch kontextuelle Anzeigen finanziert.
beachtet robots.txt
IP-Bereiche: 66.249.64/20
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein (nicht AdSense-Nutzer!)
User-agent: Mediapartners-Google
Disallow: /
_______________________________________________________________________
msnbot
Die MSN-Suche basiert nicht mehr auf Drittanbietern, sondern wird jetzt selbst entwickelt.
| : |
msnbot/0.11
msnbot/0.3 (+http://search.msn.com/msnbot.htm) |
beachtet robots.txt
IP-Bereiche:
65.54.188.0 - 65.54.188.255
131.107.137.? - 131.107.163.?
204.95.96.? - 204.95.111.? (Bereich nicht scharf einzugrenzen)
207.46.98.* (Bereich nicht scharf einzugrenzen)
207.68.146.56 (einzelne IP)
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: msnbot
Disallow: /
Um einen zeitlichen Mindestabstand zwischen einzelnen Zugriffen dieses Roboters zu erwirken, geben sie folgende Zeile in Ihre Robots.txt ein (Zeitangabe in Sekunden). Der Befehl Crawl-delay wird ausschließlich von msnbot unterstützt.
User-agent: msnbot
Crawl-delay: 30
_______________________________________________________________________
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Man achte auf die nicht geschlossene Klammer. Es handelt sich um einen e-mail Sammler, der naturgemäß keine robots.txt holt und mittels
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent$
in der Datei .htaccess, sofern Ihr Anbieter diese unterstützt, ausgesperrt werden sollte.
_______________________________________________________________________
Eine gute Sammlung findet sich auch in drei Teilen bei 1, 2, 3.
Weiterhin existiert bei WebmasterWorld die Updated and Collated Bot List (u.U. Benutzerkonto bei WebmasterWorld notwendig)
Zuletzt bearbeitet von bull am 01.11.2004, 21:32, insgesamt 7-mal bearbeitet |
|
| Nach oben |
|
 |
Webby


: 17.10.2001 : 5428 : Hannover
|
| : 21.10.2004, 10:48 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Wow!
Klasse info Ihr beiden!
Was ist mit den 'Yahoo! Slurp' robot?
Wissen wir schon die IP range usw?
Alan
ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing |
|
| Nach oben |
|
 |
bull


: 20.09.2003 : 2176 : Vèneto
|
| : 21.10.2004, 14:45 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Yahoo
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
IP-Bereich: 66.196.90.22 - 66.196.91.131 (max.)
209.131.32.0 - 209.131.63.255
66.196.101.*
66.196.65.34 (mehr? - nur robots.txt)
66.196.72.13 - 66.196.72.106 (mehr?)
Es handelt sich um eine Weiterentwicklung von Inktomi Slurp.
Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein
User-agent: Slurp
Disallow: /
_______________________________________________________________________
Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
Übernahme dieser Information aus Drittquelle, da dieser bei mir noch nicht gesichtet wurde. Es ist davon auszugehen, daß er entweder außer Betrieb ist oder außer Betrieb gehen wird. Es handelt sich offenbar um eine Weiterentwicklung von FAST-WebCrawler/3.x Multimedia, da FAST von Yahoo! gekauft wurde.
IP-Bereich: 66.77.73.*
_______________________________________________________________________
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
IP-Bereich: 66.94.233.*
Der Roboter holt mittlerweile robots.txt (bis mindestens KW 42/2004 nicht!), hält sich allerdings nicht daran. Nach offiziellen Informationen sollte eigentlich
User-agent: MMCrawler
Disallow: /
in der robots.txt bewirken, daß nicht gecrawlt wird.
Zuletzt bearbeitet von bull am 01.11.2004, 11:54, insgesamt einmal bearbeitet |
|
| Nach oben |
|
 |
Webby


: 17.10.2001 : 5428 : Hannover
|
| : 21.10.2004, 19:33 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Danke 
ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing |
|
| Nach oben |
|
 |
bull


: 20.09.2003 : 2176 : Vèneto
|
| : 22.10.2004, 10:08 : Datenbank: Suchmaschinen Robots/Spider/Crawler |
|
|
Nachtrag IP-Bereiche Googlebot:
66.249.64.0 - 66.249.64.208 (obere Grenze empirisch)
66.209.65.*
66.249.66.* (?) |
|
| Nach oben |
|
 |
bull


: 20.09.2003 : 2176 : Vèneto
|
| : 05.01.2005, 21:58 : Nachtrag IP-Bereiche Yahoo Slurp |
|
|
66.196.72.13 - 66.196.72.235 (empirisch)
68.142.249.* (verzeinzelte)
68.142.250.* (verzeinzelte)
68.142.251.* (verzeinzelte)
ferner empirisch
66.196.80.10 - 66.196.80.163,
66.196.90.16 - 66.196.91.248,
66.196.92.10 - 66.196.92.239
Dank auch an Maschenka |
|
| Nach oben |
|
 |