Online Marketing Forum Deutschland
 
ABAKUS Online Marketing Forum
Suchmaschinenoptimierung
+ABAKUS
ABAKUS bei Google+
Facebook
ABAKUS bei Facebook
Google+ SEO Community von ABAKUS
Google+
SEO Community

   

ABAKUS Foren-Übersicht -> Spiders / Robots Themen
 

Datenbank: Suchmaschinen Robots/Spider/Crawler

Neues Thema eröffnen   Dieses Thema ist gesperrt, du kannst keine Beiträge editieren oder beantworten.
 können spider erkennen, dass url mit mod_rewrite Googlebot liest nur index.php?  
viggen

pr


: 12.05.2003
: 6263



: 10.08.2003, 15:36    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: viggen
viggen
00 10.08.2003, 15:36
Antworten mit Zitat Antworten mit Zitat

Hier werden alle bekannten Suchmaschinen Robots/Spider/Crawler gelistet.
________________________________________________________________________

Boitho.com-robot/1.1
Spider von der norwegischen Suchmaschine http://www.boitho.com/index.htm.en
(englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 217.118.38.226 - 217.118.38.234

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: boitho.com-robot
Disallow: /

_______________________________________________________________________

Gigabot/1.0
Spider von der englischsprachigen Suchmaschine www.gigablast.com ,
beachtet Robots.txt
bekannte IP: 63.236.66.119 | 216.243.113.1

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: gigabot
Disallow: /

_______________________________________________________________________

Slurp (slurp/si,slurp/cat)
Spider des Datenproviders Inktomi http://www.inktomi.com/slurp.html
beachtet Robots.txt
bekannte IP: 66.196.64.0 - 66.196.127.255 | 209.131.32.0 - 209.131.63.255

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: slurp
Disallow: /


Anmerkung: Wichtiger Robot - Inktomi liefert Daten für MSN und Hotbot
_______________________________________________________________________

Szukacz/1.5
Spider von der polnischsprachigen Suchmaschine http://www.szukacz.pl/
(deutsche und englische Seiten werden gespidert und im Index aufgenommen)
beachtet Robots.txt
bekannte IP: 193.218.115.XXX | 194.181.35.X
bramka.proszynski.pl und brama.proszynski.pl

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: szukacz
Disallow: /

_______________________________________________________________________
00
Nach oben
viggen Private Nachricht senden E-Mail senden
ABAKUS


: Werbung 




Professionelles und nachhaltiges Linkbuilding bei ABAKUS Internet Marketing.
Nutzen Sie unsere jahrelange Erfahrung und lassen Sie sich zu den Themen Offpage-Optimierung und Linkaufbau beraten!
Jetzt anfragen unter: www.abakus-internet-marketing.de

bull

pr


: 20.09.2003
: 2173
: Vèneto


: 21.10.2004, 10:06    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: bull
bull
00 21.10.2004, 10:06
Antworten mit Zitat Antworten mit Zitat

Googlebot
Es ist zu beachten, daß sich der Googlebot mit verschiedenen User-agents identifiziert.
:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)

Daher ist, sofern man cloakt, nur IP-basiertes Cloaking wirklich sicher
beachtet robots.txt

bekannte IP-Bereiche:
crawl1.googlebot.com - crawl9.googlebot.com: 216.239.46.0 - 216.239.46.255
crawl10.googlebot.com - crawl15.googlebot.com: 64.68.84.0 - 64.68.84.255
crawl16.googlebot.com - crawl21.googlebot.com : 64.68.85.0 - 64.68.85.255
crawl22.googlebot.com - crawl27.googlebot.com: 64.68.80.0 - 64.68.80.255
crawl28.googlebot.com - crawl30.googlebot.com: 64.68.81.0 - 64.68.81.80 (?)
crawl31.googlebot.com - crawl36.googlebot.com: 64.68.88.0 - 64.68.88.208 (?)
crawler1.googlebot.com - crawler6.googlebot.com: 64.68.86.0 - 64.68.86.208 (?)
crawler7.googlebot.com - crawler9.googlebot.com: 64.68.87.0 - 64.68.87.80 (?)
crawler10.googlebot.com - crawler15.googlebot.com: 64.68.82.0 - 64.68.82.208 (?)
Bei den mit (?) angegebenen Bereichen ist die obere Grenze empirisch gesichert.

Um diesen Robot vom Spidern Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot
Disallow: /

--------
Nachtrag vom 01.11.04 : Während der Googlebot ohne Mozilla-Kennung seine Anfragen als HTTP/1.0 sendet, allerdings tatsächlich HTTP/1.1 unterstützt, sendet der Googlebot mit Mozilla-Kennung ausdrücklich HTTP/1.1 - Anfragen und unterstützt u.a. GZIP
Ferner ist darauf hinzuweisen, daß bei den beiden nicht-Mozilla-Varianten der Accept-Type verschieden ist. application/xhtml+xml wird allerdings nicht unterstützt. (Quelle )

google.com/bot.html
text/html,text/plain
text/html,text/plain,application/*

googlebot.com/bot.html
text/html,text/plain
text/html,text/plain,application/*
text/html,text/plain,application/xml,text/xml,application/atom+xml

_______________________________________________________________________

Googlebot/Test
März/April 2004 und derzeit nicht mehr im Einsatz. Der Roboter wurde bei mir von 64.68.89.144-190 sowie 64.68.83.132-204 und 64.68.81.152 gesichtet. Es handelt sich also um einen echten Google-Roboter. Manche Benutzer bei webmasterworld berichteten, daß robots.txt nicht geholt worden wäre - bei mir allerdings schon. Der Roboter holte auch JavaScript-Dateien.

_______________________________________________________________________

Googlebot-Image/1.0
Die Google-Bildersuche.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Googlebot-Image
Disallow: /

_______________________________________________________________________


Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
Google-AdSense-Roboter. Dieser taucht auch in Ihren Logs auf, wenn sie kein AdSense einsetzen, die Seite aber von einem Benutzer von Opera besucht wird, da diese Software, sofern man sie nicht erwirbt, sich durch kontextuelle Anzeigen finanziert.
beachtet robots.txt
IP-Bereiche: 66.249.64/20

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein (nicht AdSense-Nutzer!)

User-agent: Mediapartners-Google
Disallow: /

_______________________________________________________________________


msnbot
Die MSN-Suche basiert nicht mehr auf Drittanbietern, sondern wird jetzt selbst entwickelt.
:
msnbot/0.11
msnbot/0.3 (+http://search.msn.com/msnbot.htm)

beachtet robots.txt
IP-Bereiche:
65.54.188.0 - 65.54.188.255
131.107.137.? - 131.107.163.?
204.95.96.? - 204.95.111.? (Bereich nicht scharf einzugrenzen)
207.46.98.* (Bereich nicht scharf einzugrenzen)
207.68.146.56 (einzelne IP)

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: msnbot
Disallow: /

Um einen zeitlichen Mindestabstand zwischen einzelnen Zugriffen dieses Roboters zu erwirken, geben sie folgende Zeile in Ihre Robots.txt ein (Zeitangabe in Sekunden). Der Befehl Crawl-delay wird ausschließlich von msnbot unterstützt.

User-agent: msnbot
Crawl-delay: 30

_______________________________________________________________________


Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Man achte auf die nicht geschlossene Klammer. Es handelt sich um einen e-mail Sammler, der naturgemäß keine robots.txt holt und mittels

RewriteCond %{HTTP_USER_AGENT} DTS\ Agent$

in der Datei .htaccess, sofern Ihr Anbieter diese unterstützt, ausgesperrt werden sollte.

_______________________________________________________________________

Eine gute Sammlung findet sich auch in drei Teilen bei 1 , 2 , 3 .
Weiterhin existiert bei WebmasterWorld die Updated and Collated Bot List (u.U. Benutzerkonto bei WebmasterWorld notwendig)


Zuletzt bearbeitet von bull am 01.11.2004, 22:32, insgesamt 7-mal bearbeitet
00
Nach oben
bull Private Nachricht senden
Webby

pr


: 17.10.2001
: 5426



: 21.10.2004, 11:48    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: Webby
Webby
00 21.10.2004, 11:48
Antworten mit Zitat Antworten mit Zitat

Wow!
Klasse info Ihr beiden!

Was ist mit den 'Yahoo! Slurp' robot?
Wissen wir schon die IP range usw?

Alan

ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing
00
Nach oben
Webby Private Nachricht senden E-Mail senden WWW
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 21.10.2004, 15:45    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: bull
bull
00 21.10.2004, 15:45
Antworten mit Zitat Antworten mit Zitat

Yahoo

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
IP-Bereich: 66.196.90.22 - 66.196.91.131 (max.)
209.131.32.0 - 209.131.63.255
66.196.101.*
66.196.65.34 (mehr? - nur robots.txt)
66.196.72.13 - 66.196.72.106 (mehr?)
Es handelt sich um eine Weiterentwicklung von Inktomi Slurp.

Um diesen Robot von Ihrer Seite zu bannen geben sie folgende Zeile in Ihre Robots.txt ein

User-agent: Slurp
Disallow: /

_______________________________________________________________________

Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
Übernahme dieser Information aus Drittquelle, da dieser bei mir noch nicht gesichtet wurde. Es ist davon auszugehen, daß er entweder außer Betrieb ist oder außer Betrieb gehen wird. Es handelt sich offenbar um eine Weiterentwicklung von FAST-WebCrawler/3.x Multimedia, da FAST von Yahoo! gekauft wurde.
IP-Bereich: 66.77.73.*
_______________________________________________________________________

Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
IP-Bereich: 66.94.233.*
Der Roboter holt mittlerweile robots.txt (bis mindestens KW 42/2004 nicht!), hält sich allerdings nicht daran. Nach offiziellen Informationen sollte eigentlich

User-agent: MMCrawler
Disallow: /

in der robots.txt bewirken, daß nicht gecrawlt wird.


Zuletzt bearbeitet von bull am 01.11.2004, 12:54, insgesamt einmal bearbeitet
00
Nach oben
bull Private Nachricht senden
Webby

pr


: 17.10.2001
: 5426



: 21.10.2004, 20:33    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: Webby
Webby
00 21.10.2004, 20:33
Antworten mit Zitat Antworten mit Zitat

Danke

ABAKUS Internet Marketing
Professionelle Suchmaschinenoptimierung und Suchmaschinenmarketing
00
Nach oben
Webby Private Nachricht senden E-Mail senden WWW
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 22.10.2004, 11:08    : Datenbank: Suchmaschinen Robots/Spider/Crawler
Von: bull
bull
00 22.10.2004, 11:08
Antworten mit Zitat Antworten mit Zitat

Nachtrag IP-Bereiche Googlebot:

66.249.64.0 - 66.249.64.208 (obere Grenze empirisch)
66.209.65.*
66.249.66.* (?)
00
Nach oben
bull Private Nachricht senden
bull

pr


: 20.09.2003
: 2173
: Vèneto


: 05.01.2005, 22:58    : Nachtrag IP-Bereiche Yahoo Slurp
Von: bull
bull
00 05.01.2005, 22:58
Antworten mit Zitat Antworten mit Zitat

66.196.72.13 - 66.196.72.235 (empirisch)
68.142.249.* (verzeinzelte)
68.142.250.* (verzeinzelte)
68.142.251.* (verzeinzelte)
ferner empirisch
66.196.80.10 - 66.196.80.163,
66.196.90.16 - 66.196.91.248,
66.196.92.10 - 66.196.92.239

Dank auch an Maschenka
00
Nach oben
bull Private Nachricht senden
Neues Thema eröffnen   Dieses Thema ist gesperrt, du kannst keine Beiträge editieren oder beantworten.    ABAKUS Foren-Übersicht -> Spiders / Robots Themen

Seite 1 von 1
 





Ähnliche Beiträge
Thema Online Marketing Forum Antworten
[B] Neue DB: Oldtimer-Datenbank von 1885 - 1970 [B] Neue DB: Oldtimer-Datenbank von 1... codemonk Marktplatz: Dienstleistungen 0 28.09.2018, 20:55 [B] Neue DB: Oldtimer-Datenbank von 1885 - 1970
MySQL Datenbank mit Tool bearbeiten? MySQL Datenbank mit Tool bearbeiten? Major Tom Content Management Systeme, Blog- & Shopsysteme 14 11.08.2018, 01:23 MySQL Datenbank mit Tool bearbeiten?
[B] Neue DB: Anhänger-Datenbank BRD mit HSN/TSN [B] Neue DB: Anhänger-Datenbank BRD m... codemonk Marktplatz: Dienstleistungen 0 19.04.2018, 09:52 [B] Neue DB: Anhänger-Datenbank BRD mit HSN/TSN
Wordpress-Datenbank-Abfrage-Endlos-Schleife Wordpress-Datenbank-Abfrage-Endlos-Sc... BadCat Content Management Systeme, Blog- & Shopsysteme 4 21.03.2018, 11:26 Wordpress-Datenbank-Abfrage-Endlos-Schleife
robots.txt wird von Google indexiert robots.txt wird von Google indexiert mits Google Forum 6 24.02.2018, 12:26 robots.txt wird von Google indexiert
URL mit "24" Suchmaschinen-tauglich? URL mit "24" Suchmaschinen-... philipok Ich hab' da mal 'ne Frage 8 26.12.2017, 21:06 URL mit "24" Suchmaschinen-tauglich?


SEO Wetter von www.seowetter.de

Startseite der SEO-Agentur ABAKUS | Social Media & SEO Blog | SEO Online Tools | Suchmaschinenmarketing Angebot | Reif für die Klinik?

Impressum | Datenschutz

Datenbank: Suchmaschinen Robots/Spider/Crawler Datenbank: Suchmaschinen Robots/Spider/Crawler - Österreich Datenbank: Suchmaschinen Robots/Spider/Crawler - Schweiz

Dieses SEO Forum läuft unter phpBB.


Sie lesen gerade: Datenbank: Suchmaschinen Robots/Spider/Crawler