Suchmaschinenoptimierung
   
 

SEMSEO Konferenz 2012
 

 
 

Crawler Yahoo/Google max httpd connections ?

Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen
 Aktualisierung der sitemap.txt? SimilarPages Spider?  
seonewbie

pr


: 21.10.2006
: 1787



: 11.03.2009, 15:07    : Crawler Yahoo/Google max httpd connections ? Antworten mit Zitat

Hallo,
ich versuche gerade einen Server an spezielle Anforderungen
anzupassen. Was ich wissen müßte mit wievielen connections
(httpd Prozesse) kommen der Googlebot oder Slurp gleichzeitig?


Gruß

Micha

Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"
Nach oben
seonewbie Private Nachricht senden
Mork vom Ork

pr


: 08.07.2008
: 2568
: Aufm Friedhof.


: 11.03.2009, 16:05    : Re: Crawler Yahoo/Google max httpd connections ? Antworten mit Zitat

seonewbie hat Folgendes geschrieben:
mit wievielen connections
(httpd-Prozesse) kommen der Googlebot oder Slurp gleichzeitig?

Mit einem. Beide unterstützen zudem HTTP-Kompression und HEAD-Abfragen.
Nach oben
Mork vom Ork Private Nachricht senden
seonewbie

pr


: 21.10.2006
: 1787



: 11.03.2009, 16:28    : Apache Server Status - Slurp Antworten mit Zitat

Hallo Mork vom Ork,

kennst Du das Tool Apache Server Status?
http://httpd.apache.org/docs/2.0/mod/mod_status.html

Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL Datenbank der Google crawlt das ohne Probleme.

Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?

Vielen Dank für Deine Hilfe.

Gruß

Micha

Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"
Nach oben
seonewbie Private Nachricht senden
Mork vom Ork

pr


: 08.07.2008
: 2568
: Aufm Friedhof.


: 11.03.2009, 19:05    : Re: Apache Server Status - Slurp Antworten mit Zitat

seonewbie hat Folgendes geschrieben:
Da habe ich den Slurp unter einer IP bis zu 10 mal.
Google hingegen nicht. Bei SLurp zerreist es mir fast
die SQL-Datenbank

Also wenn wegen 10 gleichzeitiger Anfragen dein Server in die Knie geht, hast du ein massives Problem mit dem Server, nicht mit Slurp. Du solltest prüfen, ob dein Umgang mit der Datenbank in der derzeitigen Form richtig ist.

Ich habe nochmal meine Protokolle durchgeschaut: Slurp benimmt sich hier ganz friedlich.
Code:
+-------+---------------------+--------+---------+
| host  | time                | status | deflate |
+-------+---------------------+--------+---------+
| 18966 | 2009-03-01 00:18:35 |    304 |    NULL |
| 18966 | 2009-03-01 00:32:14 |    200 |      36 |
| 18966 | 2009-03-01 00:43:58 |    200 |      42 |
| 18966 | 2009-03-01 00:46:30 |    304 |    NULL |
| 51890 | 2009-03-01 00:49:04 |    200 |      27 |
| 18966 | 2009-03-01 00:50:22 |    200 |      42 |
| 17189 | 2009-03-01 00:50:49 |    304 |    NULL |
| 18966 | 2009-03-01 00:59:36 |    200 |      40 |
| 18966 | 2009-03-01 01:13:36 |    200 |      39 |
| 17189 | 2009-03-01 01:42:08 |    200 |      41 |
| 18966 | 2009-03-01 01:53:53 |    200 |      45 |
| 17189 | 2009-03-01 01:56:41 |    200 |      20 |
| 18966 | 2009-03-01 02:05:11 |    200 |      35 |
| 17189 | 2009-03-01 02:05:24 |    200 |      33 |
| 18966 | 2009-03-01 02:08:27 |    304 |    NULL |
| 17189 | 2009-03-01 02:44:55 |    200 |      37 |
| 17189 | 2009-03-01 02:57:36 |    200 |      35 |
| 17189 | 2009-03-01 02:59:54 |    200 |      38 |
| 18966 | 2009-03-01 03:10:02 |    200 |      35 |
| 17189 | 2009-03-01 03:17:03 |    304 |    NULL |
| 17189 | 2009-03-01 03:30:50 |    200 |      42 |
| 18966 | 2009-03-01 03:38:52 |    200 |      43 |
| 18966 | 2009-03-01 03:41:36 |    304 |    NULL |
| 17189 | 2009-03-01 03:49:30 |    200 |      31 |
| 17189 | 2009-03-01 03:53:15 |    200 |      43 |
| 17189 | 2009-03-01 03:57:36 |    304 |    NULL |

Wie du siehst, schön über mehrere Stunden verteilt, vieles kann ich schnell mit 304 erledigen („hat sich seit letztem Besuch nicht geändert“ - ist natürlich recht seitenspezifisch) und ansonsten auf gut ein Drittel geschrumpft übermitteln.
Die einzigen Fälle, in denen er zwei Anfragen direkt in derselben Sekunde hintereinander startet, sind Weiterleitungen. Aber selbst da legt er dann und wann bis zu einer halben Minute Pause ein.

:
kennst Du das Tool Apache Server Status?

Achte bei der Ausgabe von mod_status darauf, in welchem Zustand sich eine Anfrage befindet. K und _ sind nicht aktiv, sondern warten auf die Gegenstelle (K) bzw. auf eine gänzlich neue Verbindung (_). Vielleicht weißt du das ja schon, aber auf den ersten Blick ist das leicht zu übersehen, weil in den restlichen Spalten, namentlich IP und URL, Werte von Anfragen angezeigt werden, die schon längst abgearbeitet sind.

:
Muss ich dem Slurp vielleicht in der robot.txt irgend etwas
mitteilen das er sich "besser benimmt"?

Grundsätzlich nicht, aber wie auf der Slurp-Seite zu lesen ist, kennt der Bot eine Option namens Crawl-delay.

Solche Infos findest du übrigens ganz leicht, indem du der URL folgst, die jeder ordentliche Bot in deinem Zugriffsprotokoll hinterlässt; bei Slurp wäre das „Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)“.
Nach oben
Mork vom Ork Private Nachricht senden
seonewbie

pr


: 21.10.2006
: 1787



: 11.03.2009, 19:47    : K und _ sind nicht aktiv Antworten mit Zitat

@Mork vom Ork
Vielen Dank für deine Antwort.
Und ja die Konfiguration ist schlecht gewesen und es war auch das
ich den Apache Status falsch interprätiert hatte genau wie Du es
beschrieben hast. Übersieht man wirklich leicht. Komisch ist nur
das er obwohl ich KeepAlive Off habe die Prozesse noch zeigt
aber auf jeden Fall fressen die keine Resourcen.


Hintergrund der Frage war übrigens folgender. Eine grosse DB
mit wenigen zugriffen. Hier muß man das Kind halt von hinten
aufzäumen und scheinbar erst mal schauen wieviel RAM braucht
MySQL um optimal zu laufen und den Rest gibt man dann dem
Apache ... halt genau andersherum wie man es sonst macht.

Ist zwar mühsamer aber ging nach mehreren Anläufen und
deinem Tip dann auch ... wirkt nur komisch wenn man
max-connection lediglich auf 25 hat aber läuft wie die Wutz
und mehr wird der Server auch nie an gleichzeitigen zugriffen
haben.

Vielen Dank für deine Hilfe

Suche Linktausch zum Thema Mode. Bitte PM
Backlink-Generator | Artikelverzeichnis | PageRank | SEnuke X
Don't smoke, don't fight, don't light no cigarettes,
Or else you'll wind up in the can!
No jokes, no rights, sit tight, don't fool around,
You are a guest of Uncle Sam!
AC/DC "I'll be damned"
Nach oben
seonewbie Private Nachricht senden
Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen
Seite 1 von 1

 






Ähnliche Beiträge
Thema Forum Antworten
Wieviele interne Links crawlt Google standardmäßig? Wieviele interne Links crawlt Google ... backfiller Ich hab' da mal 'ne Frage 2 24.05.2012, 16:49 Wieviele interne Links crawlt Google standardmäßig?
Google findet meine Startseite nicht mehr - DNS Fehler Google findet meine Startseite nicht ... derHorst Google Forum 1 24.05.2012, 10:03 Google findet meine Startseite nicht mehr - DNS Fehler
Wo finde ich bei den Google Webmaster Tools das Ranking? Wo finde ich bei den Google Webmaster... Zatkiel Ich hab' da mal 'ne Frage 4 23.05.2012, 22:24 Wo finde ich bei den Google Webmaster Tools das Ranking?
Wie am besten verdient man mit Amazon Partnernet über Google Wie am besten verdient man mit Amazon... Telegat Partnerprogramme 6 22.05.2012, 20:22 Wie am besten verdient man mit Amazon Partnernet über Google
Nischenshop in Google Merchants eintragen? Nischenshop in Google Merchants eintr... Casi Ich hab' da mal 'ne Frage 1 22.05.2012, 15:07 Nischenshop in Google Merchants eintragen?
ebay Partnernetwork und Google AdWords ebay Partnernetwork und Google AdWords optimizers Partnerprogramme 0 22.05.2012, 13:59 ebay Partnernetwork und Google AdWords
Google WMT Warnung Google WMT Warnung nightfishing Google Forum 2 21.05.2012, 23:50 Google WMT Warnung

Suchmaschinenoptimierung | Latent Semantische Optimierung (LSO) | SEO Blog | SEO Online Tools | Suchmaschinenmarketing Angebot | Online Marketing

Impressum

Dieses SEO Forum läuft unter phpBB.


Sie lesen gerade: Crawler Yahoo/Google max httpd connections ?