|
|
3DCG

: 22.01.2006 : 545 : FFM
|
| : 13.02.2010, 18:58 : www oder ohne www abspidern / crawlen |
|
|
Hallo,
tuen crawler / spider die domains eher mit www oder ohne www abspidern. D.h wenn ich einen crawler / spider baue sollte der nur domain.tld oder www.domain.tld besuchen (oder beides)?
DANKE
. |
|
| Nach oben |
|
 |
methusalem

: 26.01.2009 : 135 : Hamburg
|
| : 13.02.2010, 19:44 : www oder ohne www abspidern / crawlen |
|
|
| Mach doch vorher ne Abfrage über die Yahoo-API oder sowas und schau, wie das erste BL-Ergebnis indiziert ist. Gibt bestimmt aber auch einfachere Wege, wenn man das unbedingt unterscheiden muss. |
|
| Nach oben |
|
 |
3DCG

: 22.01.2006 : 545 : FFM
|
| : 13.02.2010, 20:34 : www oder ohne www abspidern / crawlen |
|
|
Nun ich hab schon Domains erlebt da kamen unterschiedliche "Seite" je nachdem ob man www.domain.tld oder domain.tld aufgerufen hat.
. |
|
| Nach oben |
|
 |
methusalem

: 26.01.2009 : 135 : Hamburg
|
| : 13.02.2010, 20:39 : www oder ohne www abspidern / crawlen |
|
|
| ist halt die Frage, ob Dein Spider 100% zutreffende Ergebnisse braucht und somit jeden Sonderfall berücksichtigen muss. Oft kann man ja ne gewisse Fehlerquote tolerieren, solange sie nicht systematisch ist. Z.B. musst Du ja auch irgendeinen timeout-Wert festlegen, ab dem der Crawler die Biege macht usw... |
|
| Nach oben |
|
 |
3DCG

: 22.01.2006 : 545 : FFM
|
| : 13.02.2010, 21:09 : www oder ohne www abspidern / crawlen |
|
|
Okay - anders gefragt (leider funktioniert die Suche hier da irgenwie nicht) was ist Best Practice: mit www oder ohne www
Oder mit Shakespeare: To www or not to www
. |
|
| Nach oben |
|
 |
methusalem

: 26.01.2009 : 135 : Hamburg
|
| : 13.02.2010, 21:12 : www oder ohne www abspidern / crawlen |
|
|
| Um Dich vollends in Verzweiflung zu stürzen: Was machst Du denn mit den gar nicht mal so unüblichen Subdomains? |
|
| Nach oben |
|
 |
800XE


: 02.12.2004 : 5121 : XENEVU
|
| : 14.02.2010, 03:38 : www oder ohne www abspidern / crawlen |
|
|
| 3DCG hat Folgendes geschrieben: |
Okay - anders gefragt (leider funktioniert die Suche hier da irgenwie nicht) was ist Best Practice: mit www oder ohne www
Oder mit Shakespeare: To www or not to www . |
look like any link you found
oder uf Westerwällisch
spider das was du gefunden hast
den das was als Link gefunden wurde dürfte auch existieren
oder was willst du SPieder?
Andy-hat-keinen-Kaffee-mehr.de?
| 3DCG hat Folgendes geschrieben: |
To www or not to www . |
Do you see the Apple(ähm different)?
http://mit-oder-ohne.de
www.mit-oder-ohne.de
aber nur ... /Affilitiv/ ... innovativ |
|
| Nach oben |
|
 |
net(t)worker Gast
|
| : 14.02.2010, 03:48 : Re: www oder ohne www abspidern / crawlen |
|
|
| 3DCG hat Folgendes geschrieben: |
| tuen crawler / spider die domains eher mit www oder ohne www abspidern. D.h wenn ich einen crawler / spider baue sollte der nur domain.tld oder www.domain.tld besuchen (oder beides)? |
beides.... eben weil es eben unterschiedliche URLs sind... das eine ist die domain selber und das andere eine subdomain.... auch wenn sie meistens den gleichen Inhalt anzeigen muss dies nicht immer so sein... |
|
| Nach oben |
|
 |
vipa

: 08.01.2010 : 161
|
| : 14.02.2010, 03:51 : www oder ohne www abspidern / crawlen |
|
|
aus erfahrung sag ich, nimm die mit "www"... ohne "www" ist ganz oft nicht erreichbar... schau dir selbst das "handelsregister.de" an ...
besser wär natürlich erstmal ohne www, checken und falls es nicht geht mit www und das dann vermerken... |
|
| Nach oben |
|
 |
net(t)worker Gast
|
| : 14.02.2010, 05:51 : www oder ohne www abspidern / crawlen |
|
|
| vipa hat Folgendes geschrieben: |
| besser wär natürlich erstmal ohne www, checken und falls es nicht geht mit www und das dann vermerken... |
axo... und wenn die gefundenen webseiten dann unterschiedlich sind? wie gesagt, es sind 2 unterschiedliche adressen, können also auch unterschiedlichen Inhalt haben....  |
|
| Nach oben |
|
 |
vipa

: 08.01.2010 : 161
|
| : 14.02.2010, 06:19 : www oder ohne www abspidern / crawlen |
|
|
| promillebereich... also für die normalen anwendungszwecke irrelevant. |
|
| Nach oben |
|
 |
3DCG

: 22.01.2006 : 545 : FFM
|
| : 14.02.2010, 10:02 : www oder ohne www abspidern / crawlen |
|
|
| methusalem hat Folgendes geschrieben: |
| Um Dich vollends in Verzweiflung zu stürzen: Was machst Du denn mit den gar nicht mal so unüblichen Subdomains? |
spidern - aber die Listen die ich habe enthalten meist nur die Domain (also keine Info über subdomains www. oder my. oder wasauchimmer.)
Es geht mir um den initialen seed
. |
|
| Nach oben |
|
 |