Seite 1 von 1

Endloses Crawling auf Grund von Paginations

Verfasst: 04.12.2015, 08:00
von SabrinaGeifert
Hallo zusammen,

wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.

Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.

Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?

Vielen Dank!

Verfasst:
von

Re: Endloses Crawling auf Grund von Paginations

Verfasst: 04.12.2015, 13:39
von /Affilitiv/
SabrinaGeifert hat geschrieben: Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt,
Das Probl hab ich auch; ich scanne gelegentlich die SHopListe von Elmar um "neue" zu finden ....
... es gibt kein Ende; Seite 46 ist glaub die letzte; danach kommt "immer" Seite 1 als Ergebniss

Lösung hier: ich weiss wie weit es geht = letzte Seite 47
Lösung 2; größe von Seite 1 Speichern (oder besser inhalte) und vergleichen .... erkennen das wieder "alte" Seite kommt


SabrinaGeifert hat geschrieben:oder durch Kategorie/Filter-Links in Produktansichten von Webshops).
sind die Parameter auch noch in unterschiedlicher Reihenfolge?
um dieses zumindest zu verhindern; URL zerlegen und Parameter neu anordnen; so das eben

?farbe=rot&größe=123
?größe=123&farbe=rot

damit die niemals beide gelesen werden sondern immer nur eine Version

Re: Endloses Crawling auf Grund von Paginations

Verfasst: 05.12.2015, 00:50
von nerd
SabrinaGeifert hat geschrieben:Hallo zusammen,

wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.
Was will uns dieser satz sagen? "bestimmte Aspekte im Bereich des HTML-Codes". Ja, als ich das letzte mal nachgeschaut habe, haben webserver auch nie was anderes als HTML code geliefert...
SabrinaGeifert hat geschrieben: Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.

Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?

Vielen Dank!
Ja! Den webshop fragen, ob er euch eine produktliste als xml, csv, json oder sonstwas zur verfuegung stellt. Robots.txt, nofollow und sitemap des seitenbetreibers beachten die solche stolperfallen eventuell ausschliessen!
HTML ist kein format was nach daten durchsuchte werden will, sondern diehnt nur der darstellung im browser. Wenn du daten austauschen will dann benutze ein geeignetes format.

Abgesehen davon verbringen eine menge webmaster zehr viel zeit damit genau solche bots zu bannen, muell zu fuettern oder bei ihrem provider anzuzeigen eben weil sie nur bandbreite verbrauchen, die stats verschmutzen aber garantiert nie was kaufen wie man auch hier regelmaessig wieder liest...

Verfasst: 07.12.2015, 09:46
von SabrinaGeifert
Es handelt sich leider nicht nur um Onlineshops, sondern ich habe das nur als Beispiel gebracht.

Generell werden verschiedene OnPage-Aspekte untersucht (z.B. die Länge des Titels, etc.)

Der Vergleich des HTML-Codes ist ein Ansatz, problematisch wird es da nur, dass es ja auch Seiten gibt, die den gleichen Code haben (z.B. wenn eine Webseite unter 2 URLs erreichbar ist).

Verfasst: 08.12.2015, 02:43
von nerd
Ich bin mir extrem sicher dass es solche seo tools und scraper schon auf dem markt gibt die diese werte sammeln, auswerten und gegen gebuehr bereitstellen - warum willst du dein eigenes bauen?