Endloses Crawling auf Grund von Paginations
Verfasst: 04.12.2015, 08:00
Hallo zusammen,
wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.
Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.
Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).
Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?
Vielen Dank!
wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.
Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.
Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).
Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?
Vielen Dank!