registrieren registriertes Mitglied


Anzeige

Anzeige

Endloses Crawling auf Grund von Paginations

Alles zu Domain-Umzug, Weiterleitungen und Robots diskutiert Ihr hier.
SabrinaGeifert
PostRank 1
PostRank 1
Beiträge: 3
Registriert: 04.12.2015, 07:55

Beitrag SabrinaGeifert » 04.12.2015, 08:00 Endloses Crawling auf Grund von Paginations

Hallo zusammen,

wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.

Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.

Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?

Vielen Dank!

Anzeige von: