Herzlich willkommen im SEO Forum der ABAKUS Internet Marketing GmbH
registrieren registriertes Mitglied
Das Probl hab ich auch; ich scanne gelegentlich die SHopListe von Elmar um "neue" zu finden ....SabrinaGeifert hat geschrieben: Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt,
sind die Parameter auch noch in unterschiedlicher Reihenfolge?SabrinaGeifert hat geschrieben:oder durch Kategorie/Filter-Links in Produktansichten von Webshops).
Was will uns dieser satz sagen? "bestimmte Aspekte im Bereich des HTML-Codes". Ja, als ich das letzte mal nachgeschaut habe, haben webserver auch nie was anderes als HTML code geliefert...SabrinaGeifert hat geschrieben:Hallo zusammen,
wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.
Ja! Den webshop fragen, ob er euch eine produktliste als xml, csv, json oder sonstwas zur verfuegung stellt. Robots.txt, nofollow und sitemap des seitenbetreibers beachten die solche stolperfallen eventuell ausschliessen!SabrinaGeifert hat geschrieben: Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.
Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).
Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?
Vielen Dank!