Online Marketing Forum Deutschland
 
ABAKUS Online Marketing Forum
Suchmaschinenoptimierung
+ABAKUS
ABAKUS bei Google+
Facebook
ABAKUS bei Facebook
Google+ SEO Community von ABAKUS
Google+
SEO Community

   

ABAKUS Foren-Übersicht -> Spiders / Robots Themen
 

Endloses Crawling auf Grund von Paginations

Neues Thema eröffnen   Neue Antwort erstellen
 Externe Links auf Seiten, deren Canonical anders ist Seltsame Zugriffe: Besucher verhalten sich wie Bots?  
SabrinaGeifert

pr


: 04.12.2015
: 3



: 04.12.2015, 09:00    : Endloses Crawling auf Grund von Paginations
Von: SabrinaGeifert
SabrinaGeifert
00 04.12.2015, 09:00
Antworten mit Zitat Antworten mit Zitat

Hallo zusammen,

wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.

Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.

Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?

Vielen Dank!
00
Nach oben
SabrinaGeifert Private Nachricht senden
ABAKUS


: Werbung 

Suchmaschinenoptimierung für PrestaShop

Erfolgreiche und optimale Nutzung mit PrestaShop Systemen!
Nutzen Sie unsere jahrelange Erfahrung mit Suchmaschinenoptimierung und lassen Sie sich beraten!


Informieren Sie sich über die wichtigsten PrestaShop-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0.

/Affilitiv/

pr


: 11.08.2015
: 436



: 04.12.2015, 14:39    : Re: Endloses Crawling auf Grund von Paginations
Von: /Affilitiv/
/Affilitiv/
00 04.12.2015, 14:39
Antworten mit Zitat Antworten mit Zitat

SabrinaGeifert hat Folgendes geschrieben:
Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt,

Das Probl hab ich auch; ich scanne gelegentlich die SHopListe von Elmar um "neue" zu finden ....
... es gibt kein Ende; Seite 46 ist glaub die letzte; danach kommt "immer" Seite 1 als Ergebniss

Lösung hier: ich weiss wie weit es geht = letzte Seite 47
Lösung 2; größe von Seite 1 Speichern (oder besser inhalte) und vergleichen .... erkennen das wieder "alte" Seite kommt



SabrinaGeifert hat Folgendes geschrieben:
oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

sind die Parameter auch noch in unterschiedlicher Reihenfolge?
um dieses zumindest zu verhindern; URL zerlegen und Parameter neu anordnen; so das eben

?farbe=rot&größe=123
?größe=123&farbe=rot

damit die niemals beide gelesen werden sondern immer nur eine Version

Affilitiv/ATP „Affiliate Trainee Programm“
00
Nach oben
/Affilitiv/ Private Nachricht senden WWW
nerd

pr


: 15.02.2005
: 3825



: 05.12.2015, 01:50    : Re: Endloses Crawling auf Grund von Paginations
Von: nerd
nerd
00 05.12.2015, 01:50
Antworten mit Zitat Antworten mit Zitat

SabrinaGeifert hat Folgendes geschrieben:
Hallo zusammen,

wir programmieren zur Zeit einen Webspider, um bestimmte Aspekte im Bereich des HTML-Codes zu untersuchen.

Was will uns dieser satz sagen? "bestimmte Aspekte im Bereich des HTML-Codes". Ja, als ich das letzte mal nachgeschaut habe, haben webserver auch nie was anderes als HTML code geliefert...

SabrinaGeifert hat Folgendes geschrieben:

Hierzu durchsuchen wir ausgehend von einer Stamm-URL alle verlinkten Webseiten rekursiv.

Das Problem unseres Webspiders ist es, dass es teilweise Webseiten gibt, die endlos viele URLs generieren (z.B. durch Paginations, deren Next-Button sich immer aus einem incremierten Get-Parameter ergibt, oder durch Kategorie/Filter-Links in Produktansichten von Webshops).

Habt ihr eine schlaue Idee, wie man so etwas umgehen könnte, bzw. sinnvoll handhaben kann?

Vielen Dank!

Ja! Den webshop fragen, ob er euch eine produktliste als xml, csv, json oder sonstwas zur verfuegung stellt. Robots.txt, nofollow und sitemap des seitenbetreibers beachten die solche stolperfallen eventuell ausschliessen!
HTML ist kein format was nach daten durchsuchte werden will, sondern diehnt nur der darstellung im browser. Wenn du daten austauschen will dann benutze ein geeignetes format.

Abgesehen davon verbringen eine menge webmaster zehr viel zeit damit genau solche bots zu bannen, muell zu fuettern oder bei ihrem provider anzuzeigen eben weil sie nur bandbreite verbrauchen, die stats verschmutzen aber garantiert nie was kaufen wie man auch hier regelmaessig wieder liest...

Ich hab das mal im Internet gelesen!


Zuletzt bearbeitet von nerd am 08.12.2015, 03:44, insgesamt einmal bearbeitet
00
Nach oben
nerd Private Nachricht senden
ABAKUS


: Werbung 

Suchmaschinenoptimierung für PrestaShop

Erfolgreiche und optimale Nutzung mit PrestaShop Systemen!
Nutzen Sie unsere jahrelange Erfahrung mit Suchmaschinenoptimierung und lassen Sie sich beraten!


Informieren Sie sich über die wichtigsten PrestaShop-Optimierungsmaßnahmen oder kontaktieren Sie uns direkt unter: 0511 / 300325-0.

SabrinaGeifert

pr


: 04.12.2015
: 3



: 07.12.2015, 10:46    : Endloses Crawling auf Grund von Paginations
Von: SabrinaGeifert
SabrinaGeifert
00 07.12.2015, 10:46
Antworten mit Zitat Antworten mit Zitat

Es handelt sich leider nicht nur um Onlineshops, sondern ich habe das nur als Beispiel gebracht.

Generell werden verschiedene OnPage-Aspekte untersucht (z.B. die Länge des Titels, etc.)

Der Vergleich des HTML-Codes ist ein Ansatz, problematisch wird es da nur, dass es ja auch Seiten gibt, die den gleichen Code haben (z.B. wenn eine Webseite unter 2 URLs erreichbar ist).
00
Nach oben
SabrinaGeifert Private Nachricht senden
nerd

pr


: 15.02.2005
: 3825



: 08.12.2015, 03:43    : Endloses Crawling auf Grund von Paginations
Von: nerd
nerd
00 08.12.2015, 03:43
Antworten mit Zitat Antworten mit Zitat

Ich bin mir extrem sicher dass es solche seo tools und scraper schon auf dem markt gibt die diese werte sammeln, auswerten und gegen gebuehr bereitstellen - warum willst du dein eigenes bauen?

Ich hab das mal im Internet gelesen!
00
Nach oben
nerd Private Nachricht senden
Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen

Seite 1 von 1
 





Ähnliche Beiträge
Thema Online Marketing Forum Antworten
Keyword fällt stetig - Grund nicht erkennbar Keyword fällt stetig - Grund nicht er... Marenina84 Google Pagerank und Backlink-Forum 21 30.01.2018, 10:41 Keyword fällt stetig - Grund nicht erkennbar
Seite praktisch aus Index raus - Was könnte der Grund sein? Seite praktisch aus Index raus - Was ... arnego2 Google Forum 24 15.12.2017, 14:14 Seite praktisch aus Index raus - Was könnte der Grund sein?
search console > crawling abrufen und rendern search console > crawling abrufen ... K7000 SEO Tools & Suchmaschinenmarketing-Tools 5 20.10.2017, 11:54 search console > crawling abrufen und rendern
Google Search Console / Crawling / Crawling-Fehler Google Search Console / Crawling / Cr... dark_rider Google Forum 0 02.09.2017, 09:29 Google Search Console / Crawling / Crawling-Fehler
Crawling von dynamisch generierten Suchseiten Crawling von dynamisch generierten Su... Kakaro Ich hab' da mal 'ne Frage 30 19.05.2016, 22:22 Crawling von dynamisch generierten Suchseiten
Google-Webmaster-Tools meldet 4000(!!) Crawling-Fehler (503) Google-Webmaster-Tools meldet 4000(!!... GeneralError Ich hab' da mal 'ne Frage 2 06.05.2016, 15:37 Google-Webmaster-Tools meldet 4000(!!) Crawling-Fehler (503)
Webmaster Tools Crawling Fehler Webmaster Tools Crawling Fehler Abbas1 Ich hab' da mal 'ne Frage 0 30.04.2016, 16:48 Webmaster Tools Crawling Fehler


SEO Wetter von www.seowetter.de

Startseite der SEO-Agentur ABAKUS | Social Media & SEO Blog | SEO Online Tools | Suchmaschinenmarketing Angebot | Reif für die Klinik?

Impressum | Datenschutz

Endloses Crawling auf Grund von Paginations Endloses Crawling auf Grund von Paginations - Österreich Endloses Crawling auf Grund von Paginations - Schweiz

Dieses SEO Forum läuft unter phpBB.


Sie lesen gerade: Endloses Crawling auf Grund von Paginations