Seite 4 von 5
Re: Spider Software
Verfasst: 07.12.2019, 15:42
von /Affilitiv/
Nachfolgendes Rendering .... wenn das nötig wäre hätten wir einen Spider der Augen hat, SPider sind aber Scripte und die haben keine Augen
Meister Meister, warum geht mein Auto jede Woche kaputt? das liegt sicher an deiner Tapete in der Garage (das Auto ist depresif)
supervisior hat geschrieben: ↑05.12.2019, 05:55
staticweb hat geschrieben: ↑04.12.2019, 14:15
Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.
Hier muss nix und vor allem nicht nachfolgend gerendert werden.
Es geht um die nackten Rohdaten,
Es geht doch darum, ob ein SPider Lesen kann?
Wenn Daten erst per Ajax kommen, dann kann ein SPider der kein JS kann nichts lesen
Re: Spider Software
Verfasst: 07.12.2019, 23:08
von Hanzo2012
So ist es! Bei Seiten wie z. B. Facebook sieht ein Bot, der kein JavaScript kann, überhaupt keine Daten, auch keine Rohdaten. Die werden erst dynamisch über Ajax reingeladen, und das über URLs, die nicht direkt im Quelltext stehen, sondern ebenfalls über JavaScript erzeugt werden. Ohne selbst JavaScript auszuführen ist da absolut nix zu holen.
Re: Spider Software
Verfasst: 08.12.2019, 09:20
von staticweb
> So ist es! Bei Seiten wie z. B. Facebook sieht ein Bot, der kein JavaScript kann, überhaupt keine Daten, auch keine Rohdaten.
Endlich mal jemand der es begriffen hat.
Es gibt aber auch Seiten wo der Quelltext auch ohne JS kommt, und nur einzelne Bereiche über JS beim rendern verändert werden.
Re: Spider Software
Verfasst: 08.12.2019, 12:52
von supervisior
Nur mal als Anmerkung an die beiden letzten Intelligenzbolzen, Ihr beiden redet komplett am Thema des Themenstarters vorbei. Bezogen auf einen Bot im tatsächlichen Sinne habt ihr beide wohl recht, aber bei diesem Thema geht es nicht um Bots, sondern um ein Stück Software mit der man Daten von einer Seite "entnehmen" im Sinne von "scrapen" kann. Das sind 2 paar verschiedene Schuhe und das Eine hat mit dem Anderen nix zu tun. Gleichermaßen Schnurzpiepegal ist es, ob da die Daten oder Links im Quelltext stehen oder nicht. Solange etwas im Browser zu sehen ist, kann man diesen Content mit der besagten Software auch abgreifen.
Re: Spider Software
Verfasst: 08.12.2019, 15:00
von /Affilitiv/
supervisior hat geschrieben: ↑08.12.2019, 12:52
Ihr beiden redet komplett am Thema des Themenstarters vorbei.
Bezogen auf einen Bot im tatsächlichen Sinne habt ihr beide wohl recht, aber bei diesem Thema geht es nicht um Bots, sondern um ein Stück Software mit der man Daten von einer Seite "entnehmen" im Sinne von "scrapen" kann. Das sind 2 paar verschiedene Schuhe
ob Bot oder Scraper (ein Bot oder Spider ist ein Scraper ... oder woher hat Google die SeitenCanches)
on Bot oder Scraper ist egal ... beide können nur lesen was da ist, bzw können nur lesen was sie "Fremdsprache" (also JS im HTML) können
und ein konkretes Scraper Problem (also kein "ich spiel mal Google und hab nen Spider Problem)
hatte letztens versucht vom REWE den Preis für die Butter auszulesen ... in der Webseite sah ich 1.79 (da war gerade angebot) und im Quellcode (da suchte ich das HTMLzeugs ausenrum um zu wiseen wo ich mit Strpos und substr und so weiter den Preis rauslesen kann) dort stand der Normalpreis .... ich wollt aber den Angebotspreis lesen und den konnte ich auch auf der Webseite lesen .... hab da hoch und runter geschaut und der Angebotspreis fand sich im Quellcode nicht (und meinem kleinen Preiseklauer werd ich da jetzt nicht extra JavaScript beibringen)