Seite 4 von 5

Re: Spider Software

Verfasst: 07.12.2019, 15:42
von /Affilitiv/
Nachfolgendes Rendering .... wenn das nötig wäre hätten wir einen Spider der Augen hat, SPider sind aber Scripte und die haben keine Augen


Meister Meister, warum geht mein Auto jede Woche kaputt? das liegt sicher an deiner Tapete in der Garage (das Auto ist depresif) :lol:
supervisior hat geschrieben: 05.12.2019, 05:55
staticweb hat geschrieben: 04.12.2019, 14:15 Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.
Hier muss nix und vor allem nicht nachfolgend gerendert werden.

Es geht um die nackten Rohdaten,
Es geht doch darum, ob ein SPider Lesen kann?

Wenn Daten erst per Ajax kommen, dann kann ein SPider der kein JS kann nichts lesen

Verfasst:
von

Re: Spider Software

Verfasst: 07.12.2019, 23:08
von Hanzo2012
So ist es! Bei Seiten wie z. B. Facebook sieht ein Bot, der kein JavaScript kann, überhaupt keine Daten, auch keine Rohdaten. Die werden erst dynamisch über Ajax reingeladen, und das über URLs, die nicht direkt im Quelltext stehen, sondern ebenfalls über JavaScript erzeugt werden. Ohne selbst JavaScript auszuführen ist da absolut nix zu holen.

Re: Spider Software

Verfasst: 08.12.2019, 09:20
von staticweb
> So ist es! Bei Seiten wie z. B. Facebook sieht ein Bot, der kein JavaScript kann, überhaupt keine Daten, auch keine Rohdaten.

Endlich mal jemand der es begriffen hat.

Es gibt aber auch Seiten wo der Quelltext auch ohne JS kommt, und nur einzelne Bereiche über JS beim rendern verändert werden.

Re: Spider Software

Verfasst: 08.12.2019, 12:52
von supervisior
Nur mal als Anmerkung an die beiden letzten Intelligenzbolzen, Ihr beiden redet komplett am Thema des Themenstarters vorbei. Bezogen auf einen Bot im tatsächlichen Sinne habt ihr beide wohl recht, aber bei diesem Thema geht es nicht um Bots, sondern um ein Stück Software mit der man Daten von einer Seite "entnehmen" im Sinne von "scrapen" kann. Das sind 2 paar verschiedene Schuhe und das Eine hat mit dem Anderen nix zu tun. Gleichermaßen Schnurzpiepegal ist es, ob da die Daten oder Links im Quelltext stehen oder nicht. Solange etwas im Browser zu sehen ist, kann man diesen Content mit der besagten Software auch abgreifen.

Re: Spider Software

Verfasst: 08.12.2019, 15:00
von /Affilitiv/
supervisior hat geschrieben: 08.12.2019, 12:52 Ihr beiden redet komplett am Thema des Themenstarters vorbei.

Bezogen auf einen Bot im tatsächlichen Sinne habt ihr beide wohl recht, aber bei diesem Thema geht es nicht um Bots, sondern um ein Stück Software mit der man Daten von einer Seite "entnehmen" im Sinne von "scrapen" kann. Das sind 2 paar verschiedene Schuhe
ob Bot oder Scraper (ein Bot oder Spider ist ein Scraper ... oder woher hat Google die SeitenCanches)
on Bot oder Scraper ist egal ... beide können nur lesen was da ist, bzw können nur lesen was sie "Fremdsprache" (also JS im HTML) können

und ein konkretes Scraper Problem (also kein "ich spiel mal Google und hab nen Spider Problem)
hatte letztens versucht vom REWE den Preis für die Butter auszulesen ... in der Webseite sah ich 1.79 (da war gerade angebot) und im Quellcode (da suchte ich das HTMLzeugs ausenrum um zu wiseen wo ich mit Strpos und substr und so weiter den Preis rauslesen kann) dort stand der Normalpreis .... ich wollt aber den Angebotspreis lesen und den konnte ich auch auf der Webseite lesen .... hab da hoch und runter geschaut und der Angebotspreis fand sich im Quellcode nicht (und meinem kleinen Preiseklauer werd ich da jetzt nicht extra JavaScript beibringen)

Verfasst:
von

Re: Spider Software

Verfasst: 08.12.2019, 15:58
von hanneswobus
Hanzo2012 hat geschrieben: 07.12.2019, 23:08 So ist es! Bei Seiten wie z. B. Facebook sieht ein Bot, der kein JavaScript kann, überhaupt keine Daten, auch keine Rohdaten. Die werden erst dynamisch über Ajax reingeladen, und das über URLs, die nicht direkt im Quelltext stehen, sondern ebenfalls über JavaScript erzeugt werden. Ohne selbst JavaScript auszuführen ist da absolut nix zu holen.
Lässt sich umgehen, indem man menschliches Verhalten simuliert. Das geht eigentlich recht entspannt.

Re: Spider Software

Verfasst: 08.12.2019, 15:59
von hanneswobus
supervisior hat geschrieben: 08.12.2019, 12:52 Nur mal als Anmerkung an die beiden letzten Intelligenzbolzen, Ihr beiden redet komplett am Thema des Themenstarters vorbei. Bezogen auf einen Bot im tatsächlichen Sinne habt ihr beide wohl recht, aber bei diesem Thema geht es nicht um Bots, sondern um ein Stück Software mit der man Daten von einer Seite "entnehmen" im Sinne von "scrapen" kann. Das sind 2 paar verschiedene Schuhe und das Eine hat mit dem Anderen nix zu tun. Gleichermaßen Schnurzpiepegal ist es, ob da die Daten oder Links im Quelltext stehen oder nicht. Solange etwas im Browser zu sehen ist, kann man diesen Content mit der besagten Software auch abgreifen.
Korrekt u. den Rest löst man über automatisierte Forenbedienung, URL-Parameter.

Btw.
Über was diskutiert man hier eigentlich? ^^

Re: Spider Software

Verfasst: 08.12.2019, 16:37
von supervisior
/Affilitiv/ hat geschrieben: 08.12.2019, 15:00 ob Bot oder Scraper (ein Bot oder Spider ist ein Scraper ... oder woher hat Google die SeitenCanches)
on Bot oder Scraper ist egal ... beide können nur lesen was da ist, bzw können nur lesen was sie "Fremdsprache" (also JS im HTML) können
Negativ! Ein "Scraper" oder auch "Webscraper" ist ein feststehender Begriff und hat noch nicht mal ansatzweise was mit einem Bot oder einem Crawler zu tun.

Re: Spider Software

Verfasst: 08.12.2019, 16:39
von supervisior
hanneswobus hat geschrieben: 08.12.2019, 15:58 Lässt sich umgehen, indem man menschliches Verhalten simuliert. Das geht eigentlich recht entspannt.
Da muss man nix umgehen oder etwas simulieren. Für die besagte Aufgabe gibt es fertige Software, die sich sogar als Plugin in den Browser installieren lassen.

Re: Spider Software

Verfasst: 08.12.2019, 16:40
von supervisior
hanneswobus hat geschrieben: 08.12.2019, 15:59 Btw.
Über was diskutiert man hier eigentlich? ^^
Warum redest Du eigentlich mit, wenn Du dem Vernehmen nach nicht weißt worüber hier diskutiert wird?!

Re: Spider Software

Verfasst: 08.12.2019, 16:43
von hanneswobus
supervisior hat geschrieben: 08.12.2019, 16:39
hanneswobus hat geschrieben: 08.12.2019, 15:58 Lässt sich umgehen, indem man menschliches Verhalten simuliert. Das geht eigentlich recht entspannt.
Da muss man nix umgehen oder etwas simulieren. Für die besagte Aufgabe gibt es fertige Software, die sich sogar als Plugin in den Browser installieren lassen.
Mh.
Ich kenne die Produkte, setze aber ziemlich konsequent auf eigene Quellcodes. Das macht mich unabhängig.
Aber klar ... Du besmalltalkest hier - bei mir - nix neues.
LG

Re: Spider Software

Verfasst: 08.12.2019, 16:46
von hanneswobus
supervisior hat geschrieben: 08.12.2019, 16:40
hanneswobus hat geschrieben: 08.12.2019, 15:59 Btw.
Über was diskutiert man hier eigentlich? ^^
Warum redest Du eigentlich mit, wenn Du dem Vernehmen nach nicht weißt worüber hier diskutiert wird?!
Die Frage ist so interessant, wie "warum geht morgen die Sonne auf!".
Ich bitte Dich.

Re: Spider Software

Verfasst: 08.12.2019, 17:42
von supervisior
hanneswobus hat geschrieben: 08.12.2019, 16:46 Die Frage ist so interessant, wie "warum geht morgen die Sonne auf!".
Ich bitte Dich.
Worum bitten? Warum stellst Du jetzt Deine eigene Frage in Frage?! Das muss man nicht wirklich verstehen, oder?

Re: Spider Software

Verfasst: 08.12.2019, 19:20
von staticweb
> Lässt sich umgehen, indem man menschliches Verhalten simuliert. Das geht eigentlich recht entspannt.

Ohne JS auszuführen wird das kaum funktionieren. :-)

Re: Spider Software

Verfasst: 08.12.2019, 19:31
von hanneswobus
staticweb hat geschrieben: 08.12.2019, 19:20 > Lässt sich umgehen, indem man menschliches Verhalten simuliert. Das geht eigentlich recht entspannt.

Ohne JS auszuführen wird das kaum funktionieren. :-)
Gerade läuft hier sowas durch. Die Daten sehen gut aus u. ich muss JS nicht extra ausführen. Mh.