Seite 3 von 5

Re: Spider Software

Verfasst: 21.10.2019, 12:04
von nerd
elmex hat geschrieben: 18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Den selector rauszubekommen ist ja relativ trivial. Allerdings muss der crawler ja auch paging und navigation beherrschen um mehr als eine seite abzuarbeiten. Und abgesehen davon wird der erzeugte datenstand ja auch nicht besonders hilfreich sein, da sich bei einer millione eintraegen bestimmt pro tag ~100 oder so aendern, wegfallen oder auf irgendwelchen unterseiten neue hinzukommen.

Verfasst:
von

Re: Spider Software

Verfasst: 21.10.2019, 12:16
von nerd
supervisior hat geschrieben: 18.10.2019, 15:49 Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.

Re: Spider Software

Verfasst: 21.10.2019, 14:05
von supervisior
nerd hat geschrieben: 21.10.2019, 12:16
supervisior hat geschrieben: 18.10.2019, 15:49 Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.
Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

Re: Spider Software

Verfasst: 21.10.2019, 15:13
von Hanzo2012
Kein Problem für Bots, die auf PhantomJS etc. basieren.

Re: Spider Software

Verfasst: 21.10.2019, 15:19
von staticweb
> Seit wann können Bots Javascript oder Session Cookies?

Bot ist genau wie Spider nur ein Synonym für einen Webcrawler. Seit der Google Bot auf den aktuellen Chrome umgestiegen ist, wird auch das JS-Rendering vollständig unterstützt. Auch Cookies können gespeichert werden. Diese werden allerdings sofort wieder gelöscht.

Verfasst:
von

Re: Spider Software

Verfasst: 04.12.2019, 14:05
von hanneswobus
elmex hat geschrieben: 18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!
Ich sehe hier keine nachbaubare Anleitung u. dann beobachte ich, dass dieser Vorschuss-Respekt nicht immer gerechtfertigt ist. Weiter: dass der Verkauf o. Republish solcher Daten irgendwie - OHA - dumm ist, müsste man dann schon wissen.

Ich denke, dass man bei diesen Diskussionen streng am Thema bleiben sollte.

Re: Spider Software

Verfasst: 04.12.2019, 14:06
von hanneswobus
nerd hat geschrieben: 21.10.2019, 12:04
elmex hat geschrieben: 18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Den selector rauszubekommen ist ja relativ trivial. Allerdings muss der crawler ja auch paging und navigation beherrschen um mehr als eine seite abzuarbeiten. Und abgesehen davon wird der erzeugte datenstand ja auch nicht besonders hilfreich sein, da sich bei einer millione eintraegen bestimmt pro tag ~100 oder so aendern, wegfallen oder auf irgendwelchen unterseiten neue hinzukommen.
Meistens sieht man das anhand von irgendeiner simplen Zahlenlogik. Wenn man das Muster verstanden hat, lässt sich der Käse automatisieren. Ich hatte da erst dieses Jahr sowas bei einem asiatischen SoMe-System in die Finger bekommen u. da ein paar GB abgeholt.

Re: Spider Software

Verfasst: 04.12.2019, 14:15
von staticweb
> Meistens sieht man das anhand von irgendeiner simplen Zahlenlogik. Wenn man das Muster verstanden hat, lässt sich der Käse automatisieren.

Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.

Re: Spider Software

Verfasst: 05.12.2019, 05:55
von supervisior
staticweb hat geschrieben: 04.12.2019, 14:15 Auf manchen Seiten geht es aber ohne JS nicht, weshalb dann ein nachfolgendes Rendering des HTML notwendig wird.
Ohne Dich anfeinden zu wollen, aber Du hast Dich immer noch nicht ausreichend mit der Materie beschäftigt, sodass es schlichtweg immer noch Quatsch ist, was Du da erzählst. Hier muss nix und vor allem nicht nachfolgend gerendert werden. Es geht um die nackten Rohdaten, die genauso geparsed werden, wie wenn Du eine Seite im Browser aufrufst, nur eben ohne Quellcode. Wenn ich zwischewndurch mal Zeit habe, zeig ich Dir das mal an Hand des Abakus Forums.

Re: Spider Software

Verfasst: 05.12.2019, 07:31
von staticweb
>> Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

> Ohne Dich anfeinden zu wollen, aber Du hast Dich immer noch nicht ausreichend mit der Materie beschäftigt, sodass es schlichtweg immer noch Quatsch ist, was Du da erzählst.

Mit dem Ego funktioniert es ja schon. Fachlich leider noch nicht. :-)

> Wenn ich zwischewndurch mal Zeit habe, zeig ich Dir das mal an Hand des Abakus Forums.

Das wäre ja das gleiche, wenn ich dir erkläre wie LiteSpeed funktioniert.

Und dann nimm bitte ein Beispiel, welches nur mit aktiviertem JS Inhalte ausliefert. Und keine 0815 Seite.

Re: Spider Software

Verfasst: 05.12.2019, 07:45
von supervisior
Du und LiteSpeed? Never! ;)

Sag mir eine Webseite, mir egal welche.

Re: Spider Software

Verfasst: 05.12.2019, 07:55
von staticweb
> Sag mir eine Webseite, mir egal welche.

Du musst mir nichts beweisen und ich werde dir bestimmt keinen "Auftrag" geben Daten abzuziehen. Das war deine Idee.

Such dir einfach ein Beispiel mit react, vue oder angular, welches kein SSR nutzt, wenn dir das so wichtig ist.

Re: Spider Software

Verfasst: 05.12.2019, 08:00
von supervisior
Is mir Schnurz, ob und welches Framework verwendet wird. Solange sich die Seite mit dem Browser bedienen lässt, gibts keine Probleme. Ich will mich Dir aber nicht aufdrängen, sondern Dir lediglich helfen Dein Wissensdefizit endlich zu schließen bevor Du noch länger Quatsch erzählst. Das tut schön langsam weh..... ;)

Re: Spider Software

Verfasst: 05.12.2019, 08:04
von staticweb
>> Hey Du Profi.... :) Seit wann können Bots Javascript oder Session Cookies?

> Das tut schön langsam weh.....

Genau deshalb beende ich das auch an dieser Stelle. :-)

Re: Spider Software

Verfasst: 05.12.2019, 08:19
von supervisior
staticweb hat geschrieben: 05.12.2019, 08:04 Genau deshalb beende ich das auch an dieser Stelle. :-)
Na umso besser! :multi: :multi: :multi: