Seite 3 von 5
Re: Spider Software
Verfasst: 21.10.2019, 12:04
von nerd
elmex hat geschrieben: ↑18.10.2019, 09:28
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.
Den selector rauszubekommen ist ja relativ trivial. Allerdings muss der crawler ja auch paging und navigation beherrschen um mehr als eine seite abzuarbeiten. Und abgesehen davon wird der erzeugte datenstand ja auch nicht besonders hilfreich sein, da sich bei einer millione eintraegen bestimmt pro tag ~100 oder so aendern, wegfallen oder auf irgendwelchen unterseiten neue hinzukommen.
Re: Spider Software
Verfasst: 21.10.2019, 12:16
von nerd
supervisior hat geschrieben: ↑18.10.2019, 15:49
Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.
Re: Spider Software
Verfasst: 21.10.2019, 14:05
von supervisior
nerd hat geschrieben: ↑21.10.2019, 12:16
supervisior hat geschrieben: ↑18.10.2019, 15:49
Du denkst viel zu kompliziert. Es hat aber eine zeitlang gedauert bis ich wusste, was und wie was zu tun ist.
Richtige profis schauen mit javascript nach wie der mauszeiger mit der seite interagiert: gabe es ein :hover vor dem klick, aendert sich die mauspositionzwischen den klicks, wird mit maus, keyboard oder touch navigiert usw.
Hey Du Profi....
Seit wann können Bots Javascript oder Session Cookies?
Re: Spider Software
Verfasst: 21.10.2019, 15:13
von Hanzo2012
Kein Problem für Bots, die auf PhantomJS etc. basieren.
Re: Spider Software
Verfasst: 21.10.2019, 15:19
von staticweb
> Seit wann können Bots Javascript oder Session Cookies?
Bot ist genau wie Spider nur ein Synonym für einen Webcrawler. Seit der Google Bot auf den aktuellen Chrome umgestiegen ist, wird auch das JS-Rendering vollständig unterstützt. Auch Cookies können gespeichert werden. Diese werden allerdings sofort wieder gelöscht.