Seite 1 von 5

Spider Software

Verfasst: 03.07.2019, 12:55
von swinkel
Hallo zusammen,
wir suchen eine Spider Software, welche Firmenadressen von verschiedenen Portalen (z.B. gelbe Seiten)
ausliest und als Excel Tabelle ausgeben kann.

Wir brauchen die Software im optimalen Fall für Mac OS.

Jegliche Software, die ich bisher gefunden habe, bezieht sich immer auf 1 Portal wie z.B. Gelbe Seiten.

Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann? ( Gerne Gelbe Seiten, WLW und Yelp etc)?

Gruß
Sascha

Verfasst:
von

Re: Spider Software

Verfasst: 04.07.2019, 07:53
von nerd
swinkel hat geschrieben: 03.07.2019, 12:55 Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann?
Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.

Re: Spider Software

Verfasst: 04.07.2019, 10:06
von swinkel
Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.
Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Gruß
Sascha

Re: Spider Software

Verfasst: 04.07.2019, 10:36
von staticweb
> Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Der Selector sollte auch nicht das "Problem" sein, der in diesem Fall über eine einfache jQuery-Funktion (nur) die Firmennamen ausgibt.

Was du benötigst ist ein WebScraper mit automatisierter Datenextraktion.

Re: Spider Software

Verfasst: 07.09.2019, 07:46
von supervisior
Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/

Verfasst:
von

Re: Spider Software

Verfasst: 17.10.2019, 20:24
von HelgeSchneider
Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.

webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...

Re: Spider Software

Verfasst: 17.10.2019, 21:30
von swiat
supervisior hat geschrieben: 07.09.2019, 07:46 Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/
Wow, das hilft mir auch, danke fürs teilen. :multi:

Gruss

Re: Spider Software

Verfasst: 17.10.2019, 21:41
von staticweb
Heutzutage gibt es für die gängigsten "Sprache" jede Menge Lösungen.

jsoup für java
und
beautyfull soup für python

sind ja eigentlich nur parser.

Es wird jeweils noch eine package für die request Steuerung benötigt.

Re: Spider Software

Verfasst: 18.10.2019, 08:40
von supervisior
swiat hat geschrieben: 17.10.2019, 21:30 Wow, das hilft mir auch, danke fürs teilen. :multi:
HelgeSchneider hat geschrieben: 17.10.2019, 20:24 Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.

webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...
Aber Vorsicht damit. Das Teil ist zwar genial und man kann damit mehr rausholen als was darüber dokumentiert ist, aber Ihr könnt damit auch ganz schnell auf einer Bann-Liste stehen. Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

Re: Spider Software

Verfasst: 18.10.2019, 08:59
von staticweb
> Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

Stichwort: headless chrome | selenium

Wenn die Frequenz heruntergesetzt wird und ein IP-Wechsel stattfindet wirst auch du das nicht verhindern können.

Re: Spider Software

Verfasst: 18.10.2019, 09:28
von elmex
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!

Re: Spider Software

Verfasst: 18.10.2019, 11:33
von supervisior
elmex hat geschrieben: 18.10.2019, 09:28 Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!
Du hast natürlich vollkommen recht, aber ohne es gutheißen zu wollen, verhält es sich dabei wie mit einer Schaufel. Ich kann damit ein Loch graben, aber damit auch jemanden auf den Kopf schlagen. So eine Software muss ja nicht zwangsläufig dazu dienen, um damit Böses zu tun. Dass das naheliegend ist, ergibt sich automatisch an der Fragestellung des Themenstarters. Hätte dieser den Bedarf anders formuliert, würds gleich anders aussehen. Nicht zuletzt an dem ins Auge stechenden Verwendungszweck habe ich zuletzt auch angemerkt, dass die besagten Content Anbieter nicht auf den Kopf gefallen sind und Vorkehrungen treffen, was dann aber doch nicht so einfach geht, um nicht den Falschen Unrecht anzutun.

Was Deine Anmerkung anbetrifft wegen erwischen und so, ist das aber so eine Sache. Wenn es um die vom Themenstarter angegebenen Daten geht, besteht kein Urheberrecht auf diese Daten, sondern maximal auf die Datenbank. Die Daten selbst lassen sich nicht eindeutig urheberlich schützen, weil diese zu meist selbst irgendwo abgeschrieben wurden. Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

Re: Spider Software

Verfasst: 18.10.2019, 11:35
von supervisior
staticweb hat geschrieben: 18.10.2019, 08:59 > Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

Stichwort: headless chrome | selenium

Wenn die Frequenz heruntergesetzt wird und ein IP-Wechsel stattfindet wirst auch du das nicht verhindern können.
Ach nööö, das ist ja geradezu naiv, wie Du das darstellst. Da brauchts dann schon etwas mehr Grips. :)

Re: Spider Software

Verfasst: 18.10.2019, 12:23
von staticweb
> Ach nööö, das ist ja geradezu naiv, wie Du das darstellst. Da brauchts dann schon etwas mehr Grips. :)

Nein ist es nicht. Selbst wenn du ein paar Stolpersteine einbaust wird das nicht als "Blockade" helfen.

Re: Spider Software

Verfasst: 18.10.2019, 12:25
von supervisior
Und wenn ich Dir sage, dass es doch geht?