Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Spider Software

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
swinkel
PostRank 3
PostRank 3
Beiträge: 75
Registriert: 21.09.2009, 14:04

Beitrag von swinkel » 03.07.2019, 12:55

Hallo zusammen,
wir suchen eine Spider Software, welche Firmenadressen von verschiedenen Portalen (z.B. gelbe Seiten)
ausliest und als Excel Tabelle ausgeben kann.

Wir brauchen die Software im optimalen Fall für Mac OS.

Jegliche Software, die ich bisher gefunden habe, bezieht sich immer auf 1 Portal wie z.B. Gelbe Seiten.

Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann? ( Gerne Gelbe Seiten, WLW und Yelp etc)?

Gruß
Sascha

Anzeige von:

Content Marketing Strategie von ABAKUS Internet Marketing
Ihre Vorteile:
  • einzigartige Texte
  • suchmaschinenoptimierte Inhalte
  • eine sinnvolle Content-Strategie
  • Beratung und Umsetzung
Jetzt anfragen: 0511 / 300325-0

nerd
PostRank 10
PostRank 10
Beiträge: 4167
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 04.07.2019, 07:53

swinkel hat geschrieben:
03.07.2019, 12:55
Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann?
Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.

swinkel
PostRank 3
PostRank 3
Beiträge: 75
Registriert: 21.09.2009, 14:04

Beitrag von swinkel » 04.07.2019, 10:06

Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.
Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Gruß
Sascha

staticweb
PostRank 9
PostRank 9
Beiträge: 1782
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 04.07.2019, 10:36

> Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Der Selector sollte auch nicht das "Problem" sein, der in diesem Fall über eine einfache jQuery-Funktion (nur) die Firmennamen ausgibt.

Was du benötigst ist ein WebScraper mit automatisierter Datenextraktion.

supervisior
PostRank 9
PostRank 9
Beiträge: 1612
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 07.09.2019, 07:46

Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/

Anzeige von:

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


HelgeSchneider
PostRank 2
PostRank 2
Beiträge: 36
Registriert: 11.07.2019, 11:25
Kontaktdaten:

Beitrag von HelgeSchneider » 17.10.2019, 20:24

Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.

webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...

swiat
PostRank 10
PostRank 10
Beiträge: 6304
Registriert: 25.02.2005, 23:56
Kontaktdaten:

Beitrag von swiat » 17.10.2019, 21:30

supervisior hat geschrieben:
07.09.2019, 07:46
Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/
Wow, das hilft mir auch, danke fürs teilen. :multi:

Gruss
Kostenlose Backlinks: Hier lang <<<

staticweb
PostRank 9
PostRank 9
Beiträge: 1782
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 17.10.2019, 21:41

Heutzutage gibt es für die gängigsten "Sprache" jede Menge Lösungen.

jsoup für java
und
beautyfull soup für python

sind ja eigentlich nur parser.

Es wird jeweils noch eine package für die request Steuerung benötigt.

supervisior
PostRank 9
PostRank 9
Beiträge: 1612
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 18.10.2019, 08:40

swiat hat geschrieben:
17.10.2019, 21:30
Wow, das hilft mir auch, danke fürs teilen. :multi:
HelgeSchneider hat geschrieben:
17.10.2019, 20:24
Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.

webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...
Aber Vorsicht damit. Das Teil ist zwar genial und man kann damit mehr rausholen als was darüber dokumentiert ist, aber Ihr könnt damit auch ganz schnell auf einer Bann-Liste stehen. Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

staticweb
PostRank 9
PostRank 9
Beiträge: 1782
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 18.10.2019, 08:59

> Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

Stichwort: headless chrome | selenium

Wenn die Frequenz heruntergesetzt wird und ein IP-Wechsel stattfindet wirst auch du das nicht verhindern können.

elmex
PostRank 9
PostRank 9
Beiträge: 1083
Registriert: 03.05.2005, 10:09

Beitrag von elmex » 18.10.2019, 09:28

Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!

supervisior
PostRank 9
PostRank 9
Beiträge: 1612
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 18.10.2019, 11:33

elmex hat geschrieben:
18.10.2019, 09:28
Einfach nur WOW wie ihr hier bereitwillig erklärt, Datenbestände abzusaugen.

Nur ist die Idee weder neu noch stösst sie auf Gegenliebe bei den Gelben Seiten & Co. Eben diese schützen sich gegen unzulässige Datennutzung schon länger, als es das Internet gibt. Denn das war schon bei den dicken gelben Telefonbüchern ein Thema. Also Finger von lassen, denn die haben ihre Tricks, Euch zu erwischen, wenn ihr diese Daten nutzt oder gar noch selber veröffentlicht!
Du hast natürlich vollkommen recht, aber ohne es gutheißen zu wollen, verhält es sich dabei wie mit einer Schaufel. Ich kann damit ein Loch graben, aber damit auch jemanden auf den Kopf schlagen. So eine Software muss ja nicht zwangsläufig dazu dienen, um damit Böses zu tun. Dass das naheliegend ist, ergibt sich automatisch an der Fragestellung des Themenstarters. Hätte dieser den Bedarf anders formuliert, würds gleich anders aussehen. Nicht zuletzt an dem ins Auge stechenden Verwendungszweck habe ich zuletzt auch angemerkt, dass die besagten Content Anbieter nicht auf den Kopf gefallen sind und Vorkehrungen treffen, was dann aber doch nicht so einfach geht, um nicht den Falschen Unrecht anzutun.

Was Deine Anmerkung anbetrifft wegen erwischen und so, ist das aber so eine Sache. Wenn es um die vom Themenstarter angegebenen Daten geht, besteht kein Urheberrecht auf diese Daten, sondern maximal auf die Datenbank. Die Daten selbst lassen sich nicht eindeutig urheberlich schützen, weil diese zu meist selbst irgendwo abgeschrieben wurden. Die Datenbank, bzw. die Erstellung muss aber mit einem hohen finanziellen wie personalintensivem Aufwand verbunden sein, damit man hier einen Anspruch auf Urheberrecht stellen kann.

supervisior
PostRank 9
PostRank 9
Beiträge: 1612
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 18.10.2019, 11:35

staticweb hat geschrieben:
18.10.2019, 08:59
> Kommt auf die jeweilige Seite an. Bei mir hättet Ihr damit keine Chance was zu scrapen. ;) Also nicht übertreiben!

Stichwort: headless chrome | selenium

Wenn die Frequenz heruntergesetzt wird und ein IP-Wechsel stattfindet wirst auch du das nicht verhindern können.
Ach nööö, das ist ja geradezu naiv, wie Du das darstellst. Da brauchts dann schon etwas mehr Grips. :)

staticweb
PostRank 9
PostRank 9
Beiträge: 1782
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 18.10.2019, 12:23

> Ach nööö, das ist ja geradezu naiv, wie Du das darstellst. Da brauchts dann schon etwas mehr Grips. :)

Nein ist es nicht. Selbst wenn du ein paar Stolpersteine einbaust wird das nicht als "Blockade" helfen.

supervisior
PostRank 9
PostRank 9
Beiträge: 1612
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 18.10.2019, 12:25

Und wenn ich Dir sage, dass es doch geht?

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag