Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Spider Software

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
swinkel
PostRank 3
PostRank 3
Beiträge: 66
Registriert: 21.09.2009, 14:04

Beitrag von swinkel » 03.07.2019, 12:55

Hallo zusammen,
wir suchen eine Spider Software, welche Firmenadressen von verschiedenen Portalen (z.B. gelbe Seiten)
ausliest und als Excel Tabelle ausgeben kann.

Wir brauchen die Software im optimalen Fall für Mac OS.

Jegliche Software, die ich bisher gefunden habe, bezieht sich immer auf 1 Portal wie z.B. Gelbe Seiten.

Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann? ( Gerne Gelbe Seiten, WLW und Yelp etc)?

Gruß
Sascha

ABAKUS Anzeige

von ABAKUS Anzeige »





SEO Consulting bei ABAKUS Internet Marketing.
Nutzen Sie unsere jahrelange Erfahrung und lassen Sie sich beraten!
Jetzt anfragen unter: SEO Consulting oder kontaktieren Sie uns direkt unter: 0511 / 300325-0


nerd
PostRank 10
PostRank 10
Beiträge: 4088
Registriert: 15.02.2005, 04:02

Beitrag von nerd » 04.07.2019, 07:53

swinkel hat geschrieben:
03.07.2019, 12:55
Kennt jemand eine etwas umfänglichere Software, die verschiedene Portale auslesen kann?
Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.

swinkel
PostRank 3
PostRank 3
Beiträge: 66
Registriert: 21.09.2009, 14:04

Beitrag von swinkel » 04.07.2019, 10:06

Warum nicht einfach selber machen?

Gelbe seiten auslesen in 4 einfachen schritten:

- https://www.gelbeseiten.de/Branchen/Imbiss/M%C3%BCnchen aufrufen
- Console oeffnen (F12)
- Code einfuegen:

Code: Alles auswählen

$("#gs_treffer article>div.table .h2 span").each(function(key,data){console.log($(data).text())});
- In deine excel tabelle kopieren
- fertig!


Das liest natuerlich nur die aktuelle seite aus; wenn die gelben seiten wollten das du dir ihren kompletten datensatz aneignest, wuerden sie dir natuerlich irgendwo einen praktischen download in verschiedenen formaten dafuer anbieten.
Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Gruß
Sascha

staticweb
PostRank 9
PostRank 9
Beiträge: 1389
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 04.07.2019, 10:36

> Wollte es mir so einfach wie möglich machen, aber "selber machen" wäre sonst eine Alternative für mich. Danke für den Code, ich werde es mal ausprobieren.

Der Selector sollte auch nicht das "Problem" sein, der in diesem Fall über eine einfache jQuery-Funktion (nur) die Firmennamen ausgibt.

Was du benötigst ist ein WebScraper mit automatisierter Datenextraktion.

supervisior
PostRank 9
PostRank 9
Beiträge: 1103
Registriert: 26.06.2006, 09:11

Beitrag von supervisior » 07.09.2019, 07:46

Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/
QUIC ist Google's neuer Turbo für noch mehr Server Speed. Noch schneller ist QUIC mit Turbo UND Lachgaseinspritzung. Mit QUIC + NOS kann Deine Webseite fliegen.

HelgeSchneider
PostRank 1
PostRank 1
Beiträge: 20
Registriert: 11.07.2019, 11:25
Kontaktdaten:

Beitrag von HelgeSchneider » 17.10.2019, 20:24

Da ich viel in der Java Entwicklung unterwegs bin nutze ich gern in Crawlern jsoup für HTML, jackson für JSON und pdfbox um Informationen aus PDFs zu zutschen. Mit jsoup kann man auch jquery-vergleichbare select-statements basteln.

webscraper kannte ich noch nicht, das sieht auch auch echt gut aus ...
https://upfliegen.de - Pauschalreisen Preisvergleich

swiat
PostRank 10
PostRank 10
Beiträge: 6251
Registriert: 25.02.2005, 23:56
Kontaktdaten:

Beitrag von swiat » 17.10.2019, 21:30

supervisior hat geschrieben:
07.09.2019, 07:46
Das Thema ist zwar schon älter, aber die Lösung gibts hier:

https://webscraper.io/
Wow, das hilft mir auch, danke fürs teilen. :multi:

Gruss
Kostenlose Backlinks: Hier lang <<<

staticweb
PostRank 9
PostRank 9
Beiträge: 1389
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 17.10.2019, 21:41

Heutzutage gibt es für die gängigsten "Sprache" jede Menge Lösungen.

jsoup für java
und
beautyfull soup für python

sind ja eigentlich nur parser.

Es wird jeweils noch eine package für die request Steuerung benötigt.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag