Seite 1 von 1

Suche Tool: Prüfen, ob Wort auf Webseiten vorkommt

Verfasst: 29.12.2016, 13:19
von Apocalytpica666
Hallo zusammen,

ich hab' da mal 'ne Frage...

Ich habe mit Scrapebox Seiten gescraped (Google-Suche nach Keyword in Kombination mit PLZ). Natürlich enthalten die Ergebnisse viele fehlerhafte Einträge. Nun möchte ich daher die ermittelten URLs nachträglich noch einmal verifizieren, indem ich prüfe, ob Wörter aus einer Liste von 10 Begriffen auf der gefundenen URL (genauer gesagt auf der Startseite der Domain) vorkommen.

Mit dem Page Scanner Plugin von Scrapebox kann ich dies für genau ein Wort tun, jedoch nicht für mehrere. Findet der Page Scanner nämlich Begriff A sucht er nicht mehr nach den restlichen Begriffen.

Kennt Ihr ein Tool, welches genau diese Anforderung bietet?

Vielen Dank für Eure Zeit und Eure Ratschläge!

Gruß
Apo...

Verfasst:
von

Verfasst: 29.12.2016, 15:05
von Benutzername:
Kennt Ihr ein Tool, welches genau diese Anforderung bietet?
es gibt forensische analyse tools die kosten aber...

Verfasst: 29.12.2016, 15:07
von hanneswobus
mh.
apo.
es ist doch simpel.
du musst nur die texte irgendwo erfassen (csv, txt, sqlite) u. dann darueber deine suche(n) jagen u. - wenn du das nicht selbst hinbekommst - wirst du wohl oder uebel diese scrapebox x-fach ausfuehren muessen.
lg

Verfasst: 30.12.2016, 09:36
von Apocalytpica666
Hallo!

Vielen Dank zunächst einmal für Eure Anregungen!

@Benutzername: Kannst Du mir exemplarisch ein, zwei Tools nennen?

@hanneswobus Das habe ich befürchtet :lol: Diesen Aufwand wollte ich jedoch vermeiden, da die Anzahl der URLs im sechsstelligen Bereich liegt. Scrapebox sucht zudem im gesamten Quelltext und nicht im "menschlich-lesbaren-Bereich". Da einige Begriffe durchaus im Quelltext vorkommen können, ist das alles nicht ideal.

Aber zur Not muss ich den sauren Apfel beißen und alle Seiten lokal herunterladen und dann dort indizieren.

Viele Grüße
Apocalyptica

Verfasst: 30.12.2016, 11:07
von hanneswobus
apo.
unter delphi bekommste sowas mit _wirklich_ wenig aufwand aufgesetzt u. - wenn du eine solche loesung anvisierst - solltest du nach der anweisung if pos ('lalalal', html-code) <> 0 suchen.
wenn ich wuesste, welchen konkreten wert das ganze haette, wuerde ich u.u. nachher u. bei "langeweile" sowas kurz herunter coden.
lg

Verfasst: 30.12.2016, 15:34
von nerd
Dein "Tool" heist wget und grep!

Einfach deine liste der seiten herrunterladen, und dann lokal ablegen und mit grep nach deinem gewuenschten wort suchen. Sollten nicht mehr als 10 zeilen code sein, wenn man eventuelle fehler und probleme beim download grosszuegig ignoriert.