Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Ärgernis: archive dot today

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
heinrich
PostRank 9
PostRank 9
Beiträge: 2787
Registriert: 17.08.2006, 11:26

Beitrag von heinrich » 02.07.2014, 14:38

Was kann man unternehmen, um zu verhindern, dass Seiten wie archive dot today die eigenen Sites in Uraltversionen vorhält, die dann noch dazu in den SERPs auftauchen?
Per robots ausschließen geht nicht, denn die Seiten werden von UserInnen händisch in das Archiv eingetragen ... Ich habe schon mehrmals den Webmaster angeschrieben, um die Seiten entfernen zu lassen, aber es kommt keine Reaktion!
Hat schon jemand überprüft, ob seine Seiten nicht auch dort als DC vorliegen?
Siehe auch: https://de.wikipedia.org/wiki/Archive.today

Unifex
PostRank 9
PostRank 9
Beiträge: 1024
Registriert: 25.12.2005, 10:43

Beitrag von Unifex » 02.07.2014, 15:33

Und wirklich renommierte Zeitungen verlinken das Zeug auch noch und geben dem Thrust.

top
PostRank 7
PostRank 7
Beiträge: 640
Registriert: 14.07.2005, 17:09

Beitrag von top » 02.07.2014, 15:52

Warum findet man hier im Forum eigentlich noch keinen einzigen Beitrag zu Googles Scraper Report?

https://docs.google.com/forms/d/1Pw1KVO ... Y/viewform

Ted Mosby
PostRank 1
PostRank 1
Beiträge: 14
Registriert: 07.06.2014, 23:32

Beitrag von Ted Mosby » 02.07.2014, 16:57

Kann wer testen von welcher IP der archive Bot kommt? Dann können alle die nicht in diesem unseriösen Archive auftauchen wollen die ip blocken und fertig.

top
PostRank 7
PostRank 7
Beiträge: 640
Registriert: 14.07.2005, 17:09

Beitrag von top » 02.07.2014, 17:25

Teste doch mal, ob der Scraper auch den "canonical-tag" ( https://support.google.com/webmasters/a ... 9066?hl=de ) unverändert übernimmt.

So weiß Google wo das zu bevorzugende Original ist. :wink:

heinrich
PostRank 9
PostRank 9
Beiträge: 2787
Registriert: 17.08.2006, 11:26

Beitrag von heinrich » 02.07.2014, 17:27

@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird. Und da z.B. eine meiner Sites von fleißigen Usern fast komplett gemeldet wurde - es sind an die 5K Seiten, würde ich mich auch bei einem Scraper Report die Finger wund tippen ...
Kleiner Nachtrag: Schau dir einmal als Beispiel
https://archive.today/ www.salzburg.com
an ...
Und es wird auch nicht ausgeschlossen, dass eines Tages auf den Seiten Werbung kommen wird ...
Sitzen übrigens in Tschechien ...

Ted Mosby
PostRank 1
PostRank 1
Beiträge: 14
Registriert: 07.06.2014, 23:32

Beitrag von Ted Mosby » 02.07.2014, 18:09

heinrich hat geschrieben:@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird.
Ne, es muss einen Bot geben, den ich kann dort nur die zu archivierende URL eintragen. Also kommt später ein Bot vorbei der den Inhalt grabbt.


@top
Der komplette header wird durch einen eigenen ersetzt, canonical hilft nicht.

Benutzeravatar
Pompom
PostRank 10
PostRank 10
Beiträge: 3751
Registriert: 10.09.2004, 17:38

Beitrag von Pompom » 02.07.2014, 22:55

...sperre den Bot von Archive.org, die Seite nutzt scheinbar deren Archiv
Zitat von der Seite:
All snapshots from host archive.org

heinrich
PostRank 9
PostRank 9
Beiträge: 2787
Registriert: 17.08.2006, 11:26

Beitrag von heinrich » 02.07.2014, 23:37

Ja, das ist ihr Trick, dass sie die Seiten nicht vom Original holen, sondern von der WayBackMachine. Diese Seiten tauchen in den SERPs ja nicht auf, da sie nicht indexiert werden dürfen.

Unifex
PostRank 9
PostRank 9
Beiträge: 1024
Registriert: 25.12.2005, 10:43

Beitrag von Unifex » 03.07.2014, 08:30

Schon mal einen Spamreport an Google ausgefüllt?

heinrich
PostRank 9
PostRank 9
Beiträge: 2787
Registriert: 17.08.2006, 11:26

Beitrag von heinrich » 03.07.2014, 08:36

Mach das mal bei 5K Seiten ... Beim Spamreport landet man irgendwann beim DMCA, und das ist noch aufwändiger ...

Unifex
PostRank 9
PostRank 9
Beiträge: 1024
Registriert: 25.12.2005, 10:43

Beitrag von Unifex » 03.07.2014, 09:48

Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.

Vielleicht sollte mal jemand die Frage hier stellen:

https://productforums.google.com/forum/ ... bmaster-de

Nach meiner Erfahrung wird man sich dem Problem dann von offizieller Seite annehmen.

elmex
PostRank 9
PostRank 9
Beiträge: 1026
Registriert: 03.05.2005, 10:09

Beitrag von elmex » 03.07.2014, 12:52

Hmm, Google Forum haben die schon "durch" (früher hiessen die domain archive.is - wurde wohl geändert um weniger aufzufallen)

https://productforums.google.com/forum/ ... X2lrEpqVgJ

https://productforums.google.com/forum/ ... gfUDYl8BsJ

Komische Reaktion von Google, ich hab da früher mit ähnlichen Diensten bessere Erfahrungen machen können. Anscheinend gibt es, sobald archive im Domainnamen steht eine Sonderbehandlung? Komisch alles

gurken
PostRank 8
PostRank 8
Beiträge: 880
Registriert: 07.09.2006, 15:10

Beitrag von gurken » 03.07.2014, 12:58

sry für off, aber ich dachte .today TLD gibts erst nächstes Frühjahr?

Inter47
PostRank 6
PostRank 6
Beiträge: 464
Registriert: 10.04.2014, 21:34

Beitrag von Inter47 » 03.07.2014, 15:11

Unifex hat geschrieben:Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.
.
Naja, jemand geht seiner Geschäftsidee nach. DC ist übrigens tatsächlich nicht immer schlecht. Seiten, die nur auf DC basieren, ranken durchaus sehr gut. Daher ist diese Maßnahme durchaus nicht verkehrt.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag