Seite 1 von 2

Ärgernis: archive dot today

Verfasst: 02.07.2014, 14:38
von heinrich
Was kann man unternehmen, um zu verhindern, dass Seiten wie archive dot today die eigenen Sites in Uraltversionen vorhält, die dann noch dazu in den SERPs auftauchen?
Per robots ausschließen geht nicht, denn die Seiten werden von UserInnen händisch in das Archiv eingetragen ... Ich habe schon mehrmals den Webmaster angeschrieben, um die Seiten entfernen zu lassen, aber es kommt keine Reaktion!
Hat schon jemand überprüft, ob seine Seiten nicht auch dort als DC vorliegen?
Siehe auch: https://de.wikipedia.org/wiki/Archive.today

Verfasst:
von

Verfasst: 02.07.2014, 15:33
von Unifex
Und wirklich renommierte Zeitungen verlinken das Zeug auch noch und geben dem Thrust.

Verfasst: 02.07.2014, 15:52
von top
Warum findet man hier im Forum eigentlich noch keinen einzigen Beitrag zu Googles Scraper Report?

https://docs.google.com/forms/d/1Pw1KVO ... Y/viewform

Verfasst: 02.07.2014, 16:57
von Ted Mosby
Kann wer testen von welcher IP der archive Bot kommt? Dann können alle die nicht in diesem unseriösen Archive auftauchen wollen die ip blocken und fertig.

Verfasst: 02.07.2014, 17:25
von top
Teste doch mal, ob der Scraper auch den "canonical-tag" ( https://support.google.com/webmasters/a ... 9066?hl=de ) unverändert übernimmt.

So weiß Google wo das zu bevorzugende Original ist. :wink:

Verfasst:
von

Verfasst: 02.07.2014, 17:27
von heinrich
@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird. Und da z.B. eine meiner Sites von fleißigen Usern fast komplett gemeldet wurde - es sind an die 5K Seiten, würde ich mich auch bei einem Scraper Report die Finger wund tippen ...
Kleiner Nachtrag: Schau dir einmal als Beispiel
https://archive.today/ www.salzburg.com
an ...
Und es wird auch nicht ausgeschlossen, dass eines Tages auf den Seiten Werbung kommen wird ...
Sitzen übrigens in Tschechien ...

Verfasst: 02.07.2014, 18:09
von Ted Mosby
heinrich hat geschrieben:@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird.
Ne, es muss einen Bot geben, den ich kann dort nur die zu archivierende URL eintragen. Also kommt später ein Bot vorbei der den Inhalt grabbt.


@top
Der komplette header wird durch einen eigenen ersetzt, canonical hilft nicht.

Verfasst: 02.07.2014, 22:55
von Pompom
...sperre den Bot von Archive.org, die Seite nutzt scheinbar deren Archiv
Zitat von der Seite:
All snapshots from host archive.org

Verfasst: 02.07.2014, 23:37
von heinrich
Ja, das ist ihr Trick, dass sie die Seiten nicht vom Original holen, sondern von der WayBackMachine. Diese Seiten tauchen in den SERPs ja nicht auf, da sie nicht indexiert werden dürfen.

Verfasst: 03.07.2014, 08:30
von Unifex
Schon mal einen Spamreport an Google ausgefüllt?

Verfasst: 03.07.2014, 08:36
von heinrich
Mach das mal bei 5K Seiten ... Beim Spamreport landet man irgendwann beim DMCA, und das ist noch aufwändiger ...

Verfasst: 03.07.2014, 09:48
von Unifex
Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.

Vielleicht sollte mal jemand die Frage hier stellen:

https://productforums.google.com/forum/ ... bmaster-de

Nach meiner Erfahrung wird man sich dem Problem dann von offizieller Seite annehmen.

Verfasst: 03.07.2014, 12:52
von elmex
Hmm, Google Forum haben die schon "durch" (früher hiessen die domain archive.is - wurde wohl geändert um weniger aufzufallen)

https://productforums.google.com/forum/ ... X2lrEpqVgJ

https://productforums.google.com/forum/ ... gfUDYl8BsJ

Komische Reaktion von Google, ich hab da früher mit ähnlichen Diensten bessere Erfahrungen machen können. Anscheinend gibt es, sobald archive im Domainnamen steht eine Sonderbehandlung? Komisch alles

Verfasst: 03.07.2014, 12:58
von gurken
sry für off, aber ich dachte .today TLD gibts erst nächstes Frühjahr?

Verfasst: 03.07.2014, 15:11
von Inter47
Unifex hat geschrieben:Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.
.
Naja, jemand geht seiner Geschäftsidee nach. DC ist übrigens tatsächlich nicht immer schlecht. Seiten, die nur auf DC basieren, ranken durchaus sehr gut. Daher ist diese Maßnahme durchaus nicht verkehrt.