Ärgernis: archive dot today

heinrich · **heinrich** » 02.07.2014, 14:38 **Ärgernis: archive dot today**

Was kann man unternehmen, um zu verhindern, dass Seiten wie archive dot today die eigenen Sites in Uraltversionen vorhält, die dann noch dazu in den SERPs auftauchen?
Per robots ausschließen geht nicht, denn die Seiten werden von UserInnen händisch in das Archiv eingetragen ... Ich habe schon mehrmals den Webmaster angeschrieben, um die Seiten entfernen zu lassen, aber es kommt keine Reaktion!
Hat schon jemand überprüft, ob seine Seiten nicht auch dort als DC vorliegen?
Siehe auch: https://de.wikipedia.org/wiki/Archive.today

Unifex · **Unifex** » 02.07.2014, 15:33 **Ärgernis: archive dot today**

Und wirklich renommierte Zeitungen verlinken das Zeug auch noch und geben dem Thrust.

top · **top** » 02.07.2014, 15:52 **Ärgernis: archive dot today**

Warum findet man hier im Forum eigentlich noch keinen einzigen Beitrag zu Googles Scraper Report?

https://docs.google.com/forms/d/1Pw1KVO ... Y/viewform

Ted Mosby · **Ted Mosby** » 02.07.2014, 16:57 **Ärgernis: archive dot today**

Kann wer testen von welcher IP der archive Bot kommt? Dann können alle die nicht in diesem unseriösen Archive auftauchen wollen die ip blocken und fertig.

top · **top** » 02.07.2014, 17:25 **Ärgernis: archive dot today**

Teste doch mal, ob der Scraper auch den "canonical-tag" ( https://support.google.com/webmasters/a ... 9066?hl=de ) unverändert übernimmt.

So weiß Google wo das zu bevorzugende Original ist.

heinrich · **heinrich** » 02.07.2014, 17:27 **Ärgernis: archive dot today**

@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird. Und da z.B. eine meiner Sites von fleißigen Usern fast komplett gemeldet wurde - es sind an die 5K Seiten, würde ich mich auch bei einem Scraper Report die Finger wund tippen ...
Kleiner Nachtrag: Schau dir einmal als Beispiel
https://archive.today/ www.salzburg.com
an ...
Und es wird auch nicht ausgeschlossen, dass eines Tages auf den Seiten Werbung kommen wird ...
Sitzen übrigens in Tschechien ...

Ted Mosby · **Ted Mosby** » 02.07.2014, 18:09 **Ärgernis: archive dot today**

heinrich hat geschrieben:@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird.

Ne, es muss einen Bot geben, den ich kann dort nur die zu archivierende URL eintragen. Also kommt später ein Bot vorbei der den Inhalt grabbt.

@top
Der komplette header wird durch einen eigenen ersetzt, canonical hilft nicht.

Pompom · **Pompom** » 02.07.2014, 22:55 **Ärgernis: archive dot today**

...sperre den Bot von Archive.org, die Seite nutzt scheinbar deren Archiv
Zitat von der Seite:

All snapshots from host archive.org

heinrich · **heinrich** » 02.07.2014, 23:37 **Ärgernis: archive dot today**

Ja, das ist ihr Trick, dass sie die Seiten nicht vom Original holen, sondern von der WayBackMachine. Diese Seiten tauchen in den SERPs ja nicht auf, da sie nicht indexiert werden dürfen.

Unifex · **Unifex** » 03.07.2014, 08:30 **Ärgernis: archive dot today**

Schon mal einen Spamreport an Google ausgefüllt?

heinrich · **heinrich** » 03.07.2014, 08:36 **Ärgernis: archive dot today**

Mach das mal bei 5K Seiten ... Beim Spamreport landet man irgendwann beim DMCA, und das ist noch aufwändiger ...

Unifex · **Unifex** » 03.07.2014, 09:48 **Ärgernis: archive dot today**

Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.

Vielleicht sollte mal jemand die Frage hier stellen:

https://productforums.google.com/forum/ ... bmaster-de

Nach meiner Erfahrung wird man sich dem Problem dann von offizieller Seite annehmen.

elmex · **elmex** » 03.07.2014, 12:52 **Ärgernis: archive dot today**

Hmm, Google Forum haben die schon "durch" (früher hiessen die domain archive.is - wurde wohl geändert um weniger aufzufallen)

https://productforums.google.com/forum/ ... X2lrEpqVgJ

https://productforums.google.com/forum/ ... gfUDYl8BsJ

Komische Reaktion von Google, ich hab da früher mit ähnlichen Diensten bessere Erfahrungen machen können. Anscheinend gibt es, sobald archive im Domainnamen steht eine Sonderbehandlung? Komisch alles

gurken · **gurken** » 03.07.2014, 12:58 **Ärgernis: archive dot today**

sry für off, aber ich dachte .today TLD gibts erst nächstes Frühjahr?

Inter47 · **Inter47** » 03.07.2014, 15:11 **Ärgernis: archive dot today**

Unifex hat geschrieben:Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.
.

Naja, jemand geht seiner Geschäftsidee nach. DC ist übrigens tatsächlich nicht immer schlecht. Seiten, die nur auf DC basieren, ranken durchaus sehr gut. Daher ist diese Maßnahme durchaus nicht verkehrt.