ABAKUS

Verfasst: **02.07.2014, 14:38**

Was kann man unternehmen, um zu verhindern, dass Seiten wie archive dot today die eigenen Sites in Uraltversionen vorhält, die dann noch dazu in den SERPs auftauchen?
Per robots ausschließen geht nicht, denn die Seiten werden von UserInnen händisch in das Archiv eingetragen ... Ich habe schon mehrmals den Webmaster angeschrieben, um die Seiten entfernen zu lassen, aber es kommt keine Reaktion!
Hat schon jemand überprüft, ob seine Seiten nicht auch dort als DC vorliegen?
Siehe auch: https://de.wikipedia.org/wiki/Archive.today

Verfasst: **02.07.2014, 15:33**

Und wirklich renommierte Zeitungen verlinken das Zeug auch noch und geben dem Thrust.

Verfasst: **02.07.2014, 15:52**

Warum findet man hier im Forum eigentlich noch keinen einzigen Beitrag zu Googles Scraper Report?

https://docs.google.com/forms/d/1Pw1KVO ... Y/viewform

Verfasst: **02.07.2014, 16:57**

Kann wer testen von welcher IP der archive Bot kommt? Dann können alle die nicht in diesem unseriösen Archive auftauchen wollen die ip blocken und fertig.

Verfasst: **02.07.2014, 17:25**

Teste doch mal, ob der Scraper auch den "canonical-tag" ( https://support.google.com/webmasters/a ... 9066?hl=de ) unverändert übernimmt.

So weiß Google wo das zu bevorzugende Original ist.

Verfasst: **02.07.2014, 17:27**

@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird. Und da z.B. eine meiner Sites von fleißigen Usern fast komplett gemeldet wurde - es sind an die 5K Seiten, würde ich mich auch bei einem Scraper Report die Finger wund tippen ...
Kleiner Nachtrag: Schau dir einmal als Beispiel
https://archive.today/ www.salzburg.com
an ...
Und es wird auch nicht ausgeschlossen, dass eines Tages auf den Seiten Werbung kommen wird ...
Sitzen übrigens in Tschechien ...

Verfasst: **02.07.2014, 18:09**

heinrich hat geschrieben:@ Ted Mosby: Der Trick bei der Geschichte ist ja, dass es keinen Bot gibt, sondern dass man dort von Usern einfach archiviert wird.

Ne, es muss einen Bot geben, den ich kann dort nur die zu archivierende URL eintragen. Also kommt später ein Bot vorbei der den Inhalt grabbt.

@top
Der komplette header wird durch einen eigenen ersetzt, canonical hilft nicht.

Verfasst: **02.07.2014, 22:55**

...sperre den Bot von Archive.org, die Seite nutzt scheinbar deren Archiv
Zitat von der Seite:

All snapshots from host archive.org

Verfasst: **02.07.2014, 23:37**

Ja, das ist ihr Trick, dass sie die Seiten nicht vom Original holen, sondern von der WayBackMachine. Diese Seiten tauchen in den SERPs ja nicht auf, da sie nicht indexiert werden dürfen.

Verfasst: **03.07.2014, 08:30**

Schon mal einen Spamreport an Google ausgefüllt?

Verfasst: **03.07.2014, 08:36**

Mach das mal bei 5K Seiten ... Beim Spamreport landet man irgendwann beim DMCA, und das ist noch aufwändiger ...

Verfasst: **03.07.2014, 09:48**

Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.

Vielleicht sollte mal jemand die Frage hier stellen:

https://productforums.google.com/forum/ ... bmaster-de

Nach meiner Erfahrung wird man sich dem Problem dann von offizieller Seite annehmen.

Verfasst: **03.07.2014, 12:52**

Hmm, Google Forum haben die schon "durch" (früher hiessen die domain archive.is - wurde wohl geändert um weniger aufzufallen)

https://productforums.google.com/forum/ ... X2lrEpqVgJ

https://productforums.google.com/forum/ ... gfUDYl8BsJ

Komische Reaktion von Google, ich hab da früher mit ähnlichen Diensten bessere Erfahrungen machen können. Anscheinend gibt es, sobald archive im Domainnamen steht eine Sonderbehandlung? Komisch alles

Verfasst: **03.07.2014, 12:58**

sry für off, aber ich dachte .today TLD gibts erst nächstes Frühjahr?

Verfasst: **03.07.2014, 15:11**

Unifex hat geschrieben:Der Witz ist ja: Über 50.000 Rankings mit teilweise echt guten KW dabei und eine hohe Sichtbarkeit.

Was sagt uns das alles über das "Quallitätsgefasel", "einzigartiger Content", und DC vermeiden, von dem Google immer spricht? Eigentlich dürfte sowas ja nicht möglich sein aber die Realität sieht eben anders aus.
.

Naja, jemand geht seiner Geschäftsidee nach. DC ist übrigens tatsächlich nicht immer schlecht. Seiten, die nur auf DC basieren, ranken durchaus sehr gut. Daher ist diese Maßnahme durchaus nicht verkehrt.

ABAKUS

Ärgernis: archive dot today

Ärgernis: archive dot today