Seite 1 von 3

URL Hygiene

Verfasst: 13.07.2015, 14:05
von Adversus
Hallo zusammen

URL Hygiene wird ja immer wichtiger.
Ich habe einen Fall, dass bei einem Webprojekt eine feste ID in der URL vorhanden ist und ansonsten alle anderen Angaben in der URL keine Rolle für die Identifikation der Ressource spielen.

Bsp:
www.beispiel.de/heute/ist/tolles/wetter/d12.de
ist die gleiche Seite wie
www.beispiel.de/kuchen/essen/d12.de
oder
www.beispiel.de/d12.de

Auf Basis einer solchen Konstruktion hat man natürlich unendlich viele Duplikate, wird also systematisch Duplicate Content produziert. Im Prinzip.


Meine Frage:
Wie kann Google hier verschiedene URLs zu ein und der selben Seite finden?
... Wenn ich in meiner Seite intern verlinke, nutze ich ja immer nur ein und die selbe konkrete Schreibweise.

Also, anders ausgedrückt: Ich weiß, dass eine solche Konstruktion im Prinzip unendliche viele gleiche Seiten erzeugt, weiß aber nicht, wie Google in der Praxis dann wirklich an viele verschiedene Schreibweisen kommt.


Freue mich auf Antworten - wenns Fragen gibt, einfach stellen.
Hoffe konnte klarmachen, was mein Problem ist.
Danke sehr!

Verfasst:
von

Verfasst: 13.07.2015, 14:51
von Melegrian
In der einfachsten Variante würde bereits rel="canonical" genügen.

Code: Alles auswählen

<link rel="canonical" href="https&#58;//www.example.com/bevorzugte" />
https://support.google.com/webmasters/a ... 9066?hl=de

Verfasst: 13.07.2015, 14:56
von Adversus
Grüß Dich

und danke für die schnelle Antwort. Ich glaube aber, dass hier ein Missverständnis vorliegt.
Ich weiß, dass Canonicals die empfohlene Lösung bei DC sind.

Was ich aber nicht weiß, wie aus dem prinzipiellen Problem unendlich vieler URLs ein praktisches Problem von wirklich vielen vorkommenden doppelten URLs wird.

In anderen Worten: Ich möchte den langfristigen Tipp geben, dass ein CMS genutzt werden soll, dass nicht mit diesen festen IDs arbeitet und (abgesehen von Parametern über Filter und Co) damit wirklich eine fixe URL pro Ressource hat. Aber wenn ich das mache, wird die Frage kommen:"Ja wie soll Google denn an die URL heuteistschöneswetter und kuchenessen kommen, wenn wir doch nur d12 benutzen?

Und genau um diese Frage geht es für mich.
... habe nämlich auch mal gehört, dass Google es nicht mag, wenn man auf jeder einzelnen URL ein Canonical setzt und darauf würde es ja rauslaufen.


Hoffe das hilft! :)

Verfasst: 13.07.2015, 15:08
von Melegrian
Dann musst Du Regeln schreiben, dass zum Beispiel statt d12 der Seitentitel in der URL übernommen wird.

Verfasst: 13.07.2015, 15:52
von Vegas
Auf jeder Unterseite ein Canonical ist überhaupt kein Problem, eher im Gegenteil, vermeidet genau bei solchen Systemen unnötige Probleme. Zudem technisch meist am einfachten umsetzbar.

Aus den theoretisch unendlichen URLs wird ansonsten real ganz fix ein Problem, sobald mal jemand extern anders als gewünscht verlinkt, sei es ein Wettbewerber, der diese Lücke erkennt, oder schlicht ein Versehen, eine aus technischen Gründen abgeschnittene URL, was auch immer. Wie mit Wildcard Subdomain o.ä., langfristig kommt da immer einiges in den Index, was nicht rein soll.

Kann auch rechtlich heikel werden: Man stelle sich vor, ein Spinner und selbsternannter Spaßvogel packt die große Liste Wortliste "Illegales, Volksverhetzung und geschützte Markennamen" aus und ballert automatisiert Spamlinks auf erfundene "böses Wort 1 + böses Wort 2 + Markenname + d12" URLs...die auch alle im Index landen. Es gibt im Internet leider nichts, was es nicht gibt, an das Gute im Menschen zu glauben kann unangenehm enden.

Verfasst: 14.07.2015, 08:29
von Adversus
Danke Melegrian und Vegas!

@Vegas:
Ich habe folgende Aussage erhalten zum Thema "Lösungen wie noindex, Sperrung durch robots.txt oder Canonical Tags sind hier nur symptomatisch bis teilweise sogar schädlich."
--> Das widerspricht ja erstmal Deiner Aussage. Ist die Aussage jetzt falsch oder liegt das Problem bei Noindex und Ausschluss via Robots.txt und wenn ja, warum/inwiefern?

Das wär super zu klären, da erstmal Aussage gegen Aussage steht. Sowas is immer spannend :D
Ansonsten danke sehr für die Erklärung, wie in der Praxis dann wirklich viele Links erzeugt werden können.

BG!

(PS: Auf jeder Seite ein Canonical würde ja aber nichts daran ändern, dass man von einem Mitbewerber Links geschrieben bekommt, die rechtlich problematisch sind. Hier müsste man dann wirklich alle URLs automatisch umschreiben lassen, wie von Melegrian geschrieben)

Verfasst: 14.07.2015, 09:17
von sawascwoolf
Also ich würde an deiner Stelle einen (301) redirect mittels php realisieren.
* ID auslesen (musst du ja sowieso)
* Testen ob $_SERVER["PHP_SELF"] mit der gewünschten Struktur übereinstimmt
* Umleiten falls keine Übereinstimmung

Verfasst: 16.07.2015, 09:12
von Adversus
Besten Dank für Eure Antworten.
Dann werde ich das wohl mal angehen müssen =)

Verfasst: 16.07.2015, 10:59
von Vegas
Das der Canonical nur eine symptomatische Lösung ist, stimmt, Du änderst ja nichts an der eigentlichen Technik wie die Seiten generiert werden oder an der Erreichbarkeit unerwünschter URLs. Sie ist aber auch die pragmatischste, weil der Canonical schnell eingebaut ist und so im Endeffekt nur das in den Google Index kommt, was in den Index soll. Schädlich ist diese Variante sicher nicht.

Der Königsweg ist zweifelsfrei etwas in Richtung des Vorschlags von sawascwoolf, nur je nach verwendetem System/CMS ungleich aufwendiger.

Insofern widersprechen sich die Aussagen gar nicht so viel, wie man auf den ersten Blick meinen könnte, die Frage ist ob Du die große Komplettlösung oder einfach nur keinen DC haben willst.

Verfasst: 16.07.2015, 12:11
von Adversus
Danke Vegas

Ich werde sicherlich mittel- bis langfristig die Lösung des Problems über die Bekämpfung des Symptoms stellen. Also, mit anderen Worten, in Richtung sawascwoolf gehen. Bis dahin natürlich sinnvoll: Pragmatische Lösung übers Canonical Tag.

Top! (y)

Re: URL Hygiene

Verfasst: 16.07.2015, 12:24
von Lyk
Adversus hat geschrieben:Hallo zusammen

URL Hygiene wird ja immer wichtiger.
Ich habe einen Fall, dass bei einem Webprojekt eine feste ID in der URL vorhanden ist und ansonsten alle anderen Angaben in der URL keine Rolle für die Identifikation der Ressource spielen.

Bsp:
www.beispiel.de/heute/ist/tolles/wetter/d12.de
ist die gleiche Seite wie
www.beispiel.de/kuchen/essen/d12.de
oder
www.beispiel.de/d12.de

Auf Basis einer solchen Konstruktion hat man natürlich unendlich viele Duplikate, wird also systematisch Duplicate Content produziert. Im Prinzip.


Meine Frage:
Wie kann Google hier verschiedene URLs zu ein und der selben Seite finden?
laut google wird so eine struktur wegen dc abgestraft.

da hilft auch kein "canonical tag" da du dann zu viele "tote" seiten hättest und panda zuschlagen würde.

du kannst die produkte in mehrere kateroein/unterseiten anzeigen lassen jedoch darf sich die url nicht immer ändern.

die lösung für dieses problem ist recht einfach.
die kategorien bleiben wie gehabt:
www.beispiel.de/heute/ist/tolles/wetter/
sobald die produktseite geöffnet wird, ändert sich die url:
www.beispiel.de/d12.de

Re: URL Hygiene

Verfasst: 16.07.2015, 13:07
von mogli
Lyk hat geschrieben:laut google wird so eine struktur wegen dc abgestraft.

da hilft auch kein "canonical tag" da du dann zu viele "tote" seiten hättest und panda zuschlagen würde.
Das komplette Gegenteil ist der Fall. Google empfiehlt sogar ausdrücklich den Einsatz kanonischer URLs für den Zweck: https://support.google.com/webmasters/a ... 9066?hl=de

Verfasst: 16.07.2015, 15:42
von Lyk
hrrr ja aber unter anderen voraussetzungen.

bei der empfehlung geht es um die onpage optimierung von toten seiten.
also genau das gegenteil um was es hier geht^^

Verfasst: 16.07.2015, 15:47
von Adversus
Jetzt bin ich aber gespannt.

Meine Meinung war ja bisher, dass wenn das Verhältnis von DC Seiten zu Seiten mit originärem Content zu Lasten der DC Seiten geht, Panda immer näher rückt. Wenn ich also (übertrieben gesagt) unendlich viele Seiten habe, ist die gesamte Domain ein gefundenes Fressen für Panda, da es quasi keine wirklichen Inhalte mehr gibt. Ob ich dann DC auszeichne oder nicht, spielt dann auch keine Rolle.

So meine Meinung. Ich lass mich gern mit guten Argumenten davon abbringen! ... und was in dem Supportlink von Google fehlt: Das Verhältnis. Grundsätzlich is das canonical Tag klar sinnvoll. Aber was eben, wenn DC domainweit systematisch erzeugt wird

Verfasst: 16.07.2015, 16:03
von Melegrian
Ich tendiere zu mogli, weil zum Beispiel bei Verwendung von PHPSESSID im Query auch bei jeder Sitzung eine neuer QueryString erzeugt werden würde, als unendlich viele in relativ kurzer Zeit, worauf doch ausdrücklich verwiesen wird im Beispiel, zwar mit Ausschließung des Parameters, doch das Prinzip bleibt. Hatte mal statt einer Seite 2.500 im Index, davon wurden dann 2.499 nur unter ferner liefen oder übersprungene Ergebnisse gelistet, doch passiert ist nichts, ist aber schon ein paar Jahre her.
Angeben, wie mit dynamischen Parametern verfahren werden soll
https://support.google.com/webmasters/a ... 9066?hl=de