XML Sitemap und indexierte Seiten bei Google

Kamillo Kluth  Kamillo Kluth in OnSite SEO am 5. November 2014

Indexierte Seiten bei Google

Auf Google Webmaster Central wurde unlängst der Artikel „Best Practices for XML Sitemaps & RSS/Atom Feeds“ veröffentlicht. Darauf aufbauend möchte ich das Thema Steuerung der Indizierung und XML Sitemaps als Teil der technischen SEO aufgreifen. Ich möchte Lösungsansätze aufzeigen, wenn es deutliche Unterschiede in der Anzahl der durch Google indizierten Seiten und den über die XML Sitemap eingereichten Seiten gibt. Außerdem schauen wir uns an, ob alle crawlbaren Seiten in der Sitemap zu finden sind.

1. Seiten, die in der Sitemap gelistet sind, aber nicht bei Google performen

Wenn wir einen deutlichen Unterschied in der Anzahl der indizierten Seiten feststellen, sollten wir der Ursache auf den Grund gehen. In meinem Beispiel wurden knapp 21.000 Seiten per XML Sitemap eingereicht und nur etwas mehr als 7.400 indiziert, was ca. 35 % entspricht. Mit dem unten beschriebenen Vorgehen können wir die Ursachen eingrenzen.

Um das vorab klarzustellen: Wir gehen ins Eingemachte!

Bei der Analyse der Domain haben sich mehrere Situationen gezeigt, die allesamt die Domain ausbremsen. Die Steuerung der Indizierung ist ein wichtiges und mächtiges Instrument, um eine Domain bei Google gut performen zu lassen.

xml-sitemap-1

Das Problem in unserem Beispiel ist, dass wahrscheinlich das von Google bereitgestellte Crawling-Kontingent verschwendet wird. Neue Produkte oder Kategorien werden nicht oder nicht so schnell, wie sie es verdienen, von Google indiziert. Wenn wir davon ausgehen, dass die nicht indizierten Seiten auch nicht bei Google ranken, haben wir einen großen Potenzialverlust.

 

A)   Google Webmaster Tools

Welche Daten stehen uns zur Verfügung, um dem Problem auf den Grund zu gehen? Die XML Sitemap haben wir natürlich. Wir wissen nur nicht, welche der eingereichten URLs nicht indiziert wurden. Da wir mit Google arbeiten, müssen wir auch Googles Daten nutzen. Die erste Adresse sind die Google Webmaster Tools.

Unter dem Punkt „Suchanfragen“ finden wir den Unterpunkt „Die häufigsten Seiten“. Dort können wir über den Filter einstellen, dass wir alle Quellen angezeigt bekommen wollen. Über diese Einstellungsänderung habe ich in meinem Beispiel noch einmal ca. 20 % mehr URLs gewinnen können. Zusätzlich drehen wir den Zeitraum auf das Maximum von drei Monaten.

xml-sitemap-2

Dann klicken wir auf „Tabelle herunterladen“. Da in meinem Office 2010 die Umlaute in den Google Webmaster Tools Exporten falsch ausgegeben werden, mache ich einen kleinen Umweg und öffne die exportierte CSV Datei im Texteditor und kopiere sie dann in eine leere Excel Datei in die Spalte A.

In Excel haben wir die Komma-separierten Daten in nur einer Spalte. Wir benötigen für unseren Zweck ausschließlich die URLs. Impressions, CTR usw. interessieren an dieser Stelle nicht.

Die erste Spalte markieren wir. Über den Reiter „Daten“ kommen wir in Excel zum Punkt „Text in Spalten“.

xml-sitemap-3

In drei Schritten können wir die Daten in separate Spalten schieben.

Wir wählen „Getrennt“.

xml-sitemap-4

Dann „Komma“.

xml-sitemap-5

Und schließlich „Standard“.

xml-sitemap-6

Klicken auf „Fertig stellen“ und haben nun die URLs in Spalte A.

Unsere zweite Quelle ist Google Analytics. Aus Analytics bekommen wir nur die URIs, also die Adresse ohne die Domain. Aus diesem Grund entfernen wir mit Suchen & Ersetzen den Domainnamen „http://www.example.com/“ gegen „/“ in unserem ersten Datensatz, dem aus den Google Webmaster Tools.

xml-sitemap-7

 

B)   Google Analytics

In Google Analytics kommen wir über den Punkt „Akquisition“ zu den Channels.

xml-sitemap-8

Wir benötigen den Channel „Organic Search“. Der anzuzeigende Zeitraum sollte sinnvoll gewählt werden.

xml-sitemap-9

Im Channel „Organic Search“ wählen wir als sekundäre Dimension „Zielseite“.

xml-sitemap-10

Nun wollen wir möglichst viele Daten bekommen, also stellen wir die maximale Zeilenzahl 5.000 ein. Sollte diese Zahl nicht ausreichen, können wir über die Adresszeile die Anzahl weiter hochschrauben.

xml-sitemap-11

Statt der 5.000 kann man z. B. 10.000 Zeilen einstellen und auf Enter drücken. Zu beachten ist, dass der Browser irgendwann schlapp macht. An diese Grenze kann man sich heran tasten.

Wenn die größtmögliche Anzahl an Seiten angezeigt wird, klicken wir oben links auf der Seite auf „Export“ und wählen unser Lieblingsformat. Für mich ist das XLSX.

xml-sitemap-12

In diesem Export finden wir im Sheet 2 „Datensatz1“ die URIs sowie andere Werte, die wir für unsere jetzigen Zwecke nicht benötigen. Spalte B „Zielseite“ kopieren wir und fügen sie in eine neue Excel Datei in Spalte B ein.

Dann kopieren wir die URIs aus dem Google Webmaster Tools Export an das Ende der Daten aus Google Analytics. Der Kopf der Tabelle (Zeile 1 „Seite“) muss dabei entfernt werden.

In meinem Beispiel habe ich 8.269 URLs aus den Google Webmaster Tools und 4.863 URLs aus Google Analytics. Nun markiere ich die Spalte und gehe über den Reiter „Daten“ zu „Duplikate entfernen“.

xml-sitemap-13

Wenn man wie oben beschrieben vorgeht, braucht man im aufpoppenden Menü nur auf „OK“ klicken. In meinem Beispiel wurden 9.187 eindeutige URLs gefunden.

 

C)   XML Sitemap in Excel

Jetzt wird es spannend. Wir machen die XML Sitemap in Excel auf, d. h., wir ziehen sie auf eine offene Excel Datei. Wenn Excel fragt, in welchem Format die Datei geöffnet werden soll, wählen wir die XML-Tabelle und klicken „OK“.

xml-sitemap-14

Eventuell erscheint ein Hinweis auf das verwendete Schema. Hier klicken wir einfach wieder „OK“.

Nun entfernen wir den Domainnamen aus der ersten Spalte mit Suchen und ersetzen, wie oben beschrieben. Die gesamte Spalte kopieren wir in die Excel Datei, in der schon die Daten aus Google Analytics und den Google Webmaster Tools zu finden sind. Die URLs aus der Sitemap fügen wir in Spalte A ein. Bitte zwischendurch immer wieder speichern.

Mit der bedingten Formatierung können wir jetzt die URLs ermitteln, die in der Sitemap sind, aber keinen Traffic über die organische Suche bringen. Wir markieren die Spalte A. Im Reiter „Start“ finden wir den Punkt „Bedingte Formatierung“. Hier wählen wir „Neue Regel“¦“

Dann wählen wir den Punkt „Formel zur Ermittlung der zu formatierenden Zellen verwenden“. Im Feld „Werte formatieren, für die diese Formel wahr ist“ geben wir „=A1=SVERWEIS(A1;B:B;1;FALSCH)“ ein – ohne die Anführungszeichen.

xml-sitemap-15

Dann klicken wir unten noch auf „Formatieren“¦“, wählen eine Farbe und klicken auf „OK“.

xml-sitemap-16

Nun sollten einige Zellen in Spalte A in der gewählten Farbe eingefärbt sein.

Im Anschluss markieren wir die erste Zeile der Tabelle und klicken im Reiter „Daten“ auf den Button „Filtern“.

xml-sitemap-17

Dann können wir im Kopf der Tabelle die Spalte A nach Farben sortieren. Hier wählen wir „Keine Füllung“.

xml-sitemap-18

Nur die Daten in Spalte A sind interessant. Die eingefärbten Zellen enthalten die URLs, die auch in Spalte B vorhanden sind. Es sind also Adressen, die sowohl in der Sitemap als auch in den Google Daten vorhanden sind. Mit diesen ist alles in Ordnung. („¦ puh)

Interessant sind die Zeilen, die nicht eingefärbt sind. Wieso hat Google sie nicht indiziert? In meinem Beispiel sind von knapp 21.000 eingereichten URLs nur ca. 4.700 bei Google sichtbar.

Ich habe verschiedene Ideen, was nicht stimmen könnte. Mein erster Ansatz ist Duplicate Content bzw. Near Duplicates.

Auch schon gesehen habe ich, dass URLs in der Sitemap stehen, die per robots Meta Tag auf „noindex“ gesetzt wurden. Die Google Webmaster Tools geben in diesem Fall keinen Fehler und keine Warnung aus.

Wie können wir – evtl. als Externer – herausbekommen, welche kanonischen URLs im Quelltext von mehreren tausend Seiten stehen?

Meine erste Wahl wäre der Screaming Frog SEO Spider. Hiermit kann man ganze Domains oder einfache Listen mit URLs crawlen lassen.

Da wir aber schon mit Excel arbeiten, nutzen wir die SEO Tools for Excel von Nils Bosma, um die benötigten Daten zu holen.

Jetzt wird es kurz etwas lame. Ziel ist es, die URIs in URLs zu verwandeln. Dazu brauchen wir am Anfang der Adresse wieder den Domainnamen. Wer einen eleganteren Weg weiss, kann diesen gerne nutzen.

Wir nehmen die Liste der URLs, die nicht farbig markiert wurden, machen ein neues Sheet auf und kopieren diese Liste in Spalte B.

Dann schreiben wir den Domainnamen in Spalte A (http://www.example.com) und drücken Enter. Wenn wir die Zelle nun markieren, können wir die folgenden Zellen mit dem gleichen Inhalt versehen.

Dazu bewegen wir den Mauszeiger über die rechte untere Ecke der markierten Zelle, bis das kleine schwarze Kreuz erscheint.

xml-sitemap-19

Mit gedrückter linker Maustaste ziehen wir den Cursor so weit runter, wie die Liste in Spalte B lang ist.

xml-sitemap-20

Nun kopieren wir die Spalte A und B gemeinsam und fügen sie in den Texteditor ein. Die Werte aus A und B sind durch Tabs getrennt. Markieren und kopieren wir einen davon. Mit + (in z. B. Ultra Edit) bzw. + (im Windows Editor) kommen wir in das „Suchen und Ersetzen“ Menü. Hier ersetzen wir den Tabstop gegen nichts. Im Ersetzen-Feld stellen wir sicher, dass auch keine Leerzeichen vorhanden sind.

xml-sitemap-21

So haben wir wieder eine Liste von URLs, die gecrawlt werden kann.

Diese kopieren wir wieder nach Excel. Nun kommen die SEO Tools for Excel zum Einsatz. Wir wollen als erstes prüfen, ob falsch kanonisierte URLs in der XML Sitemap vorhanden sind.

In Spalte A sind unsere URLs, in Spalte B (Zelle B2 muss markiert sein) führen wir die Prüfung der Canonical Tags durch. Dazu gehen wir in Excel über den neuen Reiter „SEO Tools“ auf den Menüpunkt „Onpage“ und wählen dort „HtmLCanonical“.

xml-sitemap-22

Solche Crawls mache ich grundsätzlich auf einem Zweitrechner, um ungestört weiterarbeiten zu können.

Wir werden gefragt, welche URL geprüft werden soll. Wir markieren Zelle A2 und klicken auf „OK“.

xml-sitemap-23

Entweder bleibt die Zelle leer, was heißt, dass kein Canonical Tag vorhanden ist oder die kanonische URL wird angezeigt. Dann markieren wir die Zelle B2 und ziehen wieder das kleine schwarze Kreuz nach unten, bis an das Ende der Liste.

Der Grund für die Prüfung der kanonischen URLs ist, dass ein Canonical wie eine Weiterleitung gewertet wird. Weiterleitungen haben in der XML Sitemap nichts zu suchen. Ebenso URLs, die per Canonical auf eine zweite URL verweisen.

Wenn alle URLs geprüft wurden, können wir über die bedingte Formatierung (wie oben beschrieben) oder auf eine andere Art prüfen, ob die URLs in Spalte A und die kanonischen URLs in Spalte B identisch sind. Man kann auch statt der bedingten Formatierung in der dritten Spalte die Formel „=WENN(ISTFEHLER(FINDEN(A2;B2;1));0;1)“ eingeben und dann nach 1 (stimmt überein) bzw. 0 (stimmt nicht überein) filtern.

Uns interessieren die kanonischen URLs, die nicht mit der URL in Spalte A übereinstimmen. Diese müssen näher untersucht werden.

Nach gleichem Muster prüfen wir den robots Meta Tag der Seiten aus der Liste. Ein „noindex“ darf bei URLs, die in der XML Sitemap stehen nicht vorkommen. Dazu nehmen wir die Liste der URLs, bei denen wir den Canonical geprüft haben und fragen den robots Meta Tag ab.

xml-sitemap-24

In meinem Beispiel fand ich fast 5.000 URLs, die auf „noindex, follow“ standen. Die Frage, ob diese Seiten indiziert werden sollen oder nicht, muss mit dem Seitenbetreiber geklärt werden. Wenn sie nicht indiziert werden sollen, also nicht in den Google Ergebnissen auftauchen sollen, müssen sie auf jeden Fall aus der XML Sitemap entfernt werden.

Neben den falsch kanonisierten URLs und den falschen robots Meta Tags sollten wir uns auch um Duplikate bzw. Quasi-Duplikate kümmern. Wenn Duplikate oder Quasi-Duplikate bestehen, möchte Google nur eine dieser URLs indizieren. Bei den meisten Duplikaten fehlt dem User der Mehrwert. Zur Prüfung haben wir in Excel mit den SEO Tools verschiedene Möglichkeiten.

Die datenmäßige Größe der Seiten (identische Größe in kb) kann z. B. ein Hinweis auf (quasi) Duplikate sein. Auch der verwendete Title kann Aufschluss geben. Das gleiche gilt für doppelte Meta Descriptions. Die beiden letzten Punkte können auch über die Google Webmaster Tools geprüft werden.

Wie wir das Problem mit Quasi-Duplikaten beheben muss von Fall zu Fall entschieden werden.
Ein Bsp. aus der Praxis: Wir haben einen Artikel in verschiedenen Farben. Als der Artikel eingestellt wurde, wurde für jede Farbvariante eine eigene Produktseite angelegt. Googles Empfehlung ist für solche Fälle, nur einen Artikel anzulegen und die Farben als Varianten einzupflegen. Der User hat dann die Möglichkeit per Pull Down Menü die Farben zu wählen.

Eine weitere Möglichkeit, aber ehrlich gesagt nur eine Krücke, wäre die Kanonisierung auf ein Master-Produkt. Davon rate ich aus verschiedenen Gründen ab.

Da wir die Seite für den User / Kunden machen, sollten wir uns für die Lösung entscheiden, die dem User am meisten bringt. Stichwort Usability. Das ist die erste Lösung mit dem Pull Down Menü. Der User muss so nicht x neue Seiten laden, um die anderen Farben zu sehen.

Solange Excel noch die kanonischen URLs prüft, sollten wir uns aber die Liste der URLs einmal genauer ansehen. Wenn wir die Adressen alphabetisch sortieren, entdecken wir evtl. bestimmte Bereiche oder Kategorien / Produkte, die per XML Sitemap eingereicht, aber nicht indiziert werden. Hier lohnt es sich genauer zu schauen. D. h. wir rufen die Seiten auf, prüfen den Inhalt der Seite, prüfen, ob die Seite evtl. doch von Google gecached ist und verschaffen uns so einen Überblick.

Besonders wenn die XML Sitemap vom System generiert wurde, ohne dass sich jemand die Details angeschaut hat, können sich Fehler einschleichen.

In meinem Beispiel habe ich nicht nur falsch kanonisierte URLs oder gesperrte URLs, sondern auch Quasi-Duplikate gefunden, von denen der Seitenbetreiber selbst der Meinung war, dass sie nichts im Google Index zu suchen haben. So konnten in drei Schritten mehrere tausend Seiten entschärft, d. h. für Google gesperrt / gelöscht werden.

Solange eine URL keinen 404 oder 410 liefert, bleibt sie in Googles Index. Also haben wir die URLs etwas modifiziert. Schon wenn ein Zeichen in der URL geändert wird, ist es für Google eine komplett neue Adresse. Diese werden per robots Meta Tag auf „noindex, nofollow“ gesetzt. Würden wir nur „noindex“ wählen, würde Google die Seiten immer noch prüfen und den Links folgen. Das „noindex“ heißt nur, dass sie nicht in den Suchergebnissen auftauchen sollen. Da Google wirklich jede URL crawlen und den Links in Dokumenten folgen will, um mehr Seiten zu finden, muss die Anweisung für den Googlebot eindeutig sein. Der Vollständigkeit halber sperren wir also das neue URL Muster auch in der robots.txt. Die alten URLs werden in diesem Fall nicht weitergeleitet. Sie müssen eine Header Meldung 404 bzw. 410 liefern. In diesem Fall ist 410 (Gone) die bessere Wahl.

Wenn wir die neuen URLs nur in der robots.txt sperren würden und im robots Meta Tag „index, follow“ stünde, würde Google die Seite wahrscheinlich indexieren. Google will alles wissen. Wissen ist Macht.

Bei Magento und auch bei JTL Shops u. a. haben wir schon große Probleme mit der fassettierten Navigation gehabt. Über die fassettierte Navigation wurden unzählige Quasi-Duplikate erzeugt. Es gibt immer noch Leute, die denken, dass man mit vielen URLs auch besonders gut rankt. Dem ist aber nicht so. Wenn wir einen Shop mit einer fassettierten Navigation haben, sollten wir die verschiedenen Ebenen nach und nach mit Verstand freischalten. Der Shop sollte nicht in allen Instanzen indizierbar sein. Die Produkte müssen natürlich für den Googlebot freigegeben werden. Die fassettierte Navigation bietet aber so viele Varianten, dass wir viel Crawling Kontingent verbrennen würden, wenn wir alle Ebenen frei gäben.

Wir vermeiden Quasi-Duplikate und fokussieren uns auf gute Verteilerseiten. Diese Verteilerseiten (Kategorien, Subkategorien) haben durch die interne Verlinkung und Position in der Shop-Hierarchie ausreichend Kraft für ein Top Ranking.

Ein wichtiges Mittel in diesem Zusammenhang ist die Parameterbehandlung in den Google Webmaster Tools (Menüpunkt Crawling/ URL-Parameter). Alle Sortierparameter sollten entsprechend eingestellt werden.

xml-sitemap-25

 

2. Seiten, die crawlbar sind, aber nicht in der XML Sitemap gelistet werden

Nach diesem kurzen Ausflug kümmern wir uns wieder um unsere XML Sitemap. Mit Screaming Frog oder Strucr oder Xenu crawlen wir die Domain. Wobei ich persönlich Xenu nicht mehr nutze, seitdem ich Screaming Frog habe. Screaming Frog ist einfach komfortabler – was auch seinen Preis hat – und zwar einen jährlichen. Screaming Frog ist aber leider bei größeren Seiten irgendwann überfordert. Um Speicher zu sparen, sollte man genau einstellen, was man gecrawlt haben will. Man kann sich auf HTML Dokumente beschränken, externe Links außen vor lassen usw. Für große Seiten nimmt man Strucr.

Die Frage, die wir uns beantworten wollen ist, welche Seiten sind crawlbar und nicht in der Sitemap enthalten? Eine Webseite und ihre XML Sitemap müssen konsistent sein.

Das Ergebnis des Crawls halten wir gegen die Sitemap. Das machen wir nach dem gleichen Muster, wie den Abgleich zwischen Sitemap und den URLs aus Google Analytics / den Google Webmaster Tools. So identifizieren wir alle URLs, die bisher in der Sitemap nicht berücksichtigt wurden. Denkbar ist, dass es in einem Shop einen Service- oder Infobereich gibt, der bisher nicht in die Sitemap aufgenommen wurde o.ä. Solche Seiten, die einen Mehrwert für den User bieten, sollten unbedingt in die Sitemap aufgenommen werden. Auch, wenn das Angebot im Shop eher statisch ist, können über Infoseiten mehrwertige Inhalte rund um die Produkte geschaffen werden. Und grundsätzlich gilt: Wenn eine Seite es wert ist, sie zu erstellen, ist sie es auch wert gefunden zu werden. Die XML Sitemap hilft dabei ein Stück weit.

 

3. Fazit

Mit den oben beschriebenen Maßnahmen haben wir innerhalb von drei Monaten eine Steigerung im Traffic von knapp 20 % erreicht. Die Anzahl der indizierten Seiten ist im selben Zeitraum um ca. 16 % gefallen.

Es wurden keine weiteren SEO Maßnahmen unternommen. Somit lässt sich eine Verfälschung des Ergebnisses nahezu ausschließen.

 

Über den Autor:

kamillo-kluth-abakus-internet-marketingSeit 11 Jahren ist Kamillo Kluth für ABAKUS Internet Marketing tätig. In dieser Zeit hat er maßgeblich die langfristigen Strategien für die Suchmaschinenoptimierung im Unternehmen mitbestimmt. Aktuell ist er der Leiter der Abteilung Suchmaschinenoptimierung bei ABAKUS und somit am Puls der Zeit.

Weiterführende Links:
Best Practices for XML Sitemaps & RSS/Atom Feeds



Kamillo Kluth

Über Kamillo Kluth

Geschäftsleiter
Kamillo Kluth ist Geschäftsleiter der ABAKUS Internet Marketing GmbH und beschäftigt sich schon seit dem Jahr 2001 mit Suchmaschinenoptimierung. Als SEO der ersten Stunde hat er zahlreiche bekannte Unternehmen beraten und zu besseren Rankings verholfen. Er ist ein Experte für Nutzerpsychologie und die technischen Feinheiten des Google-Algorithmus. Kamillo Kluth ist außerdem ein gefragter Dozent und Fachautor.
Alle Artikel von: Kamillo Kluth

Verwandte Beiträge

Onlineshop: SEO für Markenseiten
Onlineshop: SEO für Markenseiten – Handlungsempfehlung

In den vergangen Monaten haben wir Ihnen bereits zwei Handlungsempfehlungen aus dem Hause ABAKUS vorgestellt. Heute folgt nun die dritte Handlungsempfehlung, in der wir uns mit der SEO für Markenseiten beschäftigen (Siehe auch : SEO für Online Shops). Zur genauen Situation: Unser Kunde besitzt einen Onlineshop mit hochwertigen Designprodukten. Das Ziel unseres Kunden ist wie

> WEITERLESEN …

 
Google-™s Mobile first – Prüfen Sie Ihre Seite

Google will den Desktop Index durch den mobilen ersetzen, so dass dieser komplett verschwindet. Seit mittlerweile einem Jahr überwiegen die mobilen Suchanfragen von Desktop Geräten und somit wird klar: Google macht Nägel mit Köpfen. Im April 2015 schrieb Google im Google Webmaster Central Blog: „Das Update rund um Mobilfreundlichkeit ist zwar eine wichtige Änderung –

> WEITERLESEN …

 
AMP in Deutschland ausgerollt

Das neue AMP News-Karussell wurde heute für die gängigsten Systeme (iOS / Android) für google.de ausgerollt. Nachdem bereits einige Tage zuvor iPhone-Nutzer unter Safari die neuen Ergebnisse zu sehen und zu klicken bekamen, fand in den letzten 24h auch ein erweiterter Rollout für die Mehrzahl der Android Browser   (getestet: Android / Chrome, Android /

> WEITERLESEN …

 
Neues Thumbnail (Vorschaubild) Feature in den Google Ergebnissen

Seit kurzer Zeit sieht man bei einigen speziellen Suchanfragen, kleine quadratische Vorschaubilder, auch Thumbnails genannt. Das neue Vorschaubild trägt die ID leftthumb1 und erscheint aktuell, global bei einer Google-Suche, welche durch die Suchoptionen auf eine bestimmte Zeit eingeschränkt und anschließend nach Datum sortiert wurden: Das Ergebnis nach dem Setzen dieser Filter enthält die Vorschaubilder: Google

> WEITERLESEN …