Seite 1 von 3

Googlebot findet x-robots Header Noindex - ist aber nicht!

Verfasst: 10.05.2019, 16:01
von sergejs
Hi Leute,

ich komme derzeit einfach nicht weiter und bin etwas ratlos. Ich bekomme eine meiner Seiten, seitdem ich viele Unterseiten im Dezember auf Noindex gesetzt hatte, nicht wieder in den Index.

Die Search Console meldet Indexierung zulässig? Nein: „noindex“ wurde im HTTP-Header „X-Robots-Tag“ gefunden.

Wenn ich in Chrome den Header abrufe, dann steht da aber bei den betroffenen URLs kein x-robots-tag mit noindex.

Wenn ich die Indexierung einer betroffenen URL in der Search Console manuell beantrage, dann wird sie auch schnell aufgenommen. Das kann ich aber schlecht für 12.000 URLs machen.

Ich nutze Wordpress mit Yoast-Plugin.

Wo liegt hier der Fehler? Jemand eine Idee?

Beste Grüße

Verfasst:
von

Verfasst: 10.05.2019, 16:38
von staticweb
> Die Search Console meldet Indexierung zulässig? Nein: „noindex“ wurde im HTTP-Header „X-Robots-Tag“ gefunden. Wenn ich in Chrome den Header abrufe, dann steht da aber bei den betroffenen URLs kein x-robots-tag mit noindex.

Du siehst doch am Datum wann die Seite zuletzt gecrawled wurde. Wahrscheinlich ist das noch ein älterer Status.

Für die Indexierung tieferer schlecht verlinkter URLs hilft nur das URL-Prüftool oder die Sitemap.

Verfasst: 10.05.2019, 16:43
von sergejs
Das letzte Abruf-Datum ist vom 03.05.2019. Die Seiten sind aber wieder seit mehreren Monaten auf Index bzw. OHNE Noindex.

URL-Prüftool ist schwierig, weil man da ein begrenztes Kontingent an Abfragen pro Tag hat. Sitemap wird von Yoast erstellt und die ist in der SC hinterlegt.

Verfasst: 10.05.2019, 17:19
von supervisior
Weiß der Geier, was dieses Plugin macht, aber du kannst Dich probehalber mal als Googlebot ausgeben, um zu checken, ob evtl. nicht was falsches oder altes ausgespuckt wird. Trau schau wem, aber niemals einem Plugin. ;) Vor allen Dingen, wenn Du im Code was anderes siehst als Google.

Wenn das nicht hilft, gilts abzuwarten. Wenn Du tatsächlich nichts übersehen haben solltest und Deine Sitemap aktuell ist, dann hast Du Dir schlichtweg selbst ein Bein gestellt. Wenn Deine Seite vom Googlebot nicht all zu oft besucht wird, kann es schon mal länger als 3 Monate dauern. Google hats nicht so mit schnell schnell. Da können manche Dinge auch schon mal Jahre dauern. Siehe 301 Weiterleitungen

Verfasst: 10.05.2019, 18:47
von staticweb
> Das letzte Abruf-Datum ist vom 03.05.2019. Die Seiten sind aber wieder seit mehreren Monaten auf Index bzw. OHNE Noindex.

Für alle Seiten mit Status: "Indexierung zulässig? Nein: „noindex“ wurde im HTTP-Header „X-Robots-Tag“ gefunden." ??? Wohl kaum.

> Sitemap wird von Yoast erstellt und die ist in der SC hinterlegt.

Die kannst du trotzdem neu einreichen.

Verfasst:
von

Verfasst: 10.05.2019, 19:17
von sergejs
Die Sitemap hatte ich in den letzten 3 Monaten mehrfach eingereicht.

Wie gebe ich mich probehalber als Googlebot in der neuen SC aus?

Das war echt ein Mega-Fehler mit dem Noindex. Die Rankings gingen allmählich nach unten und ich dachte es wäre sinnvoll Thin-Content auf Noindex zu setzen.

Die Sitemap hatte ich mehrfach neu eingereicht in den letzten Monaten.

Erfreulich ist schon mal, dass die Rankings sofort wieder da sind, wenn ich die Indexierung manuell beantrage. Das geht halt aber nur für ca. 50 URLs(?) pro Tag.

Der 03.05.2019 galt für die in der SC zuletzt gecrawlten Seiten. Wenn ich die URLs mit Indexierungsfehler nach "zuletzt gecrawlt" sortiere, dann bin wird mir der 500. Eintrag mit gecrawlt am 08.02.2019 angezeigt. Ist also schon etwas her.

Gibt es keine Möglichkeit das zu beschleunigen? In der alten SC konnte man doch eine Indexierung beantragen und die der Links auf der URL. Dachte ich würde sonst 12 Seiten mit je 1.000 Links erstellen und die an Google senden (also nicht als Sitemap sondern als .html).

Verfasst: 11.05.2019, 07:44
von supervisior
sergejs hat geschrieben: Wie gebe ich mich probehalber als Googlebot in der neuen SC aus?
Du sollst Dich nicht IN der GSC als Googlebot ausgeben, sondern als Googlebot beim Aufruf Deiner Seite, um zu prüfen, ob der richtige Googlebot nicht was anderes sieht als Du. Hol Dir dafür je nach verwendetem Browser in den jeweiligen Addin Seiten der Browser Hersteller eines der zahlreichen Plugins um den sog. User Agent ändern zu können. Der User Agent ist in gewisser Hinsicht die Kennung eines Browsers, die beim Aufruf einer Seite an den Webserver geschickt wird. Diese Kennung ist zwar fix, aber kann man mit diesen Plugins ändern, um so quasi vorzutäuschen, dass man anstelle eines Firefox Browsers den Chrome Browser verwendet. Auch der Googlebot hat diese Kennung und Du kannst quasi temporär so tun als wärst Du mit Deinem Browser der Googlebot. Die meisten dieser Plugins haben Voreinstellungen, sodass sehr oft der Googlebot schon voreingestellt ist und Du nur noch auswählen musst, aber nicht vergessen diese Einstellung wieder auf normal zu ändern. Ist kein Googlebot in den Voreinstellungen vorhanden, erstelle einen neuen mit dem nachfolgenden Eintrag:

Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)

User Agent Switcher Plugin für Firefox
https://addons.mozilla.org/de/firefox/s ... 20switcher

User Agent Switcher Plugin für Chrome
https://chrome.google.com/webstore/sear ... cher?hl=de

Verfasst: 11.05.2019, 10:16
von Newbie2017
Hallo sergejs,

ich hatte vor rund 2 Wochen das gleiche Problem bei einer ganz neuen Seite. Während des Aufbaus hatte ich sie auf noindex stehen, nachdem ich das wieder rausgenommen hatte und die Sitemap in der SC eingetragen habe kam die gleiche Fehlermeldung wie bei Dir.

Lösung des Problems war es, die robots.txt in der SC neu einzureichen. Google das mal, war nicht ganz einfach zu finden, aber dann ganz leicht umzusetzen und hat sofort die gewünschte Wirkung gehabt.

Viele Grüße
Newbie

Verfasst: 11.05.2019, 10:55
von supervisior
@Newbie2017

Das könnte womöglich die Lösung sein, aber der Themenstarter hat den noindex Eintrag den Ausführungen zufolge nicht über die robots.txt gemacht, zumal das kein Standard ist, dass man noindex in der robots.txt definieren kann und deswegen fraglich ist, ob Google so einen Eintrag akzeptiert. Das wäre dann wohl eher ein Disallow, was Du meintest? Der Themenstarter hat den Ausführungen zufolge den noindex Eintrag über einen zusätzlichen Header gemacht, was nochmal ein Unterschied ist. Ich will Deinen Lösungsvorschlag nicht gänzlich ausschließen, aber vielleicht lässt sich Google ja durch das Neueinreichen der robots.txt indirekt dazu stimulieren die Seiten neu zu indexieren.

Verfasst: 11.05.2019, 14:09
von sergejs
Danke supervisior für die Links zu den Extensions. Hatte mir gestern Abend noch eine andere Erweiterung heruntergeladen und damit getestet. Es war kein x-robot Noindex Header sichtbar.

Ich hatte im Dezember die URLs per Meta-Datei auf Noindex gesetzt. Den Vorschlag mit dem Neueinreichen der robots.txt nehme ich dennoch gerne an und habe die robots.txt-Datei gerade neu gesendet. Sie wurde zuvor am 13.04.2019 abgerufen. Also schon etwas her.

Verfasst: 12.05.2019, 09:51
von staticweb
> Hatte mir gestern Abend noch eine andere Erweiterung heruntergeladen und damit getestet. Es war kein x-robot Noindex Header sichtbar.

Dann würden deine manuell eingereichten Seiten auch nicht indexiert werden.

> Den Vorschlag mit dem Neueinreichen der robots.txt nehme ich dennoch gerne an und habe die robots.txt-Datei gerade neu gesendet.

Die robots.txt kann man nur testen aber nicht neu einreichen. Maximal neu erzeugen. Wenn letzteres bei dir hilft wäre es in der Tat verwunderlich, da diese nur steuert welche Bereich der Bot betreten "darf".

Verfasst: 12.05.2019, 20:18
von Newbie2017
staticweb hat geschrieben:Die robots.txt kann man nur testen aber nicht neu einreichen. Maximal neu erzeugen. Wenn letzteres bei dir hilft wäre es in der Tat verwunderlich, da diese nur steuert welche Bereich der Bot betreten "darf".
Schritt1:
robots.txt-Datei mit dem robots.txt-Tester testen
https ://support.google.com/webmasters/answer/6062598?hl=de&ref_topic=6061961 *

Schritt2:
Aktualisierte robots.txt-Datei bei Google einreichen
https ://support.google.com/webmasters/answer/6078399?hl=de&ref_topic=6061961 *


@ supervisior

Du magst Recht haben. Auffällig ist einfach, dass, wie vor 2 Wochen bei mir, eine Fehlermeldung kommt, die nicht der aktuellen robots.txt entspricht. Vielleicht hilft es in dem Fall aber tatsächlich nicht. Probieren wird nicht schaden, kostet ungefähr 30 Sekunden Zeit.

Ich bin gespannt, wie es ausgeht.

Viele Grüße
Newbie

* PS: ich darf leider keine URLs posten, da weniger als 5 Posts. Daher Leerzeichen hinter https.

Verfasst: 15.05.2019, 08:49
von sergejs
Ich habe die robots.txt erneut eingereicht.

Zum Test: Sowohl Googlebot als auch der Googlebot-Mobile können auf die betroffenen URLs zugreifen. Ich habe in der robots.txt auch nur ganz wenige Einträge.

Bisher gibt es keine Verbesserungen. Der Googlebot greift auf die Seiten zu und der Fehler bleibt (letzter Zugriff auf betroffene URLs 03.05.2019)

Frage: Würde es etwas bringen den x-robots auf all zu setzen? Vielleicht braucht Google jetzt einfach einen weiteren Hinweis darauf, dass die URLs nicht mehr Noindex sind. Ich bin echt am verzweifeln.

Verfasst: 15.05.2019, 09:26
von staticweb
> Bisher gibt es keine Verbesserungen.

Das war auch nicht zu erwarten.

> Würde es etwas bringen den x-robots auf all zu setzen?

Gibst du x-robots bisher im response header aus? Und mit welchem Wert?

Verfasst: 15.05.2019, 09:35
von sergejs
Nein. Wird nicht ausgegeben. Ich prüfe das mit Chrome (Rechtsklick->Untersuchen->Network und dann die Seite anklicken).

Auch mit der Extension Seerobots wird folgendes ausgegeben:

(Robots-Information nicht gesetzt)

(X-Robots: N/A)

Sieht der Googlebot vielleicht irgenwie noch eine gecachte Version von damals als noch das Meta-Tag mit Noindex vorhanden war?