Seite 1 von 1

Google Search Console: 403 Fehler und deindexierte Seiten

Verfasst: 14.02.2018, 21:44
von ErwinRommel
Ich habe hier was auf den Tisch bekommen, was ich so auch noch nie hatte.

Blog auf Wordpress-Basis
Yoast SEO-Plugin installiert
alles sauber eingerichtet

Lasse ich die Header der einzelnen Seiten und der Sitemap auslesen, wird alles korrekt als 200 angezeigt.

Google selbst schmeißt gerade eine Unterseite nach der nächsten aus dem Index und behauptet es würde ein 403 Fehler ausgegeben.

Jemand da einen Tipp?

Verfasst:
von

Verfasst: 15.02.2018, 01:17
von nerd
Es koennte sein das der google bot erstmal nur einen HEAD request versucht (z.b. um nur irgendwelche "last modified" oder "weiterleitung" header auszulesen) welcher bei dir fehlschlaegt. Bei einige php frameworks (laravel!) ist es auch so, dass man normalerweise nur seine standard GET und POST routes definiert, aber HEAD requests als "undefinierte route" mit 4xx quitiert werden, bis man sie manuel mit in die routes.php packt.

Dient dazu zeit und bandbreite zu sparen, und anhand des response headers kann google sehen ob die seite neu indiziert werden muss (z.b. "last-modified" oder cache-control header), oder wie bei dir eben meint das die seite wegen eines 4xx status codes weg ist und rausgeschmissen werden kann.
Hatte ich bei einigen test-tools letztens auch gesehen, als die eigenen projekte getestet wurden. HEAD ist deutlich schneller wenn man die seite nur auf fehlerhafte links pruefen will, GET langsamer aber dafuer zuverlaessiger.

Ansonsten: Was steht denn in den server logs? Kannst du das problem replizieren wenn du die seite mit den selben referern, user agents oder anderen headern aufrufst?
Gibt es irgendwelche plugins in der installation die IPs wegen auffaelligem verhalten sperren?

Verfasst: 15.02.2018, 04:08
von ElCattivo
Ich habe noch nie einen HEAD vom Googlebot gesehen (gerade nochmal die Logs der letzten drei Monate gescannt), das dürfte als Grund ausscheiden.

Ergänzend zu den Vorschlägen von nerd:

Kannst du die .htaccess oder andere Server-Einstellungen überprüfen (lassen)? Vll war irgendjmd. so helle, da etwas falsches reinzupinseln!? Zur Ausgabe aller 403er in einer Logdatei, kannst dur auch ein kleines PHP-Script nehmen und das als "ErrorDocument 403" in der .htaccess (z.B.) angeben.

Der (echte) Googlebot kommt nur aus den IP-Bereichen 66.249.6*.*** und 66.249.7*.***, falls das nützlich sein sollte.

Viele Grüße
ElCattivo

Verfasst: 15.02.2018, 07:27
von ErwinRommel
Selbst der Abruf der XML-Sitemap wird mit einem 403 quittiert. Bezüglich der .htaccess mache ich mich mal schlau, muß ich mir mal anschauen.

Verfasst: 15.02.2018, 08:24
von nerd
ElCattivo hat geschrieben:Ich habe noch nie einen HEAD vom Googlebot gesehen (gerade nochmal die Logs der letzten drei Monate gescannt), das dürfte als Grund ausscheiden.
Geruechteweise gibt noch mehr als nur deine seite im internet:

https://www.webmasterworld.com/search_e ... 929358.htm

https://webmasters.stackexchange.com/qu ... d-requests

Verfasst: 15.02.2018, 10:28
von chris21
Klingt erstmal danach, als wäre der Googlebot geblockt, zB auf Hosterseite über iptables oder ähnliches.

Wie läuft denn ein "Abruf durch Google" über die GSC?

Verfasst: 15.02.2018, 12:07
von ErwinRommel
chris21 hat geschrieben:Klingt erstmal danach, als wäre der Googlebot geblockt, zB auf Hosterseite über iptables oder ähnliches.

Wie läuft denn ein "Abruf durch Google" über die GSC?
Brachte einige Tage immer "Fehler", seit gestern "Teilweise".

Verfasst: 15.02.2018, 17:12
von ElCattivo
@ErwinRommel:

Wie nerd schon sagte, am besten in die access.log schauen, da kannst du erstmal sehen, was überhaupt alles nen 403er bekommt. Dann .htaccess und evtl. andere Einstellungen prüfen. Wenn du Pech hast, ist es aber was, wo du nicht rankommst (Maßnahme vom Hoster). Dann würde ich aber zusehen, den Hoster zu wechseln.


@nerd:

Jeden Tag nen Clown zu frühstücken soll nicht gesund sein!
nerd hat geschrieben:Geruechteweise gibt noch mehr als nur deine seite im internet:
1. Das sind Logs mehrerer Seiten.
2. Hast du mal bei deinen Links auf das Datum geschaut? 2009 und 2013 ist jetzt nicht grad brandaktuell. :roll:

Viele Grüße
ElCattivo

Verfasst: 18.02.2018, 17:47
von ErwinRommel
ElCattivo hat geschrieben:@ErwinRommel:

Wie nerd schon sagte, am besten in die access.log schauen, da kannst du erstmal sehen, was überhaupt alles nen 403er bekommt. Dann .htaccess und evtl. andere Einstellungen prüfen. Wenn du Pech hast, ist es aber was, wo du nicht rankommst (Maßnahme vom Hoster). Dann würde ich aber zusehen, den Hoster zu wechseln.

Viele Grüße
ElCattivo
Hoster ist all-inkl., da ich selbst da auch was habe und da keine Probleme auftauchen, scheidet der mal aus.

Verfasst: 18.02.2018, 18:02
von ElCattivo
Ich habe zwar selber keine Erfahrungen mit ALL-INKL, aber über die Jahre fast ausschließlich positives gehört/gelesen. Würde das damit auch als unwahrscheinlich ansehen.

Wie ist die Entwicklung und hast du mal die genannten Sachen abgeklappert?

Viele Grüße
ElCattivo

Verfasst: 18.02.2018, 19:01
von ErwinRommel
Warte noch auf die access-log-Dateien.

htaccess blockiert zwar alles mögliche, aber nicht den Googlebot.