Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

Alle URL's wurden mit Zusatz versehen, den ich jetzt über die robots.txt blockiert habe

Dieses Forum ist für Informationen über Google gedacht (Ausser PageRank!).
Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 23.12.2019, 22:39

Hallo,
auf meiner Seite habe ich vor einigen Monaten ein bekanntes kostenloses Modul mit Hinweis auf Cookies installiert. Vor vier Wochen habe ich bei Erstellung einer Sitemap festgestellt, dass sämtliche URL mit der Endungen „?rCH=2“ versehen wurden. Nach Kontakt mit dem Hersteller wurde empfohlen, die Zeile „Disallow: /*?rCH“ in der robots.txt anzubringen. Jetzt erscheinen die URL's bei Aufruf wieder ohne diesen Zusatz. Die URL's existieren meist schon seit Jahren unverändert.

Die GoogleSearchConsole meldet jetzt:
Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971. Aufgeführt sind URL mit der Endungen "?rCH=2".

Das ist jetzt so und ist auch nicht zu ändern.
Meine Fragen wären: Wird Google irgendwann merken bzw. nach welcher Zeit merken, dass die Blockierung der Endung dauerhaft ist? Ist vorhersehbar, was dann passiert?

Ein Tipp könnte mich hoffentlich beruhigen (oder auch nicht).

Danke.

Anzeige von:

SEO Consulting bei ABAKUS Internet Marketing
Erfahrung seit 2002
  • persönliche Betreuung
  • individuelle Beratung
  • kompetente Umsetzung

Jetzt anfragen: 0511 / 300325-0.


Tippi
PostRank 6
PostRank 6
Beiträge: 444
Registriert: 06.06.2012, 21:32

Beitrag von Tippi » 24.12.2019, 00:43

Schau mal im Quelltext wo das "canonical" hinzeigt.

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 13:03

Hallo,
danke für den Tipp. Ich habe nach dem Eintrag in der robots.txt stichprobenweise die URL's angeschaut und die Endung nicht mehr gefunden. Jetzt stell ich fest, dass bei den von Google reklamierten URL die eigentlich unterdrückte Endung trotzdem in der Browserzeile und im Seitenquelltext auftaucht:

URL
https://www.example.de/kategorie/item/b ... tler?rCH=2
Seitenquelltext
<link href="/kategorie/item/beratungsgespraech-beim-arbeitsvermittler" rel="canonical" />

URL
https://www.example.de/kategorie/item/n ... aub?rCH=-2
Seitenquelltext
<link href="/kategorie/item/nur-3-wochen-urlaub" rel="canonical" />

Ich versteh das nicht, weil ich davon wenig Ahnung habe. Sollte ich das Modul doch besser durch ein anderes ersetzen?

Für einen Tipp wäre ich dankbar.

staticweb
PostRank 9
PostRank 9
Beiträge: 1783
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 24.12.2019, 13:24

> Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.

> Sollte ich das Modul doch besser durch ein anderes ersetzen?

Das hätte ich schon lange gemacht und das CMS wahrscheinlich gleich mit ersetzt. Du solltest überhaupt mal schauen ob das ganze DSGVO-konform funktioniert.

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 14:09

staticweb hat geschrieben:
24.12.2019, 13:24
> Ich versteh das nicht, weil ich davon wenig Ahnung habe.

In der robots "blockiert" und in der sitemap "empfohlen". Klar, dass Google da Probleme bekommt. Ich würde hier den Einsatz von x-robots empfehlen.
Das ist mir auch gerade durch die Glieder gefahren. Aber ich hab die Sitemap angeschaut. Dort steht die URL ohne Endung.
Ich muss ja zugeben, dass ich nicht versteh, was der robots.txt-Eintrag bewirkt. Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird. Das hat aber nicht funktioniert, denn die meisten Artikel lassen erscheinen bei Aufruf ohne Endung.
Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?

Danke.
Dateianhänge
Seitenquelltext.jpg
Seitenquelltext.jpg (14.59 KiB) 1032 mal betrachtet
browserzeile.jpg
browserzeile.jpg (13.13 KiB) 1032 mal betrachtet
Sitemap.jpg
Sitemap.jpg (10.8 KiB) 1032 mal betrachtet

Benutzeravatar
arnego2
PostRank 9
PostRank 9
Beiträge: 1824
Registriert: 23.02.2016, 13:55
Kontaktdaten:

Beitrag von arnego2 » 24.12.2019, 14:12

Frieder01 hat geschrieben:
24.12.2019, 14:09
Oder bewirkt der robots.txt-Eintrag nur, dass die Suchmaschinen beim Crawlen die Endung nicht aufnehmen?
Wenn überhaupt nehmen die Crawler Rücksicht auf Robots.txt Anweisungen wenn sie durch deine Seite gehen. Kommt ein Crawler von außen auf die besagte Seite und sie wird im index erscheinen es sei denn sie hat den meta tag noindex gesetzt. Und auch da scheint es Ausnahmen zu geben.
Arnego2 <Webseiten Umbau ab 80 Euro>

staticweb
PostRank 9
PostRank 9
Beiträge: 1783
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 24.12.2019, 14:17

> Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden. :-)

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 14:23

Nach weiterem Nachschlagen vermute ich hoffentlich richtig, dass durch den Eintrag "Disallow: /*?rCH" die Endung nicht verhindert, sondern nur Google angewiesen wird, diese Endung nicht zu lesen.
Und die Meldung von Google "Indexiert, obwohl durch robots.txt-Datei blockiert. Betroffene Seiten 971" kommt evtl. (?) daher, weil Google die Seiten früher schon mit der Endung gecrawlt hat.

Es muss ein anderes Modul her.
@staticweb
x-robots wird vermutlich gut sein. Nur habe ich es gerade nicht im Internet gefunden und es wäre für mich, als würde ich mit meinem PKW-Führerschein in ein Formel-1-Auto einsteigen.

DSGVO-konform ist das jetzige Modul vermutlich, hat auch die Auswahl akzeptieren / nicht akzeptieren und den Link zur Datenschutzerklärung. Es wurde von einem bekannten Joomlaeaner in Youtube als konform vorgestellt und erklärt. Ich werde mal ein anderes Modul suchen.

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 14:25

staticweb hat geschrieben:
24.12.2019, 14:17
> Bewirkt er, dass die URL-Endung grundsätzlich überall unterdrückt wird.

Er bewirkt dass alle URLs mit dieser Endung nie mehr aus dem Index kommen, da sie nicht mehr gecrawled werden. :-)
Danke.
Das heißt aber
  • Modul raus - dann entfällt die Endung
  • Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

staticweb
PostRank 9
PostRank 9
Beiträge: 1783
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 24.12.2019, 14:28

> Modul raus - dann entfällt die Endung

Vermutlich ja.

> Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.

Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 14:36

staticweb hat geschrieben:
24.12.2019, 14:28
> Text aus robots.txt raus - dann wird nach und nach auch der Index bei Google aktualisiert.
Da wirst du wohl nachhelfen müssen, sonst dauert es wahrscheinlich ewig.
Danke. Dann kenn ich wenigstens die Richtung.
Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

staticweb
PostRank 9
PostRank 9
Beiträge: 1783
Registriert: 04.05.2016, 14:34

Beitrag von staticweb » 24.12.2019, 14:50

> Aber die Frage muss ja jetzt kommen: Wie hilft man nach, falls es überhaupt einfach erklärt werden kann?

Da gibt es mindestens 2 Möglichkeiten. OnPage den Status Code oder die Indexierungsregeln anpassen.

Auf die Kanonisierung als 3. Möglichkeit würde ich mich nicht mehr verlassen.

Frohes Fest!
Zuletzt geändert von staticweb am 24.12.2019, 15:18, insgesamt 1-mal geändert.

Frieder01
PostRank 4
PostRank 4
Beiträge: 106
Registriert: 22.12.2015, 09:09

Beitrag von Frieder01 » 24.12.2019, 15:12

Für mich verständlich ist das "Indexierungsregeln anpassen". Ich werde eine neue Sitemap erstellen, mit kurzem Crawl-Intervall. Zuvor suche ich aber erst ein neues Cookie-Modul und schmeiss die Regel aus der robots.txt.

Danke und ich wünsch ebenfalls ein Frohes Fest.

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag