Suchmaschinenoptimierung
   
 
 

Warum registrieren?

Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website. So kannst Du Deine eigenen Fragen auf einen Blick anzeigen lassen und hast die volle Übersicht über neue interessante Themen im Forum für Suchmaschinenoptimierung. Jetzt kostenlos registrieren.

 
Schnellsuche!:  

Google generiert selbstständig Zahlen beim Crawling

Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen Druckversion
 Robot .htaccess richtig platziert? :: www oder ohne www abspidern / crawlen  
Autor Nachricht
Popeye
PostRank 5
PostRank 5


Anmeldungsdatum: 22.10.2003
Beiträge: 326
Wohnort: Dortmund

BeitragVerfasst am: 25.01.2010, 17:51    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Hallo,

beim durchsehen meiner Log-Dateien entdecke ich, das der Googlebot scheinbar Fantasie-Zahlen crawlt, die weder von extern noch intern verlinkt sind.

Es ist ein SMF-Forum und die Gestaltung der URLs ist folgendermassen:

www.url.de/beitrag,zahl1.zahl2.html

Hierbei dürften aufgrund der Verlinlung bei "zahl2" Werte wie 0, 15, 30 fortlaufend vergeben sein.
Plötzlich werden bei "zahl2" beliebige Werte generiert und dadurch massig DC produziert.

Hat jemand ähnliches schon mal beobachtet bzw. wie kann man da Abhilfe schaffen.

Grüße
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
depp ich
PostRank 10
PostRank 10


Anmeldungsdatum: 06.12.2004
Beiträge: 1385
Wohnort: wien

BeitragVerfasst am: 25.01.2010, 18:04    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ist aber schon ein alter Hut: Der Crawler will wissen, wie sich Seiten verhalten.
_________________
bin eh schon wieder weg...
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
Popeye
PostRank 5
PostRank 5


Anmeldungsdatum: 22.10.2003
Beiträge: 326
Wohnort: Dortmund

BeitragVerfasst am: 25.01.2010, 18:15    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Na super...

Dann nimmt das mit dem DC wohl kein Ende...
Kann ich eigentlich dann nur per robots.txt durch Zahlen, die nicht vorkommen dürfen verbieten über

disallow /*1.html
disallow /*2.html

etc...

Obwohl das echte Idiotie ist...
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
Rem
PostRank 10
PostRank 10


Anmeldungsdatum: 08.12.2005
Beiträge: 1978

BeitragVerfasst am: 25.01.2010, 18:19    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Es geht bei ähnlichen Taktiken nicht um DC, sondern um die Vermeidung von DC. Bei mir sind einige URLs im Index, bei denen der Crawler unnötige Parameter rausgekürzt hat. Der umgekehrte Fall ist mir noch NIE unter die Augen gekommen.

Das was Du "duchmachst" ist aber eh die bereits erwähnte Kategorie: testen, ob die Seite einen 404 zurückgibt.

Daher zu "www.url.de/beitrag,zahl1.zahl2.html"

Wenn da wirklich ein Punkt ist, dann könnte AcceptPathInfo Off in der htaccess schon hilfreich sein und einen klaren 404 zurückgeben. Wobei ich hierzu nicht Fachmann bin...
http://httpd.apache.org/docs/2.0/mod/core.html

Die Ausgabe eines 404 ist definitiv die beste Lösung, da es z.B. auch lustiges Verlinken verhindert
_________________
Meine eigene Musik auf MX3
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
depp ich
PostRank 10
PostRank 10


Anmeldungsdatum: 06.12.2004
Beiträge: 1385
Wohnort: wien

BeitragVerfasst am: 25.01.2010, 18:23    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ist doch kein Problem.

Der Crawler checkt, was kommt, wenn eigentlich NICHTS kommen dürfte. Etwa um die 404er Seite zu sehen.

All diese Seiten werden natürlich nicht gelistet - klar.
DC wäre es, wenn du die Seiten tatsächlich verlinkt hast, und selbst das ist aus meiner Sicht mittlerweile kein Problem.

Sowas hatte ich versehentlich 8 Monate lang (2 identische Seiten unter verschiedene URLs verlinkt) - ich hab nichts davon bemerkt, die 2. Seite wurde einfach nicht gelistet - was sie ja sonst auch nicht wäre.
Kein Ranking-verlust, kein Besuchereinbruch - nichts zu spüren.
_________________
bin eh schon wieder weg...
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
Rem
PostRank 10
PostRank 10


Anmeldungsdatum: 08.12.2005
Beiträge: 1978

BeitragVerfasst am: 25.01.2010, 18:50    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ich bin trotzdem der Meinung, dass ein gezielter 404 am besten ist, weil gerade schlecht programmierte Bots einfach auch Probleme beim Traffik verursachen können...

Daneben: wenn solche Seiten effektiv ausgegeben werden, kann können sie auch verlinkt werden - je nachdem wie der Black Hat Kumpane gerade lustig ist.

z.B. http://www.deinedomain.xy/seite.htm.analdildo
_________________
Meine eigene Musik auf MX3
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Popeye
PostRank 5
PostRank 5


Anmeldungsdatum: 22.10.2003
Beiträge: 326
Wohnort: Dortmund

BeitragVerfasst am: 25.01.2010, 21:12    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Das Problem ist, das kein 404er kommen kann...

Syntax für "zahl2" ist die Nummer der Mitteilung im Thread.
Meint:

zahl1,15.html beginnt mit der 16.Mitteilung.

Die Abfolge ist wie erwähnt vorgegeben - und auch so in der Übersicht der Beiträge verlinkt.

zahl1.16.html ruft also die gleiche "ähnliche" Seite auf.
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden Website dieses Benutzers besuchen
nerd
PostRank 9
PostRank 9


Anmeldungsdatum: 15.02.2005
Beiträge: 1160
Wohnort: AKL

BeitragVerfasst am: 26.01.2010, 04:30    Titel: Re: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Popeye hat Folgendes geschrieben:

Hat jemand ähnliches schon mal beobachtet bzw. wie kann man da Abhilfe schaffen.


du musst mit rel="canonical" im <head> angeben wo sich die original seite befindet:

auf
http://www.example.com/product.php?item=swedish-fish&trackingid=1234&sessionid=5678
sollte also im head folgendes stehen:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish" />
_________________
Hitchhiker's Guide to the Internet: The internet is full of porn, never forget to bring your towel.
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
luzie
PostRank 10
PostRank 10


Anmeldungsdatum: 12.07.2007
Beiträge: 2716
Wohnort: Bad Muskau, Niederschlesien

BeitragVerfasst am: 05.02.2010, 18:25    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ja, tatsächlich ist das weniger ein Google-Problem, sondern ein Problem deines Systems (Site-Struktur). Nicht-existente Adressen müssten error-404-(not found) ausgeben ^^

Da das hier schwer zu machen ist, könnte man die zweite Zahl als Adressen-Parameter ausgeben:

----- ../beitrag,zahl1.html?zahl2=15
statt
----- ../beitrag,zahl1.zahl2.html
(wäre vermutlich als rewrite leicht zu machen)

Den Parameter "zahl2" könnte man dann über die Parameterbehandlung in den Webmastertools vom Crawling ausschliessen.
_________________
luzie : on Google Webmaster Help : Official Bionic Top Contributor | Colaborador Principal | Top-Beitragender
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden E-Mail senden Website dieses Benutzers besuchen MSN Messenger
Rem
PostRank 10
PostRank 10


Anmeldungsdatum: 08.12.2005
Beiträge: 1978

BeitragVerfasst am: 06.02.2010, 13:21    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ja klar, da ist ein rewrite, das auf ein PHP verweist:

Könnte man den 404 nicht auch im Header durch das darunterliegende PHP-Skript erzeugen?

<?php
header("HTTP/1.0 404 Not Found");
?>

Sprich: im Skript müsste überprüft werden, ob eine "Sinnvolle Seite" aufgebaut werden kann und falls keine Daten vorhanden sind, wird einfach im Header ein 404 ausgegeben.

Das Problem ist dann zwar verschoben, aber wäre eventuell besser lösbar, als in der htaccess direkt...

Am besten wäre wohl, gleich am Anfang zu überprüfen, ob die Parameter innerhalb "festgelegter Grenzen" liegen und falls nicht, strikt ein 404 auszugeben.
_________________
Meine eigene Musik auf MX3
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
mgutt
PostRank 10
PostRank 10


Anmeldungsdatum: 08.03.2005
Beiträge: 2946

BeitragVerfasst am: 06.02.2010, 13:38    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Das Ergebnís dieser Ermittlung siehst Du in den Webmastertools:


Zu hohe Startparameter leite ich per 301 auf die erste Seite weiter. 404 wollte ich nicht machen, da die eigentliche Unique-ID ja auf den passenden Inhalt verweist. Warum also den Besucher auf eine Fehlerseite lenken, wenn er doch eigentlich auf den richtigen Inhalt getroffen ist.

In Foren kommt es manchmal vor, dass nicht mehr existente Themenunterseiten verlinkt sind, weil ein Mod einige Beiträge entfernt hat.
_________________
Marc Gutt Services | meine Kontaktdaten | Ankauf von Diskussionsforen, Communities und Forendomains
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Rem
PostRank 10
PostRank 10


Anmeldungsdatum: 08.12.2005
Beiträge: 1978

BeitragVerfasst am: 06.02.2010, 14:54    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Ich gebe Dir recht @mgutt, wobei man durchaus, wenn diese Zahl-Parameter logisch aufgebaut sind, z.B. von "15" (nicht existent) auf "14" weiterleiten kann. Das wäre logisch.

Wenn hingegen "166" getestet wird, ist ein 404 zurückzugeben richtiger, als dann auch auf die "14" umzuleiten? Ich will einfach sagen, dass eine Logik "nur 301 zurückzugeben" nicht unbedingt sinnvoll ist, weil es den "Status-Code" 404 ad absurdum führt und ich stark vermute, dass der Sinn von "Tests" seiten von den Sumas ja auch ist, das generelle Verhalten einer Seite - eben in Bezug auf 404 und 301 zu prüfen.

Wobei, klar bei "15" auf "14" kommt die Usability zuerst.

P.S. einer meiner ersten Hoster hat vor Jahren bei den Kunden-Fehlerseiten einen 200er ausgegeben . Die meisten Zugriffe kamen dann von Slurp. Täglich 10k PI auf einer Seite mit lediglich 2k Besucherzugriffen. Sprich: es gibt gute, schlechte und richtig dämliche Lösungen.
_________________
Meine eigene Musik auf MX3
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
mgutt
PostRank 10
PostRank 10


Anmeldungsdatum: 08.03.2005
Beiträge: 2946

BeitragVerfasst am: 06.02.2010, 15:32    Titel: Google generiert selbstständig Zahlen beim Crawling Antworten mit Zitat Nutzer zur Ignorier-Liste hinzufügen

Dazu verweise ich mal auf meine Signatur. In einem Topic ist die Topic-ID gegeben. Ist die falsch gibts ne Fehlermeldung. Aber der Startparameter ist ja nur "Beilage". Ist Google denn überhaupt so dumm und schaut nach unlogischen Werten?
_________________
Marc Gutt Services | meine Kontaktdaten | Ankauf von Diskussionsforen, Communities und Forendomains
Nach oben
Benutzer-Profile anzeigen Private Nachricht senden
Neues Thema eröffnen   Neue Antwort erstellen    ABAKUS Foren-Übersicht -> Spiders / Robots Themen
Seite 1 von 1


 






Ähnliche Beiträge
Thema Autor Forum Antworten Verfasst am
Keine neuen Beiträge google Analytics: Absprungrate - Auss... plauschibel Web Analytics & Controlling 0 11.03.2010, 13:14 Letzten Beitrag anzeigen
Keine neuen Beiträge Ergebnis-Tracking der Google-Produkts... Schweiss-weg Universal Search 0 11.03.2010, 12:47 Letzten Beitrag anzeigen
Keine neuen Beiträge Lohnende Alternative zur Google Klick... berndtan Partnerprogramme 3 10.03.2010, 23:18 Letzten Beitrag anzeigen
Keine neuen Beiträge Google räumt auf. web_worker Infos und heiße News 14 10.03.2010, 17:16 Letzten Beitrag anzeigen
Keine neuen Beiträge Trotz vieler Backlinks nach Wochen ni... lois69 Google Pagerank und Backlink-Forum 5 10.03.2010, 13:36 Letzten Beitrag anzeigen
Keine neuen Beiträge Beeinflusst Google Analytics das Rank... collection23 Google Forum 11 10.03.2010, 12:22 Letzten Beitrag anzeigen
Keine neuen Beiträge google maps - Einträge aufrufen Synonym Universal Search 3 09.03.2010, 19:02 Letzten Beitrag anzeigen

Suchmaschinenoptimierung Angebote
Suchmaschinenoptimierung | Latent Semantische Optimierung (LSO) | SEO Blog | ABAKUS Keyword Trends | Online Tools | Suchmaschinenmarketing Angebot | Online Marketing

Impressum

Powered by phpBB © 2001, 2005 phpBB Group


Sie lesen gerade: Google generiert selbstständig Zahlen beim Crawling