|
|
Thomas B

: 04.12.2005 : 1781 : Hamburg
|
| : 11.03.2010, 00:09 : gibt es auch allow für die robots.txt Anweisung? |
|
|
Ich habe einmal eine bescheidene Frage.
Den Boot kann man ja mehr oder weniger mit einem "disallow" in der robots.txt aussperren.
Kann man das eigentlich auch so machen:
User-agent: *
Disallow: /
Allow: example.html
So dass erlaubt wird, die explizit ausgewiesene Seite zu spidern? |
|
| Nach oben |
|
 |
Alda


: 27.01.2009 : 4591 : Kaiserslautern
|
| : 11.03.2010, 00:29 : gibt es auch allow für die robots.txt Anweisung? |
|
|
Aua, ich geh da mal mit fundiertem Nichtwissen dran...
Alles was Du mit "Disallow" explizit ausschließt ist weg, da geht er nicht mehr ran.und wenn Du zuerst das Hauptverzeichnis komplett ausschließt wird (blanke Vermutung) der Rest nicht mehr abgearbeitet, weil es danach nichts mehr abzuarbeiten gibt.
.
Suche LT mit Handwerk, Bau, Ausbau Sanierung, evtl. auch mit regionalen Immoseiten o. ä. Domains mit PR 0, 1, 3 und 5 vorhanden, alles saubere, aktive Projekte mit sehr wenig ausgehenden Links. Bei Interesse PM.
Satelliten, reine Affili- oder LT-Sites und anderen Murks bitte stecken lassen. |
|
| Nach oben |
|
 |
luzie


: 12.07.2007 : 3343 : Hannover, Linden-Nord
|
| : 11.03.2010, 00:30 : gibt es auch allow für die robots.txt Anweisung? |
|
|
Njet!
Das geht nicht. Zwar akzeptiert Google "allow", aber nur global, so:
Allow : /
Was du in robots.txt auf "disallow" setzt, bleibt verboten, ein globales "disallow" ("disallow" ist die einzig wirklich vorgesehene Anweisung - Robots Exclusion Standard) kannst du nicht durch ein spezifisches "allow" wieder aufheben.
uzie- Google Official Bionic Top Contributor - Google Webmaster Help - SEO bei ABAKUS |
|
| Nach oben |
|
 |
chris3

: 06.06.2008 : 434
|
| : 11.03.2010, 00:32 : Re: gibt es auch allow für die robots.txt Anweisung? |
|
|
| Thomas B hat Folgendes geschrieben: |
User-agent: *
|
google soll sich wohl nur daran halten, wenn man
"User-agent: Googlebot"
schreibt. es ist wohl schonmal öfters beobachtet worden, daß sich google nicht immer daran hält, wenn nur "User-agent: *" benutzt wird. |
|
| Nach oben |
|
 |
Thomas B

: 04.12.2005 : 1781 : Hamburg
|
| : 11.03.2010, 00:34 : gibt es auch allow für die robots.txt Anweisung? |
|
|
| Danke für die Infos. |
|
| Nach oben |
|
 |
Mork vom Ork

: 08.07.2008 : 2568 : Aufm Friedhof.
|
| : 11.03.2010, 09:09 : Re: gibt es auch allow für die robots.txt Anweisung? |
|
|
| Thomas B hat Folgendes geschrieben: |
Kann man das eigentlich auch so machen:
User-agent: *
Disallow: /
Allow: example.html
So dass erlaubt wird, die explizit ausgewiesene Seite zu spidern? |
Das funktioniert aus zwei Gründen nicht:
1. URL-Pfade beginnen immer mit einem Schrägstrich, deine Angabe example.html wird dementsprechend nie zutreffen.
2. Die robots.txt wird standardmäßig von oben nach unten abgearbeitet, der erste Treffer wirkt. Dein Disallow: / passt auf alles, nachfolgende Allow:- und Disallow:-Zeilen werden nicht mehr beachtet.
Was du unterm Strich haben möchtest, ist dieses:
User-agent: *
Allow: /example.html
Disallow: /
Damit wird /example.com ausgelesen und alles andere gesperrt.
Zu Punkt 2 ist allerdings anzumerken, dass Google sich nicht an die althergebrachte Methode hält, sondern stattdessen zuerst alle Allow:-Zeilen auswertet, anschließend alle Disallow:-Zeilen. Mit deiner Reihenfolge würde es bei Google also doch so laufen, wie du möchtest; nichtsdestotrotz solltest du dich an den Standard halten.
Die Behauptung, Google würde Allow: nur mit / gelten lassen, ist übrigens falsch (und macht auch keinen Sinn). Nicht nur ich habe die Kombination Allow abc, Disallow abcde im Einsatz – abc ist im Index, abcde nicht, wie gewünscht –, sondern auch noch andere.
Gleiches gilt für die Aussage, „google soll sich wohl nur daran halten, wenn man "User-agent: Googlebot"“ nutzt. Ist auch nicht richtig.
Zuletzt bearbeitet von Mork vom Ork am 11.03.2010, 09:18, insgesamt einmal bearbeitet |
|
| Nach oben |
|
 |
KAW

: 05.08.2004 : 3657
|
| : 11.03.2010, 09:18 : gibt es auch allow für die robots.txt Anweisung? |
|
|
Hallo,
ich habe zum Beispiel drin:
| Code: |
User-agent: googlebot
Disallow: /*?
Allow: /ordner/?* |
Das wirkt zum Beispiel.
Alles auf der Domain mit einem Fragezeichen wird ausgesperrt, außer die Unterseiten im Ordner "ordner".
Da werden URL mit einem Fragezeichen auch indixiert. |
|
| Nach oben |
|
 |
net(t)worker Gast
|
| : 11.03.2010, 11:40 : gibt es auch allow für die robots.txt Anweisung? |
|
|
jo,
das mit dem Allow, zur freischaltung eines Teilbereiches eines vorherigen Disallow kann funktionieren, muss aber nicht, da es nicht zum allgemeinen Standard der robots.txt gehört... aber das trifft ja auf die wildcards wie * auch zu |
|
| Nach oben |
|
 |
Mork vom Ork

: 08.07.2008 : 2568 : Aufm Friedhof.
|
| : 11.03.2010, 17:23 : gibt es auch allow für die robots.txt Anweisung? |
|
|
| net(t)worker hat Folgendes geschrieben: |
| das mit dem Allow, zur freischaltung eines Teilbereiches eines vorherigen Disallow kann funktionieren |
Nein, bitte andersrum, erst mit Allow freigeben, dann mit Disallow sperren. Diese Richtung schon immer Regel. |
|
| Nach oben |
|
 |