Warum registrieren? Nur als registriertes Mitglied vom ABAKUS Forum hast Du vollen Zugriff auf alle Funktionen unserer Website.

robots.txt richtig erstellen? (Bilder-Index)

Alles zum Thema: Robots, Spider, Logfile-Auswertung und Reports
WulfmanSEO
PostRank 1
PostRank 1
Beiträge: 8
Registriert: 15.07.2014, 09:37

Beitrag von WulfmanSEO » 16.07.2014, 10:33

Hi

ok der letzte Beitrag war vielleicht etwas zu umfangreich (gelöscht).

Frage mal direkter:

Wie muß eine robots.txt aussehen wenn ich

/storage/cache/images/BILDNAME,medium.12345.jpg <- das erlauben möchte - aber alle anderen jpg verbieten?

Code: Alles auswählen

User-agent&#58; Googlebot-Image
Disallow&#58; / 
Allow&#58; /storage/cache/images/*,medium.*jpg
das hab ich für Google. Webmastertools meint: kein problem - machen wir. Aber realität sieht so aus: wir machen nix.


Andere Webseite:
/var/thumbs/ <- da liegen Bilder drin - nur diese dürfen indiziert werden
/var/albums/ <- Bilder die im Index nichts zu suchen haben.

Code: Alles auswählen

User-agent&#58; Googlebot-Image
Disallow&#58; /
Allow&#58; /var/thumbs/
klappt nicht. Es liegen Bilder von /var/albums/ im index (Disallow: /var/albums/ im allgemeinen Teil der robots). Wie kommen die da rein?


Wo sind die fehler? Und wie kann ich das für alle Suchmaschinen entsprechend in die robots.txt schreiben?

Danke
Wulfman

Benutzeravatar
SEO-SENIOR
PostRank 2
PostRank 2
Beiträge: 59
Registriert: 21.03.2014, 21:38
Wohnort: Guatemala
Kontaktdaten:

Beitrag von SEO-SENIOR » 16.07.2014, 22:29

WulfmanSEO hat geschrieben:
Wie kommen die da rein?
Wo sind die fehler?
Und wie kann ich das für alle Suchmaschinen entsprechend in die robots.txt schreiben?

Danke
Wulfman
WulfmanSEO? Wenn du SEO bist dann hast du dir diese Fragen selber zu beantworten, sonst bist du echt kein SEO... :D

WulfmanSEO
PostRank 1
PostRank 1
Beiträge: 8
Registriert: 15.07.2014, 09:37

Beitrag von WulfmanSEO » 17.07.2014, 16:07

Sondereinheit für Observation, eine Sondereinheit der österreichischen Polizei = SEO

;)

top
PostRank 7
PostRank 7
Beiträge: 639
Registriert: 14.07.2005, 17:09

Beitrag von top » 17.07.2014, 17:59

Erst alles zu verbieten um dann mit "Allow: ..." wieder einzelne Verzeichnisse zu erlauben, könnte durchaus zu unerwarteten Effekten führen. Wer weiß schon wie der Googlebot-Image arbeitet? Vielleicht ignoriert er dadurch auch alle Bild-Links die in den (verbotenen) HTML-Dateien stecken und findet deine Bilder gar nicht erst?

Nebenbei würde ich auch keine Sonderzeichen wie Kommata im Dateinahmen verwenden.

WulfmanSEO
PostRank 1
PostRank 1
Beiträge: 8
Registriert: 15.07.2014, 09:37

Beitrag von WulfmanSEO » 21.07.2014, 22:26

Hi

Disallow -> Allow scheint bei einer der Seiten zu klappen. Hier werden zwar auch Dateien indiziert die nicht reinsollen, aber das kann ein ältere Fehler sein. LANGSAM kommen Bilder die dem robots-Schema entsprechen rein.

Die Seite mit dem Komma im Dateinamen will weiterhin nicht... Die Dateinahmen kann ich leider nicht ändern. Aber ich haue da mal ein Verbesserungsvorschlag bei Support rein - ist noch stark in Entwicklung. Ich habe mal in der robots eine Änderung gemacht.

Code: Alles auswählen

User-agent&#58; Googlebot-Image
Disallow&#58; /
Allow&#58; /storage/cache/images/*medium.*jpg
mal schauen was da passiert ...

Tippi
PostRank 6
PostRank 6
Beiträge: 438
Registriert: 06.06.2012, 21:32

Beitrag von Tippi » 21.07.2014, 23:34

Pack doch das was du zulassen möchtest einfach in ein anderes Verzeichniss.

WulfmanSEO
PostRank 1
PostRank 1
Beiträge: 8
Registriert: 15.07.2014, 09:37

Beitrag von WulfmanSEO » 22.07.2014, 10:46

Hi

ah Kurzversion - da fehlt eine Miniinfo: ich nutze das Foto-CMS Koken. Ich kann hier leider auf die Verzeichnisstruktur keinen Einfluss nehmen. Vielleicht könnte man hier ein SEO-Plugin-Schreiben was all sowas bedenkt - aber mein Knowhow reicht da gerade für kleinere Anpassung an Plugins. Den Orginal-Code individuell anpassen, wäre zwar auch eine Maßnahme - aber die Entwicklung ist relativ am Anfang - da kommen teils 1-2 Updates pro Woche ... ich müsste diese Anpassung am Orginal-Code dann nach jedem Update machen. Das ist zu aufwendig.

Nutze auf der anderen Seite Gallery3. Hier geht es ja einfach - die Thumbs haben ein eigenes Verzeichnis - das kann gespidert werden - andere Bilder-Verzeichnisse nicht. Das klappt soweit (noch nicht 100%ig sicher - weil Orginal-Auflösungs-Bilder im Index sind ... könnte aber alt-Material sein)

Ich warte jetzt mal ab was google da macht. Der robots.txt-Tester von den Webmaster-Tools sagt zumindest das meine Änderung Valide ist - sagte er mit dem "," auch - aber mal schauen ob sich was ändert.

Gruß


Nachtrag:
ich habe gerade eine Seite, die mit Koken erstellt wurde, gefunden die das "Image Protector"-Plugin einsetzt. Grausig dafür Geld zu nehmen :( ... jedenfall hat es ein "Feature": es kann verhindern das bestimmte Bilder in der SuMa landen. Wird über robots.txt gesteuert ... aha ...

User-agent: *
Allow: /storage/cache/images/*,tiny.*
Allow: /storage/cache/images/*,small.*
Allow: /storage/cache/images/*,medium.*
Disallow: /storage/originals/
Disallow: /storage/cache/images/

Bilder (,tiny) sind im Index.

Mhh

Meines:
User-agent: Googlebot-Image
Disallow: /
Allow: /storage/cache/images/*medium.*jpg

Huch: sehe ich jetzt erst: .*jpg ... naja ich pass das mal an wie bei der "geschützten Seite" an und schaue was passiert :)

WulfmanSEO
PostRank 1
PostRank 1
Beiträge: 8
Registriert: 15.07.2014, 09:37

Beitrag von WulfmanSEO » 24.07.2014, 12:19

Fehler scheinbar gefunden :(
meine Sitemap übermittelt MEDIUM. Der Googlebot liest laut Webmastertool aber die MEDIUM_LARGE Bilder. Per Sitemap kann ich ja nichts übermitteln was Google nicht auch ohne erreichen würde. Frage ist dann nur wieso diese eine Seite TINYS drin hat ... Support angeschrieben und ich ändere mal auf Medium_Large ... schauen wir mal ;)

Antworten
  • Vergleichbare Themen
    Antworten
    Zugriffe
    Letzter Beitrag