|
|
Gamling

: 14.04.2007 : 457
|
| : 23.11.2009, 19:43 : H1 mit schriftgröße 0 |
|
|
mit nem png kann man da lustigerweise wirklich noch den Text rausbekommen, der mal drunterstand  |
|
| Nach oben |
|
 |
800XE


: 02.12.2004 : 5210 : XENEVU
|
| : 24.11.2009, 06:25 : H1 mit schriftgröße 0 |
|
|
| Gamling hat Folgendes geschrieben: |
mit nem png kann man da lustigerweise wirklich noch den Text rausbekommen, der mal drunterstand  |
wofür steht png ?
potenziell (oder problemlos)
nachbearbeitbare
grafikbestandteile
aber nur ... /Affilitiv/ ... innovativ |
|
| Nach oben |
|
 |
Stephan Zöllner

: 26.11.2009 : 99 : Westerstetten
|
| : 27.11.2009, 12:10 : H1 mit schriftgröße 0 |
|
|
Die wirklich normale Lösung ist schlicht:
Alt-Tag nutzen
@800XE
Die Auswertung durch die Suchmaschine beginnt üblicherweise damit die Kommentare durch ein striptags("erlaubte Tags"), die nur die als relevant eingestuften Tags übrig läßt. In der PHP-Version der Funktion ist es hard-Coded, daß die Kommentare entfernt werden. Das ist auch logisch weil das die Datenlast beim Abarbeiten der zwischengespeicherten SeitenTexte verringert, die keine relevanten Infos enthalten (die Komentare sieht der Besucher ja nicht)
Also für Kommentare sind die Bots und Sumas blind!
Gruß von der schwäbischen Alb
Stephan Zöllner |
|
| Nach oben |
|
 |
Margin


: 09.09.2005 : 4659 : Hannover
|
|
| Nach oben |
|
 |
800XE


: 02.12.2004 : 5210 : XENEVU
|
| : 28.11.2009, 08:48 : H1 mit schriftgröße 0 |
|
|
| Stephan Zöllner hat Folgendes geschrieben: |
| Das ist auch logisch weil das die Datenlast beim Abarbeiten |
wie macht Google das? oder redest du von KidiDownload.to SuchmaPHPs?
Wenn erst ein StripTags über alles geht, dann wird der komplette Text einmal gelesen um den gewünschten Text zu extrahieren bzw um den unerwünschten Teil zu überlesen
Danach kommt das eigentlich lesen = es wird alles zum 2ten mal gelesen
Ein gescheiter Parser würde den originalText lesen und auswerden .... direkt beim lesen das unerwünschte überlesen = nur einmal lesen
Auserdem hat stripTAG einen blösen bösen Fehler
| Code: |
| mein altes Auto<br>steht in der Garage |
wird zu
| Code: |
| mein altes Autosteht in der Garage |
?????? Autosteht ???????
Wer probleme hat mit dem Ranking, sollte vielleicht mal seine Keywords analysieren ob sie als solche oder Andere verarbeitet werden und gegebenenfalls vor und nach TAGs jeweils (zumindest auf einer Seite) einen BLANK hinzufügen damit durch stripTAGs nicht unbeabsichtigt Wörter zusammenbacken .... euer WebSiteBaker
| Google hat Folgendes geschrieben: |
Der Link verbirgt sich hinter einem kleinen, unauffälligen Zeichen,
zum Beispiel einem Bindestrich mitten in einem Abschnitt. |
hm, wenn ich jetzt
3w.ABC--------------------------------------XYZ.de hätte und würde da das Alphabet als Navi machen
wären die "-" von >C bis <X dann versteckte Links?
oder würde da quasie der Boot denken "das sind soviele versteckte(schwer sehbare) zusammen die kann man nicht übersehen = die sind nicht versteckt"
aber nur ... /Affilitiv/ ... innovativ |
|
| Nach oben |
|
 |
Stephan Zöllner

: 26.11.2009 : 99 : Westerstetten
|
| : 28.11.2009, 14:30 : H1 mit schriftgröße 0 |
|
|
@800XE
Ich habe mal eben kontrolliert: Google speichert die Seiten vollständig im Cache - sie haben ja genug Speicher zur Verfügung ...
Die Kommentare werden dabei nicht entfernt!
Allerdings kannst Du trotzdem davon ausgehen, daß beim Analysieren einer der ersten Schritte darin besteht Dinge, die gewiß nicht relevant sind oder als nicht relavant eingestuft werden zu entfernen.
Google wird das warscheinlich NICHT mit striptag machen sondern eine eigene Programmierung verwenden, die genau auf die Bedürfnisse /Anforderungen zugeschniten ist und keine Worte zusammenBackt
Es ist durchaus möglich, daß Google einen SinglPassParser für diese Zwecke programmiert hat, da dabei aber laut Google selbst bis zu 500.000 Variablen mit einbezogen werden halte ich das eher für unwarscheinlich. Es ist für mich eher anzunehmen, daß die logischen Schritte nacheinander abgearbeitet werden und die Ergebnisse in die Datenbanken geschrieben werden. Wenn dabei auf die Cache-Inhalte zugegriffen wird (die sich noch im Speicher befinden können) geht das auch relativ flott ... vor allem weil in einer Multi-Prozessor-Umgebung durch die Paralellisierung sogar Zeitvorteile entstehen während paralelle Threads auf den gleichen Speicherinhalt zugreifen können.
Das StripTags-Problem kann man übrigens relativ einfach lösen indem man "<" und ">" vorher durch " <" und "> " ersetzen läßt, StripTags aufruft und anschließend die doppelten WhiteSpaces wieder eindampft (was man sonst vor der Analyse sowieso gerne tut). Das ist natürlich etwas umständlicher als wenn StripTags das selbst wie gewünscht erledigen würde, aber verhindert zuverlässig den von Dir angeführten Problemfall.
Gruß von der schwäbischen Alb
Stephan Zöllner |
|
| Nach oben |
|
 |
800XE


: 02.12.2004 : 5210 : XENEVU
|
| : 28.11.2009, 15:24 : H1 mit schriftgröße 0 |
|
|
| Stephan Zöllner hat Folgendes geschrieben: |
| Es ist durchaus möglich, daß Google einen SinglPassParser für diese Zwecke programmiert hat, da dabei aber laut Google selbst bis zu 500.000 Variablen mit einbezogen werden halte ich das eher für unwarscheinlich. Es ist für mich eher anzunehmen, daß die logischen Schritte nacheinander abgearbeitet werden und die Ergebnisse in die Datenbanken geschrieben werden. |
Die 500.000 $Variablen stehen aber nicht im HTML?
Die meisten sind wohl dann gewichtungswerte
z.B. "Link near of end from Page = think it is in the Footer = $link['weight']=$gewichtung['footer']
( sorry, hät vielleicht doch bäsa uf deutsch? )
Ich hab mir die Tage einen HTML-Parser gefrikelt (angefrikelt)
soll mal dazu dienen die Struktur zu prüfen undoder analysieren ...
... Table(oder DivVerschachtelung) korekt?
ich lese da zeichen für Zeichen
manche sind "Steuerzeichen"
z.B.
| Code: |
if ( $TOK==ord('<') ) { if ( $readTAG==0 ) { $readTAG=1; $TAG=''; $readCOM=0;$readSTR= 0; } }
elseif ( $TOK==ord('>') ) { if ( $readTAG ) { $readTAG=0; $TAG=''; $readCOM=0;$readSTR=-1;$STR=''; } }
|
TAG beginnt bzw hört auf
Strin beginnt bzw hört auf .....
.... in dem Fall gleiches Steuerzeich
ob jetzt Ende oder Anfang = if "bin ich schon drin?"
| Code: |
elseif ( $readTAG && ( $TOK==ord('"') || $TOK==ord("'") ) )
{
if ( $readSTR==0 ) { $readSTR=1; $STR=''; }
else { $readSTR=0; $STR=''; }
}
|
<meta name="lang" content="de">
Dort wird 1 TAG gelesen, welcher dann in der DB später noch 2 PARA Datenzeilen hat
Ein <!-- html Kommentar --> wird beim Pars einfach ... eben Zeichen für Zeichen .... gelesen aber dann nicht weiter beachtet (wenn den nicht gewünscht)
Wie gesagt .... beim Pars einfach überlesen
da, wenn er vor dem Pars entfernt werden würde, müßte man vor dem Pars ja alles extra "schoneinmal" lesen
aber nur ... /Affilitiv/ ... innovativ |
|
| Nach oben |
|
 |