FUNZIONAMENTO GOOGLE - STEMMING - APPROCCIO LINGUISTICO E SEMANTICO AI DOCUMENTI - FEAR MANIFESTO EDITION 2006

GOOGLERANK / ITA / COVER / approccio-linguistico-stemming.html

LO STEMMING DI GOOGLE

L'APPROCCIO LINGUISTICO E SEMANTICO DEGLI SPIDER DURANTE L'INDICIZZAZIONE VOLTA ALLA VALUTAZIONE DEI SITI IN RELAZIONE ALLA POTENZIALE SODDISFAZIONE DELLA RICERCA. LSI - LATENT SEMANTIC INDEXING - CONSIGLI PER I WEBMASTER

Quest'implementazione (ufficializzata nel Novembre 2003) servì a Google per aumentare significativamente il numero dei risultati (potenzialmente interessanti per l'utente) nelle serp's. Anche se in passato si era distinto proprio per il non utilizzo dello stemming, ad un certo punto gli sviluppatori si resero conto che molte pagine venivano penalizzate unicamente a causa dell'incapacità di 'leggere' di Google.
L'unico separatore di parola ammesso era il trattino [-]. Questo faceva sì che ad esempio, foglidicarta.html e fogli_di_carta.html non risultassero efficaci -ai fini dell'ottimizzazione- come fogli-di-carta.html . E questo intuitivamente significava penalizzare non solo il webmaster ma soprattutto l'utente finale, che si vedeva negato l'accesso ad un gran numero di risorse disponibili.
I primi 'beneficiari' dello stemming furono infatti i nomi di dominio, i nomi delle directory e i nomi dei file (pagine, immagini...). Subito dopo anche il testo delle pagine.

Per stemming (nel senso comune) si intende la capacità di un computer o di un algoritmo di formulare diversi termini partendo da una data radice (stem).
Dal punto di vista dell'INFORMATION RETRIEVAL, lo stemming viene utilizzato durante il processo di parsing dei documenti: il testo viene separato dal codice, e i termini vengono "ridotti" alla loro radice: sunshine, sunrise, sunset diventeranno semplicemente sun. Gli stessi termini verranno re-ampliati in fase di risposta ad una ricerca: partendo dallo stem SUN si potranno ricavare SUNshine, SUNset, SUNrise...

Nelle guidelines, Google (in maniera molto sbrigativa) etichettò come 'stemming' la novità del suo algoritmo. Che, come detto prima, va oltre.
Alcune delle caratteristiche che elencheremo sono controverse e dibattute, anche se sono in molti a testimoniarne gli effetti sui propri siti web.


APPROCCIO LINGUISTICO DI GOOGLEBOT

1. Stemming (caratteristica descritta prima)

2. Siccome lo stemming semplice in lingue come l'inglese in molti casi è inefficace (es: lo stemming di 'study' non dà 'studies' pur essendone semplicemente la terza persona singolare), vi è l'utilizzo di un dizionario con tutte le varianti possibili di una parola (es: lady , ladies, lady's...). Questo meccanismo è definito LEMMATISATION

3. La capacità di isolare un gruppo di lettere all'interno di una sequenza più ampia (es: [www.ilnostroINTERrail.it])

4. La capacità di scomporre una sequenza alfabetica in segmenti con significato coerente (es: whensunraises = when | sun | raises)

5. Scomposizione degli acronimi più famosi e/o autorevoli (es: cercando DOT, che vuole dire 'punto', il primo risultato è il sito del Department of Transportation, al terzo il Department of Telecommunication, India)

6. Possibilità, per lo spider, di ignorare alcune parole che non influiscono significativamente sul contesto generale del testo (es: new, real, old, big). L'eliminazione delle Stop Words (preposizioni e articoli) era già implementata prima dello stemming.


PAGINE DI RESPONSO (VALUTAZIONE, RANKING E VISUALIZZAZIONE RISULTATI)

1. Sono preferite, salvo rare eccezioni, le pagine che contengono la query esatta. Per ricerche 'difficili' (contenenti ad esempio una singola parola, o parallelamente una lunga frase - max 32 parole), valgano i parametri al punto 2 e 3 seguenti.

2. Basandosi sulle ricerche degli utenti (che sono registrate), il dizionario può creare riferimenti tra diverse parole e inserire nelle Serp's collegamenti a pagine che non contengono le query di ricerca ma che soddisfano ugualmente le aspettative dell'utente (naked = nude).

3. I documenti vengono analizzati dal punto di vista 'semantico': per quanto questa capacità sia ancora in fase sperimentale, succede spesso che una pagina riceva accessi da Google per una data ricerca anche se la pagina non contiene alcuna delle keyword della query. (vedi LSI, LATENT SEMANTIC INDEXING)
Più che in passato stiamo osservando come il ranking di una pagina dipenda molto dal contesto dell'intero sito cui appartiene. Una pagina web può non contenere le query di ricerca, ma se il tema generale trattato è vicino, come contenuti, alla ricerca effettuata, potrà essere preferita rispetto ad altre che invece la soddisfano.


TRATTINO O UNDERSCORE?

Uno dei dubbi più frequenti tra i Seo e i webmaster riguarda la scelta del separatore di parola. L'avvento dello stemming ha confuso ulteriormente le idee.
Come separatore è meglio usare il trattino [-], dal momento che Google non splitta i termini distanziati con l'underscore [_], vedendoli come parola unica.
La ragione di ciò è probabilmente ricercabile nel significato del carattere underscore (valore ASCII 95), utilizzato in origine per permettere la sottolineatura di testi scritti con la macchina da scrivere (qualcuno ricorda le vecchie Olivetti?). Inoltre con l'avvento del computer, molti applicativi renderizzavano una parola preceduta e seguita da un underscore come interamente sottolineata (esempio: _googlerank_ diventava googlerank ).

NOMI DEI FILE, DOMINIO E TESTI ALL'INTERNO DEL BODY TAG
Su Google, in fase di restituzione grafica dei risultati possono essere evidenziate in bold anche keyword contenute in stringhe alfanumeriche separate da underscore [_], ad esempio "ciao_mamma". Ciò non vuole dire che durante l'indicizzazione l'underscore sia visto come separatore di parola, anzi. Il consiglio che posso dare è di continuare ad usare il separatore classico [-] (trattino, hyphen), che è l'unico simbolo riconosciuto da Google per separare termini in URL e TESTI. Idem vale per l'usanza di scrivere i termini attaccati, ad esempio "ciaomamma": separare i termini che in un testo normale si separerebbero, e per farlo usare l'hyphen [-], quindi "ciao-mamma".


LATENT SEMANTIC INDEXING

La LSI è la capacità di un software che effettua ricerche di associare e presentare diversi documenti non in base alla soddisfazione esatta della chiave di ricerca (query), ma al contesto e al significato esteso della query. Il software che implementa la LSI nei suoi algoritmi, tuttavia, non ha la capacità di leggere o comprendere il significato di un termine. Basa quindi il suo comportamento registrando le ricerche degli utenti e autoaggiornando il suo archivio di riferimenti.

Ad esempio, cercando informazioni su "Alessandro Del Piero", la LSI potrà visualizzare anche risultati pertinenti a "Juventus", "Serie A", "Champions League". Il software, ovviamente non sa assolutamente chi sia Alessandro Del Piero, ma basandosi sulle ricerche passate e sui comportamenti degli utenti, associa -con minima possibilità di errore- il termine ricercato con altri pertinenti come contesto e semantica.

Vedi anche ESPANSIONE DELLA QUERY - QUERY EXPANSION


PER I WEBMASTER

Lo stemming (o meglio, l'insieme delle abilità linguistiche e semantiche degli spider) è stato implementato a favore degli utenti. Dopo un anno di 'calibratura' (il 2004) , ora i risultati sono più stabili e di norma le pagine che soddisfano esattamente la query sono preferite. Così come ogni tipo di implementazione degli ultimi 3 anni (vedi ad es la 'SANDBOX' o il brevetto "INFORMATION RETRIEVAL BASED ON HISTORICAL DATA") ogni novità si presta ad innumerevoli speculazioni.

1. Ottimizzare le pagine ai fini di una ricerca esatta (come se lo stemming non esistesse)
2. All'interno delle pagine, spaziare le parole che devono essere spaziate.
3. Nomi directory e file. Utilizzare sempre il separatore di parole classico [-] piuttosto che l'underscore. Non scrivere le parole attaccate.
4. Per quanto possibile suddividere gli argomenti trattati nel sito in cartelle nominate coerentemente. In questo caso una dir nominata [www.tuosito.com/scarpe-sport/] avrà senso di esistere
5. Nome di dominio. Per quanto sia antipatica e quanto sia eticamente un po' da spammer, la tecnica del keyword-rich domain è ancora un buon veicolo di rilevanza per il proprio sito. Sempre che questo sia attinente con il tema generale del sito.

Per chi esegue ricerche:

E' possibile escludere ogni forma di stemming linguistico nelle proprie ricerche usando l'operatore "+" (es: Ellis new +book ; +window )

 

note: Parte di questa sezione è tratta da un intervento dell'autore [ Stuart ] nel FORUM DEL SITO GIORGIOTAVE.IT



RISORSE ESTERNE, REFERENCE

LO STEMMING NELLA DEFINIZIONE DI GOOGLE
UNA SINTETICA SPIEGAZIONE DELLA L.S.I. - LATENT SEMANTIC INDEXING (ENGLISH)
TRATTINO O UNDERSCORE? ESPERIMENTO E CONSIDERAZIONI

PAGINA INIZIALE - COVER

INTRODUZIONE ALLA GUIDA

FUNZIONAMENTO DI GOOGLE™

CARATTERISTICHE GENERALI
LISTA DATA CENTER
PREVENZIONE SPAM
LA SANDBOX DI GOOGLE
STEMMING E APPROCCIO LINGUISTICO

ANALISI DI PROGETTO

STRUTTURA DEL SITO

U.R.L.
ESEMPIO GRAFICO
SPIEGAZIONE
DOORWAY / RICH CONTENT PAGE

COSTRUZIONE DELLE PAGINE

TITLE TAG
META TAG
BODY

BODY CONTENT

STRUTTURA HTML
ATTRIBUTO ALT DELLE IMMAGINI
COLLEGAMENTI IPERTESTUALI

DENSITA' DELLE PAROLE CHIAVE
SOVRAOTTIMIZZAZIONE

SITE NETWORKING

PAGERANK™

GOODIES

GLOSSARIO
SEO: COMPETENZE, STRUMENTI, SOFTWARE

TUTELA LEGALE DEI PROPRI CONTENUTI

© 2002/2006 GOOGLERANK.COM (FEAR MANIFESTO ITALIA ) TUTTI I DIRITTI RISERVATI| CONTATTI | PRIVACY POLICY