GOOGLERANK / ITA / COVER / densita-parole-chiave.html
DENSITA' DELLE PAROLE CHIAVE E INFORMATION RETRIEVAL
PARTENDO DA UN CONCETTO OBSOLETO COME LA MISURA DELLA DENSITA' (INTESA COME NUMERO DI OCCORRENZE RAPPORTATO ALLA QUANTITA' DI TESTO) DELLE PAROLE CHIAVE ALL'INTERNO DI UN DOCUMENTO, VERRANNO FATTI RAPIDI ACCENNI ALL'INFORMATION RETRIEVAL MODERNO, DIMOSTRANDO CHE GLI ODIERNI MOTORI DI RICERCA NON UTILIZZANO PIU' IL NUMERO DELLE RIPETIZIONI DI UN DATO TERMINE COME METRO DI VALUTAZIONE DELLA RILEVANZA DI UNA RISORSA.
DEFINIZIONE DI KEYWORD DENSITY - KD
Si intende per densità delle parole chiave (KD, misurata in %) il peso che una data parola chiave ha rispetto al testo (incluso il codice) contenuto in una pagina HTML. In passato (e ancora oggi, purtroppo) vi era la convinzione che maggiori motori di ricerca internazionali considerassero Spamming una pagina in cui una data keyword presentava una densità superiore al 5% / 6%.
Google tuttavia sembra non penalizzare un'alta densità di parole chiave: l'algoritmo di Google è studiato per penalizzare l'estrema RIDONDANZA delle parole chiave sovente posta in essere al fine di aumentarne artificiosamente le occorrenze all'interno di una pagina.
Questa è la ragione per cui, quando si ottimizza una pagina dal punto di vista della densità delle parole chiave, è preferibile adottare una strategia di DISTRIBUZIONE - PATTERN - DELLE PAROLE CHIAVE piuttosto che dedicarci alla semplice misura della densità.
La misurazione della densità delle parole chiave nasce fondamentalmente con la nascita dell'ottimizzazione per i motori di ricerca, e ha come radice psicologica la convinzione che per la query "XYZ":
1. Un documento che include 10 occorrenze del termine XYZ è preferito rispetto ad un documento che ne presenta di meno. Vero, ma va precisato che questo aspetto è solo UNO -e neanche il più rilevante- dei processi dell'IR, che attiene alla mera LOGICA PROBABILISTICA della rilevanza di un documento (vedi sezione L'INFORMATION RETRIEVAL MODERNO);
2. Un documento che include troppe occorrenze del termine XYZ, rispetto al codice e al testo contenuto, è considerato dai motori di ricerca spam (vero in parte).
Partendo da questo schema mentale proprio di molti webmaster, si è cercato quindi di ipotizzare un limite tra l'effettiva rilevanza di un documento, basata sull'occorrenza di un termine, e lo spam. Da qui il concetto di keyword density e tutti gli strumenti in grado di misurarla. Un malinteso culturale per altro molto facile da 'vendere' ai do-it-yourself SEO verso la fine degli anni 90 e negli anni successivi, visto che era molto facile trovare nelle primissime posizioni di Google pagine composte da infinite ripetizioni di parole chiave. La cui maggiore rilevanza era probabilmente dedotta dal gran numero di occorrenze dei termini della ricerca dell'utente. Con il passare del tempo, l'Information Retrieval di Google si è notevolmente evoluto, la qualità delle pagine dei risultati è stata progressivamente migliorata ed è stato naturale per puristi, ingegneri e matematici cavalcare l'onda dell'indignazione affermando che la keyword density non è mai stata applicata.
Per comprendere meglio come i motori di ricerca assegnano una rilevanza ad un documento, piuttosto che al concetto di keyword density bisogna fare riferimento ad alcune nozioni di MODERNO INFORMATION RETRIEVAL
L'INFORMATION RETRIEVAL MODERNO
Per Information Retrieval (IR) si intende quell'insieme di processi e algoritmi utilizzati da un motore di ricerca in fase di indicizzazione, archiviazione e restituzione dei documenti a seguito della ricerca di un utente. Tali processi includono, ma non sono limitati a, lo STEMMING e l'ESPANSIONE DELLA QUERY (vedi sotto), oltre al celebre PAGERANK™
La ricerca tra i documenti presenti nel database di un motore di ricerca avviene secondo uno schema 'keyword based'. Molto semplicemente l'utente dichiara una serie di parole chiave che si aspetta di ritrovare
nei documenti che verranno presentati come risposta alla sua ricerca. Il modello classico di ricerca all'interno di un db restituirebbe all'utente documenti ordinati in base al numero di volte che la query è presente: maggiori occorrenze, miglior ranking nei risultati. I motori di ricerca non funzionano così, e implementano modelli molto più sofisticati di valutazione delle risorse.
Dopo il fallimento dell'information retrieval basato su metadati, teoricamente ottimo, ma incompatibile con la natura umana incline all'abuso di qualsiasi strategia utile all'autopromozione, l'evoluzione dei processi di indicizzazione e ranking delle risorse web si è orientato verso criteri meno controllabili e abusabili dai webmaster.
Lo scopo principale dell'IR è quello di fornire all'utente risorse utili e pertinenti con la ricerca effettuata. A tale proposito si parlerà di RECALL, PRECISIONE, RILEVANZA.
RECALL: questo termine fa riferimento a quanti elementi vengono selezionati a seguito di una ricerca. Ad esempio su 100 oggetti presenti in un armadio, voglio selezionare solo i libri con la copertina rossa. Ne estraggo 20. Il recall quindi sarà del 20%.
PRECISIONE: siccome la mia ricerca è fatta per trovare libri con copertina rossa, dei 20 libri selezionati inizialmente, sceglierò solo i libri con copertina rossa. La precisione quindi è definita come una seconda selezione fatta tra i documenti presenti nel recall della ricerca.
L'obiettivo finale dell'IR è quindi fornire i risultati più precisi possibili sulla base delle risorse richiamate dall'utente.
All'interno di un archivio comprendente un numero limitato di documenti, è sufficiente per un database affidarsi a recall e precisione per soddisfare le query. Il World Wide Web è però costituito da miliardi di documenti e risorse, e verrà quindi fatta un'ulteriore selezione dei documenti, basata sulla RILEVANZA: essa rappresenta una misura della pertinenza e dell'utilità di un documento ai fini della soddisfazione della query. E da questa dipende poi la classificazione all'interno dei risultati visualizzati dall'utente: documenti più rilevanti avranno un ranking maggiore.
L'Information Retrieval moderno è orientato verso processi di indicizzazione e valutazione delle risorse che siano il più possibile non controllabili dai webmaster. Ovviamente i REALI processi di IR di ogni singolo motore vengono tenuti rigorosamente segreti. E' possibile però consultare testi universitari, ricerche, white paper, brevetti che documentino, teorizzino e spieghino tutte le fasi della vita di un documento all'interno di un search engine: dalla sua indicizzazione alla sua presentazione all'utente sotto forma di risultato di una ricerca.
MODELLO VETTORIALE - VECTOR SPACE MODEL
Documenti e richieste sono rappresentati come vettori di termini. Ogni posizione nel vettore rappresenta un certo termine che compare nell’intera collezione dei documenti.
Il processo sulla base del modello vettoriale può dividersi in tre fasi: (1) la prima fase prevede l'estrazione di termini non rilevanti all'interno del documento (congiunzioni, preposizioni...); (2) la seconda prevede l'assegnazione di un peso ai termini contenuti nel testo per migliorare il recupero delle informazioni a seguito della query di un utente; (3) la terza prevede l'assegnazione di un valore (ranking) al documento dipendentemente dalla similarità con la query.
1. Lo scopo della prima fase è separare le parole che non descrivono il contenuto della pagina, da quelle che influiscono su argomento, contenuti, rilevanza. Vengono quindi eliminate le cosiddette stop words, con metodi linguistico-dipendenti (uso di un dizionario di stop word). Recentemente sono stati introdotti metodi non-linguistici di indicizzazione, che fanno riferimento a cluster (raggruppamenti) di parole: la valutazione dei cluster cui una parola appartiene indica se la parola è descrittiva del documento oppure va esclusa dall'indicizzazione.
2. Term Weighting - Assegnazione di un peso ai termini. Nel modello vettoriale il peso rappresenta l'importanza di un determinato termine all'interno di un documento o per una determinata query. Il metodo più comune per assegnare un peso ai termini è calcolarne la FREQUENZA. Non solo all'interno del documento indicizzato, ma all'interno dell'intera collezione di documenti indicizzati.
Risultati migliori, come recall e precision, sono ottenuti tramite il "Length Normalization Factor": documenti lunghi (con molto testo) contengono molti termini e quindi hanno maggiori probabilità di essere presentati come risultato di una ricerca. Ciò non sempre è equo. Il LNF serve a correggere questa disparità di partenza, stabilendo un coefficiente di normalizzazione dei documenti presenti nell'archivio.
3. Valutazione e presentazione dei documenti.
Nel vector Space model, la similarità tra i documenti nell'archivio e la query viene calcolata misurando l'ANGOLO tra il vettore che compone la query e i vettori che compongono i documenti in archivio. Tanto più piccolo è l'angolo calcolato, tanto più simili (e rilevanti) saranno i documenti.
LOGICA PROBABILISTICA
Definisce, in base ad alcuni presupposti, la probabilità che un documento sia maggiormente rilevante per una data ricerca. Questa possibilità è calcolata algoritmicamente e si definisce "weighting" (trad. peso): il peso della rilevanza di una pagina web è calcolato prendendo in esame alcuni fattori. La frequenza con cui un dato termine è ripetuto all'interno del documento; la posizione del termine cercato è determinante: l'URL o il TITLE tag costituiscono posizioni preferenziali; il numero delle occorrenze di un dato termine all'interno del documento; l'adiacenza o la prossimità : se i termini della query sono reperiti vicini all'interno di un documento, questo è preferito (ricerca esatta).
QBE - QUERY BY EXAMPLE - RICERCA AD ESEMPIO
Fornisce all'utente la possibilità di cercare all'interno del database semplicemente digitando i termini della sua ricerca. Senza quindi conoscere il linguaggio specifico di reperimento informazioni proprio del motore di ricerca. Cercando, ad esempio, "Ultimo Singolo dei REM", l'utente dà al motore di ricerca un 'esempio' di cosa sta cercando, e automaticamente il motore
QUERY EXPANSION - ESPANSIONE DELLA QUERY
Al fine di incrementare precisione e recall di una ricerca, il motore di ricerca -affidandosi ad un thesaurus, o a precedenti ricerche, o ad entrambe le cose- può espandere la ricerca fornendo all'utente risultati che includono termini e/o concetti aggiuntivi ma correlati.
Ad esempio una ricerca del termine "Ferrari" potrà includere tra i risultati anche documenti relativi a "Modena", "Automobili".
E' molto importante studiare come Google espande la query delle parole chiave per cui vorrai ottimizzare il sito. Innanzitutto per trovare parole chiave alternative, e soprattutto per creare un sito internet completo, profondo, che copra l'intero spettro dei risultati possibili a seguito di una ricerca.
Per capire come Google espande un determinato termine si può interrogare il database utilizzando l'operatore tilde [~]. Ad esempio, espandiamo la ricerca del termine "FERRARI", escludendo dalla ricerca proprio il termine Ferrari.
~ferrari -ferrari
L'analisi dei risultati ottenuti permette di sapere, con buona approssimazione, ciò che Google si aspetta di trovare in un sito che si prefigge l'obiettivo di ben posizionarsi nelle serp con quella parola chiave.
CLUSTERING: trad. Raggruppamento.
Basato sull'ipotesi che documenti che hanno contenuti simili possano soddisfare la stessa query. Tramite algoritmi di clustering il motore di ricerca raggruppa in aree semantiche definite documenti che trattano dello stesso argomento. La similarità tra documenti può essere calcolata utilizzando vettori, ma non è l'unico metodo possibile (vedi Metodo Neurale).
Algoritmi di clustering vengono utilizzati anche per isolare le diverse accezioni che uno stesso termine può avere.
La sezione dedicata all'Information Retrieval presente su questa pagina non è, e non ha la pretesa di essere, esaustiva e approfondita. Questa GUIDA AL POSIZIONAMENTO SU GOOGLE, ha fini prettamente strategici e operativi, non finalizzata quindi alla divulgazione teorica del possibile funzionamento dei processi di indicizzazione e valutazione di Google (che, per inciso, sono segreti). La conoscenza dell'IR è indubbiamente importante se ci si vuole avvicinare al modus operandi di un search engine.
A fondo pagina ho inserito collegamenti a risorse utili per chi volesse approfondire le tematiche / problematiche dell'IR; esse rappresentano un buon punto di partenza per le proprie ricerche, che andranno perfezionate con lo studio dei brevetti di Google.
|
DISTRIBUZIONE DELLE PAROLE CHIAVE - KEYWORD PATTERN - KP
La keyword pattern è molto semplicemente la misura in cui una data parola chiave appare in un testo, senza mai essere ripetuta per due volte consecutive. In altre parole un inserimento ottimale delle parole chiave al fine di aumentarne le occorrenze (e quindi incrementare sensibilmente la rilevanza) della parola chiave che abbiamo scelto evitando però il rischio di penalizzazione.
esempio 01 - NO
plastic mouse plastic mouse plastic mouse
Qui l'intenzione di influenzare pesantemente - in maniera non onesta- l'indicizzazione fatta da Googlebot è evidente. Una tecnica simile non solo è chiaramente scorretta, ma è anche facilmente individuabile da Google e causare penalizzazione -se non banning- del sito.
Ricordarsi sempre che i robot di Google sono programmati affinchè simulino, con maggior realismo possibile, un essere umano che legge, giudica e cataloga. Ripetere all'infinito le parole chiave è un metodo sicuro per ottenere una bassissima classificazione.
esempio 02 - SI!
Our plastic mouse has been winning the Best Plastic mouse awards since 1999 and today we can ensure that our Plastic Mouse is the Best one around.
Notare che la frase keyword "plastic mouse" appare 3 volte all'interno del paragrafo. Lo stesso accadeva nell'esempio 01. La differenza, nel secondo esempio, è che le parole chiave compaiono lo stesso numero di volte ma 'distribuite' in maniera naturale all'interno di un testo.
L'esempio appena fatto è da considerarsi puramente esplicativo del concetto di Keyword Pattern. Devo precisare che uno sviluppo innaturale di un testo all'interno di una pagina web, soprattutto se presenta numerose occorrenze dello stesso termine, potrebbe causare una penalizzazione per SOVRAOTTIMIZZAZIONE.
RISORSE ESTERNE - REFERENCE
KEYWORD DENSITY VS ESPANSIONE DELLA QUERY SUL FORUM GIORGIOTAVE.IT
VECTOR SPACE MODEL (ITA, PDF)
MODERN INFORMATION RETRIEVAL - BRIEFING OVERVIEW
MODERN INFORMATION RETRIEVAL - INTRODUZIONE - BERKELEY UNIVERSITY
COME IL WEB HA CAMBIATO L'INFORMATION RETRIEVAL
SPINNING A WEB SEARCH - TRENDS IN INFORMATION RETRIEVAL - LETTURA CONSIGLIATA
QUERY BY EXAMPLE - SUGIHARA J
|
PAGINA INIZIALE - COVER
INTRODUZIONE ALLA GUIDA
FUNZIONAMENTO DI GOOGLE™
CARATTERISTICHE GENERALI
LISTA DATA CENTER
PREVENZIONE SPAM
LA SANDBOX DI GOOGLE
STEMMING E APPROCCIO LINGUISTICO
ANALISI DI PROGETTO
ANALIZZA TE STESSO E I TUOI CONCORRENTI
SCEGLI LE GIUSTE PAROLE CHIAVE
STUDIO DEL MERCATO E DELLE PAROLE CHIAVE
STRUTTURA DEL SITO
U.R.L.
ESEMPIO GRAFICO
SPIEGAZIONE
DOORWAY / RICH CONTENT PAGE
MACROMEDIA™ FLASH
COSTRUZIONE DELLE PAGINE
TITLE TAG
META TAG
BODY
BODY CONTENT STRUTTURA HTML
ATTRIBUTO ALT DELLE IMMAGINI
COLLEGAMENTI IPERTESTUALI
DENSITA' DELLE PAROLE CHIAVE
SOVRAOTTIMIZZAZIONE
SITE NETWORKING
INTRODUZIONE E APPLICAZIONE
DIRECTORY STYLE
PASSIVE MODE STYLE
SITI SATELLITE
PAGERANK™
DESCRIZIONE
L'IMPORTANZA DELLE DIRECTORY
PAGERANK IN VENDITA?
AGGIORNAMENTO DEL DATABASE DI GOOGLE™
SUGGERIMENTI PER LA LINK POPULARITY
GOODIES
GLOSSARIO
SEO: COMPETENZE, STRUMENTI, SOFTWARE
TUTELA LEGALE DEI PROPRI CONTENUTI
GENERATORE GOOGLE SITEMAP |