TECNOLOGIA DI GOOGLE - PAGERANK ®
Googlerank Docs / ITA
/ Tecnologia - Pagerank ®
Approfondiamo qualche nozione tecnologica
alle spalle di Google.
Da un punto di vista tecnico un motore di ricerca va valutato
in base a tre fattori:
- Le dimensioni dell'archivio date dal numero di pagine indicizzate
- La frequenza di aggiornamento
- Il sistema "Ranking"
Sui primi due fattori Google non presenta
diversità dai suoi concorrenti diretti. Il suo punto
di forza è il suo sistema di ranking, denominato pagerank
®.
Ciascuna delle pagine web indicizzate dallo spider di Google
viene catalogata secondo due aspetti. Da un lato sulla base
del numero di occorrenze di un certo termine (e finora nessuna
differenza con i sistemi tradizionali), da un lato da un punto
di vista puramente topografico.
Ogni pagina web, infatti, è raggiungibile perchè
esistono altre pagine web che la linkano. Da un punto di vista
topografico quindi, una pagina web può essere osservata
come una struttura con un certo numero di entrate (le pagine
che la linkano) e con un certo numero di uscite (le pagine linkate).
Maggiore è il numero di link entranti più alta
sarà l'autorevolezza di quella pagina e, allo stesso
tempo, maggiore sarà la probabilità che i siti
che questa linka siano anch'essi autorevoli. Naturalmente più
la pagina è linkata maggiori saranno le possibilità
che essa venga visitata e, contemporaneamente, più una
pagina viene visitata maggiori saranno le possibilità
che le pagine da lei linkate siano a loro volta visitate. Da
un punto di vista matematico questa visita è una catena
di MarKov. Si dà un insieme di stati e ad ogni istante
di tempo ciascuno di questi ha una certa probabilità
di transitare ad un altro stato.
Questa probabilità è il ranking effettuato da
Google.
Vengono pertanto compiuti due tipi di ricerca incrociati. Il
primo, più tradizionale, serve per inviduare un certo
numero di pagine che contengono la parola ricercata, il secondo
per individuare, tra queste, quale sia più utile al navigatore.
Il Pagerank® rappresenta l'indicatore generale dell'importanza
che Google attribuisce ad una determinata pagina web indipendentemente
dalla specifica interrogazione che genera l'elenco. L'ordine
in cui vengono visualizzati i risultati dipende quindi dalle
caratteristiche delle pagine stesse, ossia dai dati del web
che Google analizza utilizzando complessi algoritmi che studiano
la struttura dei link.
Naturalmente, una pagina "importante" non è
di grande interesse per l'utente se non contiene il termine
da lui ricercato. Per questa ragione Google utilizza sofisticate
tecniche di analisi del testo per trovare pagine che siano nello
stesso tempo importanti e attinenti dal punto di vista dell'interrogazione.
Per analizzare una pagina, ad esempio, Google considera quello
che di questa pagina dicono altre pagine contenenti link che
rinviano ad essa.
Oltre alla suddetta tecnica di valutazione
dell'importanza delle pagine, Google restituisce esclusivamente
pagine che contengono tutti i termini di ricerca inseriti dall'utente,
o nel testo della pagina o nei link che rimandano a quella pagina.
Google analizza anche la vicinanza tra questi termini all'interno
della pagina e dà la priorità a determinate pagine
sulla base della vicinanza tra i vari termini di ricerca all'interno
della stessa. Vengono privilegiate, in altre parole, quelle
pagine in cui i termini risultano molto vicini tra di loro in
modo da minimizzare il tempo necessario per scartare i risultati
irrilevanti.
|
L'Anatomia
di un motore di ricerca su larga scala
Di Sergey Brin e Larry Page, i creatori
di Google, questa è l'originale ricerca (risalente al periodo di
Stansford) che descrive il concetto tecnico che sta alla
base del Pagerank ®. (pdf
in inglese)
Pagerank spiegato.
La ricerca di Chris Ridings,
uno studio sull'algoritmo di un motore di ricerca chiamato"mini
rank"che può essere una valida spiegazione di come
il Pagerank ® di google funzioni. (pdf in inglese) |