GOOGLERANK / ITA / COVER / aggiornamento-google.html
AGGIORNAMENTO DELL'INDICE - DATABASE - DI GOOGLE
GOOGLE EVERFLUX: LA GOOGLE DANCE NON ESISTE PIU'
FRESH CRAWL, DEEP CRAWL. GLI AGGIORNAMENTI STORICI DI GOOGLE: FLORIDA (STEMMING E OOP), AUSTIN (HILLTOP) E JAGGER (CANONICALIZATION)
ATTENZIONE: PER VEDERE LA LISTA AGGIORNATA DEGLI AGGIORNAMENTI (EXPORT) DEL PAGERANK VISUALIZZATO SULLA TOOLBAR, DEI BACKLINK E DEGLI ALGORITMI, CLICCA QUI
Gli spider di Google (GoogleBot) sono "agenti" (iperbolica traduzione del termine inglese "AGENT"). Programmi assimilabili a dei browser molto semplificati che setacciano in continuazione la Rete alla ricerca di nuovi contenuti o di aggiornamenti delle pagine già esistenti in archivio. Gli spider di Google agiscono prevalentemente seguendo i LINK presenti sulle pagine web. Inoltre, recentemente, seguono gli Url presenti nelle Sitemap in XML compatibili.
Googlebot effettua due tipi di ricerca-archiviazione:
1. FRESH-crawl (quotidiana)
Serve per aggiornare l'archivio con nuove pagine e pagine aggiornate dall'ultima indicizzazione. Questo tipo di archiviazione è utile a Google per avere in cache la versione più aggiornata possibile di siti che vengono cambiati frequentemente, come ad esempio i siti che forniscono notizie.
IL GOOGLE EVERFLUX:
il Fresh-Crawl aggiunge i dati in un archivio temporaneo i cui risultati vengono incorporati ai risultati degli archivi consolidati (quelli richiamati durante una normale ricerca); questo permette a Google di indicizzare in maniera continua il Web pur fornendo all'utente contenuti sempre aggiornati. Confusione potrebbe sorgere dal fatto che l'archivio temporaneo utilizzato per il fresh-crawl viene sovrascritto ogni giorno con i dati della nuova indicizzazione. Questo significa che una pagina che si trova nell'archivio temporaneo oggi (e quindi appare nei risultati) potrebbe scomparire improvvisamente il giorno dopo.
Se questo accade non c'è da preoccuparsi. Accade di frequente che i nuovi siti compaiano velocemente tra i risultati delle ricerche per poi scomparire improvvisamente. Una volta che la deep crawl (vedi sotto) li indicizzerà verranno inseriti nei database di Google (quest'ultimo fenomeno è una delle osservazioni che hanno generato la teoria della SANDBOX).
L'aggiornamento dell'indice per il singolo data center sembra avvenire in una sola volta. Una volta che il data center mostra i risultati del nuovo indice, non utilizzerà più i dati del precedente. Questo avviene principalmente perchè all'inizio tutti i dati sono duplicati all'interno dei data center (perchè hanno ricevuto i nuovi risultati dell'aggiornamento senza sovrascrivere i dati esistenti). Durante questo periodo, una metà del server è preposta a fornire i risultati e l'altra viene aggiornata. Quando l'aggiornamento della prima parte del server è completata, l'aggiornamento diventa consultabile mentre viene aggiornata la seconda metà del server. Pertanto, dalla prospettiva dell'utente, l'aggiornamento di un data center avviene una sola volta.
2. DEEP-crawl (mensile)
La Deep Crawl è effettuata una volta al mese, e quando accade, tutto il web è analizzato, pagina per pagina, documento per documento, aggiornando così l'archivio consolidato di Google, i valori del Pagerank, la cache e le posizioni nei risultati (ranking).
Quando questo aggiornamento è ultimato, servono circa 6/8 giorni affinchè i contenuti degli 8 data center di Google (vedi sotto) siano allineati e restituiscano risultati stabili. Questo processo è chiamato Google Dance (la danza di Google) perchè i risultati delle ricerche in questo breve periodo cambiano frequentemente. Dopo qualche giorno, quando i nuovi dati sono stati propagati nei data center i risultati diventano stabili.
Per i webmaster, che osservano variazioni quotidiane, seppur minime, nelle pagine dei risultati (dovute al diverso DATACENTER richiamato), la Deep Crawl non è più l'evento che era qualche anno fa. Ai tempi della pubblicazione della prima versione di questa GUIDA AL POSIZIONAMENTO SU GOOGLE (2002 - Inglese) chiunque avesse a cuore le sorti del proprio posizionamento durante una DEEP crawl poteva servirsi dei due TEST DOMAINS di Google: www2 e www3: quando iniziava il processo di aggiornamento dell'indice (la dance, insomma) i webmaster interessati a conoscere le nuove posizioni ranking e i valori pagerank potevano utilizzare i domini www2.google.com and www3.google.com. Questi domini hanno DNS stabili, il che rende possibile per il browser risolvere l'IP digitandone direttamente l'url. Prima che la google dance inizi, ad uno dei domini di test viene assegnato l'IP del data center che per primo riceverà i nuovi risultati dell'aggiornamento.
ALCUNI DEGLI AGGIORNAMENTI PIU' FAMOSI
FLORIDA UPDATE - NOVEMBRE 2003
Il 16 novembre del 2003, un aggiornamento che ebbe l'effetto di un tornado (e quindi 'Florida') fece sparire (o apparire in 1000esima posizione) migliaia di siti.
Allo stesso tempo, i risultati delle pagine di ricerca apparirono qualitativamente scarsi, con siti mediocri posti alle primissime posizioni, e siti famosi e qualitativamente ottimi scalzati dalle precedenti posizioni e gettati al fondo dell'archivio.
Fu l'effetto combinato dell'epocale introduzione dello STEMMING e, secondo alcuni, fu proprio durante questo Update che venne introdotta la OOP - OVER OPTIMIZATION PENALTY
AUSTIN UPDATE - FEBBRAIO 2004
Forse meno drammatico del precedente, ma altrettanto importante. Durante questo update si osservò l'applicazione del nuovo algoritmo HILLTOP che, in combinazione con il PAGERANK , fornisce risultati più rilevanti per l'utente, ridefinendo un peso semantico e tematico dei link in uscita e in entrata.
L'ALGORITMO HILLTOP.
Utile spiegare brevemente in cosa consiste questo particolare algoritmo di Google, datato 2001, e che porta la firma di Krishna Bharat (vedi documento ufficiale, nelle Reference). Prima dell'introduzione di Hilltop, l'assegnazione di un livello di autorevolezza ad un documento dipendeva esclusivamente dal Pagerank. In poche parole, tutti i link in entrata, da qualsiasi sorgente, erano validi ai fini della rilevanza di un documento. Hilltop invece, assegna ai link un valore maggiore o minore a seconda dell'argomento trattato dalla pagina da cui proviene il link. Inbound link provenienti da risorse pertinenti, per tema, avranno un valore positivo. Inbound link provenienti da pagine non correlate, avranno valore minimo.
Hilltop introduce il concetto di Expert Sites. Per determinate query Google seleziona una serie di documenti detti 'esperti', che contengono collegamenti a risorse rilevanti e pertinenti alla ricerca fatta. Durante il processo di output delle ricerche il motore decide se far comparire tra i risultati la pagina expert o uno dei documenti linkati.
JAGGER UPDATE - OTTOBRE NOVEMBRE 2005
E' l'ultimo e più importante update ed è durato circa 2 mesi. Suddiviso in due parti (Jagger part I e Jagger part II e, secondo webmasterworld, anche Jagger part III). Le novità dell'update riguardano i link reciproci (o acquistati), ora fortemente svalutati, una pulizia di risorse duplicate (poche bannate, moltissime filtrate), e il controverso termine CANONICALIZATION, come aspetto secondario del filtraggio delle risorse duplicate.
CANONICALIZATION. Sinteticamente, s'intende la scelta definitiva di un nome unico per una risorsa. Come tutti sanno, esistono svariati modi di richiamare una risorsa web. Ad esempio:
http://www.googlerank.com
http://googlerank.com
http://www.googlerank.com/index.htm
sono evidentemente tre indirizzi che richiamano legittimamente la stessa pagina. Google tuttavia considera gli URL soprariportati come risorse DIVERSE, e quindi DUPLICATE. Secondo i consigli di MATT CUTTS, per ovviare al dualismo www e non-www degli indirizzi web sarà opportuno agire a livello di configurazione server (o con htaccess) per redirigere permanentemente un indirizzo verso l'altro (code 301). Inoltre, sarà utile scegliere un'unica forma per linkare internamente le pagine.
AGGIORNAMENTO DEI VALORI PAGERANK™
Con l'introduzione della Fresh Crawl, gli aggiornamenti dei valori Pagerank (quelli visualizzati dalla TOOLBAR, non quellii REALI, che sono calcolati e ricalcolati continuamente) si sono svincolati dagli update dell'indice. Siccome il Pagerank viene calcolato costantemente, per aggiornamento s'intende l'EXPORT di tale valore in una forma visibile agli utenti tramite TOOLBAR o GOOGLE DIRECTORY. Mediamente questi valori vengono esportati ad intervalli di tempo, compresi tra i 30 e i 90 giorni.
RISORSE ESTERNE - REFERENCE
L'ALGORITMO HILLTOP
ARCHIVIO DEGLI AGGIORNAMENTI DEL PAGERANK E DEGLI ALGORITMI DI GOOGLE
GLI EXPERT SITES
|
PAGINA INIZIALE - COVER
INTRODUZIONE ALLA GUIDA
FUNZIONAMENTO DI GOOGLE™
CARATTERISTICHE GENERALI
LISTA DATA CENTER
PREVENZIONE SPAM
LA SANDBOX DI GOOGLE
STEMMING E APPROCCIO LINGUISTICO
ANALISI DI PROGETTO
ANALIZZA TE STESSO E I TUOI CONCORRENTI
SCEGLI LE GIUSTE PAROLE CHIAVE
STUDIO DEL MERCATO E DELLE PAROLE CHIAVE
STRUTTURA DEL SITO
U.R.L.
ESEMPIO GRAFICO
SPIEGAZIONE
DOORWAY / RICH CONTENT PAGE
MACROMEDIA™ FLASH
COSTRUZIONE DELLE PAGINE
TITLE TAG
META TAG
BODY
BODY CONTENT
STRUTTURA HTML
ATTRIBUTO ALT DELLE IMMAGINI
COLLEGAMENTI IPERTESTUALI
DENSITA' DELLE PAROLE CHIAVE
SOVRAOTTIMIZZAZIONE
SITE NETWORKING
INTRODUZIONE E APPLICAZIONE
DIRECTORY STYLE
PASSIVE MODE STYLE
SITI SATELLITE
PAGERANK™
DESCRIZIONE
L'IMPORTANZA DELLE DIRECTORY
PAGERANK IN VENDITA?
AGGIORNAMENTO DEL DATABASE DI GOOGLE™
SUGGERIMENTI PER LA LINK POPULARITY
GOODIES
GLOSSARIO
SEO: COMPETENZE, STRUMENTI, SOFTWARE
TUTELA LEGALE DEI PROPRI CONTENUTI
GENERATORE GOOGLE SITEMAP |