FUNZIONAMENTO GOOGLE - COME GOOGLE PREVIENE LO SPAM - FEAR MANIFESTO EDITION 2006

GOOGLERANK / ITA / COVER / prevenzione-spam.html

METODI DI PREVENZIONE SPAM

CONTENUTI: COME GOOGLE PREVIENE TECNICHE SEO ILLECITE, IL DISCUSSO BREVETTO DENOMINATO "INFORMATION RETRIEVAL BASED ON HISTORICAL DATA", GOOGLE ANTISPAM TEAM - REINCLUSIONE NELL'INDICE DOPO UNA CANCELLAZIONE (BAN) PER ATTIVITA' SPAM.

CONSULTA ANCHE: L'EFFETTO SANDBOX

INFORMATION RETRIEVAL BASED ON HISTORICAL DATA -
UNITED STATES PATENT APPLICATION - NUMBER 20050071741

Nell'edizione precedente di questa Guida, avevo affermato che questo brevetto era assai fuorviante e non rappresentava in alcun modo una parte rivelata degli algoritmi di Google. Ed era vero. Come avevo precisato, i processi di IR (Information Retrieval) descritti erano complessi e al tempo inapplicati. Era altresì improbabile farlo a breve termine senza causare sconvolgimenti radicali dell'archivio (come accadde, ad esempio, con l'introduzione dello STEMMING).
Tuttavia, ad un anno esatto dalla pubblicazione del brevetto, si è osservato che alcuni aspetti hanno progressivamente trovato spazio negli algoritmi di recupero informazioni di Google, con particolare riferimento a quelli relativi ai CONTENUTI, e al TRAFFICO.

Utilizza questo brevetto come ulteriore, informale, linea guida: una sorta di promemoria di come Google potrebbe individuare gli spammer, a cui attenerti rigorosamente per ottenere il meglio da ogni intervento di ottimizzazione e promozione che porrai in essere.

Siccome questa è una GUIDA STRATEGICA ho ritenuto doveroso dedicare una sezione a questo brevetto; sia che questo documento descriva filtri attualmente applicati o applicabili a Google o no (personalmente ritengo di no) puoi utilizzare le informazioni contenute per rifinire le caratteristiche e le strategie del tuo sito internet.
Su internet troverai articoli e informazioni relative a questo brevetto molto più dettagliate di quelle fornite. In special modo su quei siti il cui webmaster è convinto che il file 20050071741 sia realmente una parte rivelata dell'algoritmo di Google.
Se vuoi leggere opinioni diverse (e mi aspetto che tu lo voglia fare) prova a fare una ricerca su Google.


Ciò che segue è un riassunto dei contenuti più interessanti del brevetto (molte parti, essendo redatte da uno studio legale, sono ripetute e le ho omesse).

Citazione dal file (tradotta letteralmente): "Il sistema identifica un documento e ottiene una o più tipi di dati storici associati ad esso. Il sistema potrebbe generare un punteggio basato, almeno in parte, su uno o più tipi di dati storici."

Ed ecco come l'autore del brevetto calcolerebbe il punteggio:

1. INBOUND LINKS (link prevenienti da altri documenti, detti anche BACKLINK)
Qualità, numero, testo dei link dall'esterno sono presi in considerazione, e non è una novità. La novità è il calcolo di una "storia" dei link: con quale frequenza i link al documento vengono aggiornati? Con quel testo vengono inseriti tali link? Un gran numero di link con lo stesso testo potrebbe rivelare attività di spam. Molti link con differenti testi porebbero rivelare contenuti frequentemente aggiornati ed interessanti. I dati storici includono anche il periodo di tempo in cui il numero dei link cresce (o diminuisce): troppi inbound link in un breve periodo di tempo potrebbero rivelare anche qui attività spam.

2. CONTENUTI
Contenuti rilevanti e sempre aggiornati sono preferiti. Il punteggio del contenuto è anche legato al comportamento dell'utente (vedi punto F , più sotto), perchè anche un contenuto non aggiornato potrebbe essere valido e interessante (ad esempio una biografia).
Cambiamenti significativi dei contenuti vengono presi in considerazione. La data in cui un documento viene aggiornato è registrata (questo avviene anche nel Google attuale N.d.A.).
I contenuti di un sito devono crescere gradualmente, in modo organico e naturale. Troppe pagine aggiunte in un brevissimo lasso di tempo potrebbero indicare spam. (stesso vale per i link, vedi punto A.)

NOTA. Questo aspetto trova applicazione negli algoritmi attuali

3. NOMI DI DOMINIO
Sembra che gli spammer registrino i domini per un anno, sovente falsificando i contatti (admin e owner). I domini registrati per più di un anno ottengono punteggio più alto.
Il brevetto non fa riferimento a dati storici relativi al dominio: focalizza l'attenzione sulla scadenza del dominio piuttosto che sulla sua creazione. Quindi se il tuo dominio è stato creato 5 anni fa, e questo secondo noi significa che sei un webmaster serio, potresti comunque essere penalizzato perchè lo rinnovi anno per anno.

NOTA. Nell'algoritmo attuale esiste un fitro (AGE FACTOR) che privilegia siti registrati da più di un anno. Non si ha testimonianza di un vantaggio nel registrare il dominio per più anni a venire.

4. CTR - CLICK THRU RATE - NUMERO ACCESSI DALLE PAGINE DI RICERCA
il Ctr viene monitorato e registrato per vedere se un certo tipo di documento viene preferito in base a diversi periodi o costumi (stagionali, in base alla moda, o al trend). Ad esempio un sito che parla di SCI riceverà probabilmente più accessi in inverno.
5. TRAFFICO
Fattori relativi al traffico, come ad esempio quanto tempo gli utenti restano sul tuo sito sono presi in considerazione.

NOTA: Esistono nell'attuale algoritmo i cosiddetti TRAFFIC FACTORS. Un sito che beneficia di accessi e genera traffico è considerato 'risorsa utile'.
L'interazione dei filtri "Age" e "Traffic" ha incidentalmente generato l'Effetto Sandbox per i siti di nuova creazione. Leggi il capitolo SANDBOX E COME USCIRNE

6. COMPORTAMENTO DELL'UTENTE - USER BEHAVIOUR
Durata delle visite, Cartella dei siti "preferiti" (visualizzabile da Google tramite toolbar o desktop tools installati sui computer degli utenti).
Dal brevetto: "Informazioni relative alla frequenza con cui un sito viene cliccato quando appare nelle pagine di ricerca". Questo significa che viene registrato un dato storico basato su quante volte un documento appare tra i risultati e quante volte viene visitato.


In sintesi, questo metodo assegna un punteggio maggiore ai siti (o alle pagine) che vengono sviluppati in maniera graduale, organica, e che vengono pubblicizzati giorno per giorno. Il numero delle visite e il comportamento dei visitatori sono monitorati per essere certi che il tuo sito venga aggiornato e che contenga informazioni e risorse utili per l'utente.

GLI ATTUALI INDICATORI DI SPAM DI GOOGLE

Mentre il brevetto descritto nella sezione precedente potrebbe essere un gran metodo per lasciare gli spammer fuori dagli archivi, già attualmente Google dispone di una serie di filtri che servono per cancellare dagli indici i siti spammer.

1. Molti domini con lo stesso contenuto . non è difficile vedere tra le pagine dei risultati molti siti che in realtà hanno gli stessi contenuti, o si redirigono l'un l'altro appariere nelle primissime posizioni, per poi sparire contemporaneamente dopo un certo periodo di tempo (usualmente un mese) - Questa è la tecnica che Google scopre più facilmente e velocemente una volta che tutti i domini copia sono indicizzati. Quando non vengono cancellati dall'indice vengono comunque contrassegnati come "mirror domain" e penalizzati fortemente nelle pagine di ricerca. Nel campo dell'ottimizzazione questa tecnica è chiamata Shadow Domain.

2. Il servizio ABUSE di Google . basato sulla segnalazione degli utenti. Gli utenti possono segnalare allo staff di Google il sito o i siti che sospettano agire in maniera illegale per la policy di Google. Il sito verrà analizzato (da una persona fisica) e, se si scopre che il sito fa spamming, è cancellato dall'indice. Tradizionalmente, le segnalazioni che pervengono al servizio Abuse non comportano diretta cancellazione. Tuttavia, gli ingegneri di Google utilizzano queste investigazioni al fine di migliorare i filtri degli spider.

3. Keyword Stuffing. Pagine che presentano la stessa parila chiave ripetuta infinite volte solitamente ottengono un buon ranking per un brevissimo periodo di tempo poi spariscono dagli archivi. La Keyword Stuffing è infatti la più antipatica, nonchè più facile da scoprire, tecnica spam (stesso vale per i font invisibili).

4. Da non dimenticare il filtro denominato SANDBOX, che pur teorico, esiste come fenomeno ed è stato studiato ed analizzato dagli esperti - vedi sezione SANDBOX DI GOOGLE

5. Il GOOGLE ANTISPAM TEAM. Si occupa dell'analisi e della cancellazione manuale dall'indice di siti responsabili di tecniche SEO che sono contro le Guidelines di Google. Attualmente sta concentrando gli sforzi nel rimuovere dall'indice siti che fanno uso di Doorway Page. In particolar modo le doorway che presentano 3 caratteristiche (che contraddistinguono le doorway vecchio stile. Vedi anche sezione DOORWAY PAGE): redirezione automatica del browser, testo nascosto o ridondante, keyword stuffing, utilità NULLA per l'utente.
Il team ha già fatto vittime illustri come i siti di BMW.DE e RICOH.DE, poi comunque reinclusi dopo 72 ore (...)

Nulla è dato sapere su eventuali azioni di pulizia su tecniche spam ben più maliziose quali SPAM ENGINE, DOMAIN HIJACKING, CLOAKING.

 

DOMANDA DI REINCLUSIONE NELL'INDICE DI GOOGLE

La cancellazione dagli archivi di Google, altrimenti detta BAN, non è un processo irreversibile. Se il tuo sito è stato rimosso puoi chiedere, tramite il modulo di contatto per webmaster, di essere riammesso nell'indice.
Prima di contattare Google, dovrai essere SICURO di aver eliminato ogni traccia dell'attività spam presente sul tuo sito.
Fatto ciò, utilizza il modulo di richiesta reinclusione nell'indice.

Come compilarlo?

1. Nella pagina di feedback per webmaster (linkata sotto, nelle risorse esterne), scegli:
I'm a webmaster inquiring about my website
e, nelle opzioni che appaiono,
Why my site disappeared from the search results or dropped in ranking

2. Nella pagina successiva, a parte l'URL del sito rimosso, è importante il campo MESSAGE.
Come messaggio dovrai precisare -in un inglese almeno accettabile- che: hai cancellato ogni tecnica contraria alle guidelines di Google e che soprattutto NON metterai più in atto tecniche scorrette in futuro. Opzionalmente, potrai segnalare se queste implementazioni illecite sono state da te eseguite oppure da un'agenzia esterna.

Il processo di reinclusione, a meno che tu non sia il webmaster di BMW, richiederà settimane, forse mesi. Nel frattempo sappi che la cancellazione da Google non significa cancellazione da internet: lavora ai contenuti, costruisci fonti di traffico al di fuori dei motori di ricerca, promuovi diversamente la tua attività.


RISORSE ESTERNE, REFERENCE

TESTO INTEGRALE DEL BREVETTO "INFORMATION RETRIEVAL BASED ON HISTORICAL DATA "

MODULO DI RICHIESTA REINCLUSIONE NELL'INDICE

GOOGLE ABUSE / SPAM REPORT
MATT CUTTS SPIEGA COME COMPILARE UNA RICHIESTA DI REINCLUSIONE

PAGINA INIZIALE - COVER

INTRODUZIONE ALLA GUIDA

FUNZIONAMENTO DI GOOGLE™

CARATTERISTICHE GENERALI
LISTA DATA CENTER

PREVENZIONE SPAM
LA SANDBOX DI GOOGLE
STEMMING E APPROCCIO LINGUISTICO

ANALISI DI PROGETTO

STRUTTURA DEL SITO

U.R.L.
ESEMPIO GRAFICO
SPIEGAZIONE

DOORWAY / RICH CONTENT PAGE

COSTRUZIONE DELLE PAGINE

TITLE TAG
META TAG
BODY
BODY CONTENT

STRUTTURA HTML
ATTRIBUTO ALT DELLE IMMAGINI
COLLEGAMENTI IPERTESTUALI

DENSITA' DELLE PAROLE CHIAVE
SOVRAOTTIMIZZAZIONE

SITE NETWORKING

PAGERANK™

GOODIES

GLOSSARIO
SEO: COMPETENZE, STRUMENTI, SOFTWARE

TUTELA LEGALE DEI PROPRI CONTENUTI

© 2002/2006 GOOGLERANK.COM (FEAR MANIFESTO ITALIA ) TUTTI I DIRITTI RISERVATI| CONTATTI | PRIVACY POLICY