TECHNOLOGIE DE GOOGLE - PAGERANK ®
Googlerank Docs / FR
/ Technologie - Pagerank ®
Approfondissons, maintenant, quelques
notions technologiques qui est à la base de Google. D'un
point de vue techinique un moteur de recherche doit être
consideré selon trois éléments:
- Les dimensions de l'archive déterminées
par le nombre de pages de l'index
- La fréquence de la mise à
jour
- Le sistème de "Ranking"
En ce qui concerne les deux premiers éléments
Google ne presente pas des diversités par rapport à
ses directs concurrents. Son point de force est son sistème
de ranking, appellé pagerank ®.
Chaque page web de l'index de Google est classée suivant
deux critères. D'un côté sur la base des
fréquences d'un certain terme (et jusqu'à maintenant
il n'y a aucune différence par rapport aux sistèmes
traditionels), de l'autre selon un point de vue simplement topografique.
Il est possible d'attaindre toute page
web grâce à d'autres pages qui sont en liaison
avec elle. D'un point de vue topografique, donc, une page web
peut être observée comme une structure ayant un
certain nombre d'entrées (les pages qui contiennent les
liaisons) et un certain nombre de sorties (les pages en liaison).
Plus grande est le nombre de liaisons plus grand est le prestige
de la page et, en même temps, plus grande est la posibilité
que les sites reliés par celle-ci soient eux aussi prestigeux.
Evidemment, plus grand est le nombre de liaisons plus grande
est la probabilité que la page soit visitée et,
à la même manière, plus une page est visitée
plus grande est la probabilité que les pages qu'elle
relie soient, à leur tour, visitées.
D'un point de vue mathématique ça s'appelle une
chaîne de Markov: un ensamble de conditions données,
il y a une certaine probabilité qu'à chaque instant,
celles-là puissent transiter à d'autres conditions.
Cette probabilité est le ranking effectué par
Google.
Deux types de recherche croisée
sont donc effectuées par Google: le premier (le plus
traditionel) pour relever les pages contenant le mot recherché;
le second pour relever, parmi celles-ci, la plus utile à
l'utilisateur.
Le pagerank indique l'importance attribuée par Google
à une page web, indipendamment de la requête spécifique
qui a engendré la liste.
Les résultats sont visualisés dans un ordre qui
depend des caractéristiques des pages, c'est-à-dire
des données que Google analise en utilisant des algoritmes
complèxes décrivant la structure des liaisons.
Naturellement une page "importante"
n'est pas très intéressante pour le navigateur
si elle ne contient pas le terme qu'il cherche. Pour cette raison,
Google utilise des techniques du texte très complèxes,
afin de trouver des pages qui soient à la fois importantes
et utiles. Pour analiser une page, par exemple, Google prend
en considération ce que, de cette page, disent les autres
pages qui lui sont reliées.
Outre la technique d'évaluation
dont nous venons de parler, Google n'ouvre que des pages contenent
tous les termes recherchés par l'utilisateur, ou bien
dans les textes de la page, ou bien dans les liaisons qui renvoient
à cette page.
Google analise également la proximité de ces termes
entre eux et donne la priorité à certaines pages
sur la base de leur proximité. En d'autres termes, sont
priviligiées ces pages où les termes sont très
proches entre eux, de façon à minimiser le temps
nécessaire pour écarter les résultats négligeables.
|
L'anatomie
d'un moteur de recherche sur grande
échelle
Vous-voilà la recherche
originelle (celle qui remonte à la période de
Stansford) qui décrit le concept techinque à
la base de pagerank ®. (POF
en anglais)
De Sergey Brin et Larry Page, les créateurs de Google.
|