Partager la publication "Moteur de recherche : qu’est ce qui se cache sous le capot ?"
Google, Bing, Yahoo, peut être même Baidu et Yandex, sont des noms qui vous sont sûrement familiers. Il s’agit bien évidemment des moteurs de recherches les plus utilisés dans le monde. On les utilise au quotidien mais pour autant, peu de personnes connaissent vraiment le fonctionnement de ces outils surpuissants. Une information qui peut être intéressante pour un utilisateur lambda. Par ailleurs, connaître le fonctionnement d’un moteur de recherche, pour un référenceur, est d’une importance capitale.
Avant de commencer à vous expliquer le fonctionnement du moteur de recherche le plus utilisé (Google), regardons ensemble la répartition de ces moteurs dans le monde avec le nombre de recherches mensuelles sur chaque moteur :
Comme vous le voyez, Google reste le moteur le plus utilisé dans le monde et ce pour de longues années encore … Mais passons à ce qui nous intéresse vraiment dans cet article : le fonctionnement d’un moteur de recherche.
Google, pour offrir autant de résultats dans son moteur, doit, dans un premier temps, récolter un maximum de données (pages) sur le web. Pour cela, il utilise des crawlers que l’on appelle aussi bots, robots ou encore spiders.
Ces crawlers ont deux fonctions principales. Leur première fonction consiste à lire chaque page du web (le contenu html) et de stocker les données visibles dans les disques durs du moteur de Google. Autant être clair, les disques durs sont un chouilla plus grands que celui de votre ordinateur personnel.
Ensuite un crawler doit repérer et suivre tous les liens qu’il découvre sur une page web. Ces liens permettent aux robots de naviguer de page en page et de découvrir encore plus de pages (donc de données).
C’est sûrement l’une des parties les plus faciles à comprendre dans le fonctionnement d’un moteur de recherche. Des robots naviguent de page en page grâce aux liens hypertextes et récoltent les données HTML comprises sur ces pages. Ce processus est réalisé sans jamais s’arrêter. Les robots ne dorment jamais.
Le robot de Google est surnommé » GoogleBot « .
La deuxième étape est déjà un peu plus complexe. Une fois les données récoltées, il faut les stocker et commencer à organiser ces données. C’est le rôle du moteur d’indexation. Ce dernier reçoit les données des spiders et commence son travail.
Le système d’indexation est chargé d’étudier à la loupe chaque page reçue. A cette étape, on observe le contenu HTML, l’occurrence des mots dans cette page, la position des contenus, s’il y a des images, etc.
Pour économiser de la place sur ces disques dur, Google n’indexait pas ce qu’on appelle les « Stop Word » tel que « a », « le », « du », « la », … Ces Stop Word étaient remplacés par des cases vides pour ne pas oublier qu’il existait un mot ou même plusieurs entre deux autres mots. C’est aussi pour cette raison qu’une requête comme : « gardien de but » renvoie des résultats différents dans google de « gardien but ». La proximité des mots est donc prise en compte par Google.
Ce travail s’effectue en continu et sans interruption par le moteur d’indexation de Google. Au fur et à mesure qu’il indexe de nouvelles pages et donc de nouveaux contenus, les mots repérés sur ces pages viennent enrichir un index. Cet index contient deux sections :
L’index inversé permet de connaître le nombre d’occurrence d’un mot dans une page par rapport à d’autres pages. Plus cette occurrence est grande, plus une page aura de chance d’apparaître sur le terme de recherche. Attention toutefois, d’autres caractéristiques entrent en compte dans le classement des pages dans le moteur de recherche de Google. Par ailleurs, le KeyWord Stuffing est pénalisé par Google.
Je veux juste faire comprendre aux débutants, qu’il est important de faire ressortir vos mots clés dans vos pages web. Si vous souhaitez vous placer sur la requête « Gardien de but » alors il sera indispensable de réutiliser cette expression dans la page destinée à se positionner sur ce terme de recherche.
Pour information, l’index de Google est mise à jour très régulièrement. Les spiders sont friands des contenus régulièrement mis à jour et repassent donc plus souvent sur les sites qui modifient leur contenu en continu (sites de presse et d’actualité, et gros sites de contenus).
En 2008, on estimait que l’index de Google possédait entre 40 et 100 milliards de pages. A cette même date, le web connu par Google, dans sa globalité et avant traitement contenait environ 1000 milliards de pages (beaucoup de pages étaient dupliquées ou inutiles).
L’objectif de Google est de proposer les pages / sites les plus pertinents aux internautes suivant leurs requêtes. Pour cela, Google utilise un système de ranking pour classer les données, récoltées par les Spiders. Google tente, aujourd’hui, d’afficher les résultats les plus intéressants sur la première page suivant la requête d’un utilisateur mais aussi en s’intéressant à sa zone géographique, sa nationalité, et de plus en plus suivant les habitudes de l’internaute sur internet.
Les données sont donc triées suivant plusieurs critères que nous allons énumérer ci-dessous :
Si vous avez bien saisi le fonctionnement d’un moteur de recherche comme Google, vous vous rendez vite compte de l’ampleur d’un tel outil. Il faut penser que derrière ce sont des milliers de PC tournant sur Linux qui effectuent ces milliers de calculs. Tous ces PC sont reliés entre eux en cluster (grappe) afin de répartir les charges. Un PC commence à traiter une requête et renvoie une partie du travail à un autre ordinateur et ainsi de suite. Mais toutes ces explications techniques mériteraient un second article et je ne serai pas de taille pour expliquer cette usine à gaz (qui n’en est pas une …).
Voilà que cet article se termine et j’espère que j’aurai pu faire comprendre le fonctionnement d’un moteur de recherche à quelques personnes. Un outil simple à utiliser et pourtant si complexe … Bravo Google !
source image à la une : http://wallbase.cc/wallpaper/2467000
source image Google-Bot : seo.ddlx.org
source image PageRank : augmenter-son-pagerank.com