Moteur de recherche : qu’est ce qui se cache sous le capot ?

février 13, 2013

Google, Bing, Yahoo, peut être même Baidu et Yandex, sont des noms qui vous sont sûrement familiers. Il s’agit bien évidemment des moteurs de recherches les plus utilisés dans le monde. On les utilise au quotidien mais pour autant, peu de personnes connaissent vraiment le fonctionnement de ces outils surpuissants. Une information qui peut être intéressante pour un utilisateur lambda. Par ailleurs, connaître le fonctionnement d’un moteur de recherche, pour un référenceur, est d’une importance capitale.

Avant de commencer à vous expliquer le fonctionnement du moteur de recherche le plus utilisé (Google), regardons ensemble la répartition de ces moteurs dans le monde avec le nombre de recherches mensuelles sur chaque moteur :

Google : 36 milliards de recherches mensuelles (60%) – moteur de recherche américain
Yahoo : 8,5 milliards de recherches mensuelles (14%) – moteur de recherche américain
Baidu : 3,3 milliards de recherches mensuelles (5,4%) – moteur de recherche chinois
Yandex : 3,0 milliards de recherches mensuelles (4,9%) – moteur de recherche russe
Bing : 2,1 milliards de recherches mensuelles (3,4%) – moteur de recherche américain

Comme vous le voyez, Google reste le moteur le plus utilisé dans le monde et ce pour de longues années encore … Mais passons à ce qui nous intéresse vraiment dans cet article : le fonctionnement d’un moteur de recherche.

Etape 1 : Le crawl des pages web

Google, pour offrir autant de résultats dans son moteur, doit, dans un premier temps, récolter un maximum de données (pages) sur le web. Pour cela, il utilise des crawlers que l’on appelle aussi bots, robots ou encore spiders.

Ces crawlers ont deux fonctions principales. Leur première fonction consiste à lire chaque page du web (le contenu html) et de stocker les données visibles dans les disques durs du moteur de Google. Autant être clair, les disques durs sont un chouilla plus grands que celui de votre ordinateur personnel.

Ensuite un crawler doit repérer et suivre tous les liens qu’il découvre sur une page web. Ces liens permettent aux robots de naviguer de page en page et de découvrir encore plus de pages (donc de données).

C’est sûrement l’une des parties les plus faciles à comprendre dans le fonctionnement d’un moteur de recherche. Des robots naviguent de page en page grâce aux liens hypertextes et récoltent les données HTML comprises sur ces pages. Ce processus est réalisé sans jamais s’arrêter. Les robots ne dorment jamais.

Le robot de Google est surnommé » GoogleBot « .

Etape 2 : Indexations des données

La deuxième étape est déjà un peu plus complexe. Une fois les données récoltées, il faut les stocker et commencer à organiser ces données. C’est le rôle du moteur d’indexation. Ce dernier reçoit les données des spiders et commence son travail.

Le système d’indexation est chargé d’étudier à la loupe chaque page reçue. A cette étape, on observe le contenu HTML, l’occurrence des mots dans cette page, la position des contenus, s’il y a des images, etc.

Pour économiser de la place sur ces disques dur, Google n’indexait pas ce qu’on appelle les « Stop Word » tel que « a », « le », « du », « la », … Ces Stop Word étaient remplacés par des cases vides pour ne pas oublier qu’il existait un mot ou même plusieurs entre deux autres mots. C’est aussi pour cette raison qu’une requête comme : « gardien de but » renvoie des résultats différents dans google de « gardien but ». La proximité des mots est donc prise en compte par Google.

Ce travail s’effectue en continu et sans interruption par le moteur d’indexation de Google. Au fur et à mesure qu’il indexe de nouvelles pages et donc de nouveaux contenus, les mots repérés sur ces pages viennent enrichir un index. Cet index contient deux sections :

Un index principal qui contient l’ensemble des données récoltées par les spiders. Pour regarder les pages de votre site présente dans l’index de Google, vous pouvez effectuer la requête suivante dans Google –> site:nom-de-domaine.com
Bien entendu, vous devez remplacer « nom-de-domaine.com » par le nom de domaine de votre site web.
Un index inversé qui contient tous les mots clés potentiels de recherche associés aux URL des documents contenant ces termes sur le web. Cette partie est invisible pour l’utilisateur.

L’index inversé permet de connaître le nombre d’occurrence d’un mot dans une page par rapport à d’autres pages. Plus cette occurrence est grande, plus une page aura de chance d’apparaître sur le terme de recherche. Attention toutefois, d’autres caractéristiques entrent en compte dans le classement des pages dans le moteur de recherche de Google. Par ailleurs, le KeyWord Stuffing est pénalisé par Google.

Je veux juste faire comprendre aux débutants, qu’il est important de faire ressortir vos mots clés dans vos pages web. Si vous souhaitez vous placer sur la requête « Gardien de but » alors il sera indispensable de réutiliser cette expression dans la page destinée à se positionner sur ce terme de recherche.

Pour information, l’index de Google est mise à jour très régulièrement. Les spiders sont friands des contenus régulièrement mis à jour et repassent donc plus souvent sur les sites qui modifient leur contenu en continu (sites de presse et d’actualité, et gros sites de contenus).

En 2008, on estimait que l’index de Google possédait entre 40 et 100 milliards de pages. A cette même date, le web connu par Google, dans sa globalité et avant traitement contenait environ 1000 milliards de pages (beaucoup de pages étaient dupliquées ou inutiles).

Etape 3 : Traitement des requêtes et restitution des résultats

L’objectif de Google est de proposer les pages / sites les plus pertinents aux internautes suivant leurs requêtes. Pour cela, Google utilise un système de ranking pour classer les données, récoltées par les Spiders. Google tente, aujourd’hui, d’afficher les résultats les plus intéressants sur la première page suivant la requête d’un utilisateur mais aussi en s’intéressant à sa zone géographique, sa nationalité, et de plus en plus suivant les habitudes de l’internaute sur internet.

Les données sont donc triées suivant plusieurs critères que nous allons énumérer ci-dessous :

Tri par pertinence : On étudie ici la position des mots clés dans le document, l’url, le titre … Mais aussi la densité des mots clés, la mise en exergue, le poids de ces mots clés dans la base de données, l’utilisation de champs lexical similaire, et surtout la relation de proximité entre la requête et les mots contenus dans le document.
Tri par popularité : Il s’agit ici de mettre une note à un site web suivant sa popularité. Plus celui-ci est cité sur le web (via des liens) plus sa popularité est grande aux yeux de Google. Plus les sites faisant des liens vers un site A sont importants, plus le site A sera reconnu comme populaire. C’est dans le cadre de ce tri par popularité que le PageRank a été mis en place. Les abus du netlinking font qu’aujourd’hui le Pagerank a beaucoup moins d’importance qu’auparavant.

Tri par mesure d’audience : C’est le tri par clic ou par qualité de visite. Si un site est souvent visité, et que les internautes restent sur ce site, … alors ce site est mis en évidence dans les moteurs de recherche. Google prend en compte le comportement des internautes sur un site pour trier ces données dans son index afin de proposer le contenu le plus pertinent possible.

Si vous avez bien saisi le fonctionnement d’un moteur de recherche comme Google, vous vous rendez vite compte de l’ampleur d’un tel outil. Il faut penser que derrière ce sont des milliers de PC tournant sur Linux qui effectuent ces milliers de calculs. Tous ces PC sont reliés entre eux en cluster (grappe) afin de répartir les charges. Un PC commence à traiter une requête et renvoie une partie du travail à un autre ordinateur et ainsi de suite. Mais toutes ces explications techniques mériteraient un second article et je ne serai pas de taille pour expliquer cette usine à gaz (qui n’en est pas une …).

Voilà que cet article se termine et j’espère que j’aurai pu faire comprendre le fonctionnement d’un moteur de recherche à quelques personnes. Un outil simple à utiliser et pourtant si complexe … Bravo Google !

source image à la une : http://wallbase.cc/wallpaper/2467000
source image Google-Bot : seo.ddlx.org
source image PageRank : augmenter-son-pagerank.com

Moteur de recherche : qu’est ce qui se cache sous le capot ?

Etape 1 : Le crawl des pages web

Etape 2 : Indexations des données

Etape 3 : Traitement des requêtes et restitution des résultats

Victor Lerat

S’inscrire à la newsletter

Catégories

Moteur de recherche : qu’est ce qui se cache sous le capot ?

Etape 1 : Le crawl des pages web

Etape 2 : Indexations des données

Etape 3 : Traitement des requêtes et restitution des résultats

Vous avez faim ? Y'a des restes !

Victor Lerat

S’inscrire à la newsletter

Catégories