Google vient de mettre en ligne un site baptisé How Search Works afin de compléter une série de ressources déjà disponibles en ligne. Avec ce site, la firme de Mountain View fait de la pédagogie et lève une partie du voile sur les dessous de la recherche. Ce qu'implique une requête de recherche avec le moteur Google.

La véritable nouveauté de cette initiative est une explication interactive qui accompagne une documentation de 43 pages disponibles dans plusieurs langues - dont le français - sur la manière dont les résultats de recherche sont évalués.

Le graphique interactif est divisé en trois sections distinctes : le crawling et l'indexation, les algorithmes et le ranking, et une section consacrée à la lutte et la suppression du spam.

C'est notamment l'occasion pour Google de livrer des statistiques impressionnantes. Une navigation a travers quelque 30 000 milliards de pages Web uniques pour constituer un index qui dépasse les 100 millions de gigaoctets.

Le moteur cherche à comprendre le sens d'une requête et apporter la meilleure réponse possible. Pour cela une série d'algorithmes entrent en jeu ( saisie semi-automatique, synonymes, orthographe, Knowledge Graph... ).

Google-How-Search-Works Pour un classement des réponses, ce sont plus de 200 signaux qui sont exploités. Ils comprennent la fraîcheur des résultats ( l'actualisation du contenu ), la qualité d'un site Web sachant que Google fait la chasse aux fermes de contenus mais peuvent aussi aller jusqu'à l'historique de recherche et la localisation.

En un peu plus d'un huitième de seconde ( 0,125 s ), Google revendique l'affichage des résultats sur n'importe quel écran ( ordinateur, tablette ou smartphone ). Point intéressant, les évaluations de testeurs humains pour la pertinence des résultats sont remontées ( plus de 41 000 par an ). Elles n'affectent pas directement le classement mais permettent par exemple d'identifier ce qui a besoin d'être amélioré.

Afin de préserver la pertinence des résultats, Google lutte contre ce qu'il nomme spam. Ce sont des pages Web spécialement conçues pour améliorer leur PageRank ( répétition de mots clés, achats de liens, insertion de texte invisible à l'écran... ) mais dont le contenu est inutile. La détection de ce spam est majoritairement automatique mais un examen manuel a également lieu.