Google Leaks : dans les coulisses du moteur de recherche

Par Matthieu Casiez - 2 février 2026

Google Leaks : dans les coulisses du moteur de recherche

Depuis ses débuts, Google a toujours entretenu une sorte de mystère autour du fonctionnement interne de son moteur de recherche. Mais les Google Leaks, ces documents internes qui ont fuité en 2024, ainsi que les révélations du procès antitrust mené par le ministère américain de la Justice (U.S. v. Google) ont enfin entrouvert la porte. 

Pour les professionnels du SEO et du marketing digital, ces révélations changent la donne. Matthieu Casiez, Directeur R&D et SEO chez Bespoke, décrypte l’architecture réelle du moteur de recherche et ses implications concrètes pour votre stratégique de visibilité en ligne.

UNE ARCHITECTURE EN MICRO-SERVICES HAUTEMENT SPÉCIALISÉE

Oubliez l’idée d’un « algorithme Google » unique et monolithique. En réalité, le moteur fonctionne comme une chaîne de production ultra-spécialisée, où chaque maillon joue son rôle. Avant qu’une page n’apparaisse dans les résultats de recherche, elle passe par cinq grandes étapes

  1. Découverte (Trawler)
  2. Indexation (Alexandria, SegIndexer)
  3. Premier tri (QBST, Mustang, Ascorer)
  4. Affinage (SuperRoot & Twiddlers)
  5. Mise en page (Glue & Tangram)

Cette approche modulaire présente un double avantage pour Google : la possibilité de faire évoluer chaque composant indépendamment, sans perturber l’ensemble du pipeline de recherche et la capacité d’éliminer progressivement les contenus médiocres bien avant les calculs les plus sophistiqués. Car c’est là un point essentiel révélé par les leaks : toutes les pages web ne franchissent pas toutes les étapes. Des filtres successifs trient impitoyablement le grain de l’ivraie.

EXPLORATION : TRAWLER ET WEBMIRROR, LES YEUX DU MOTEUR

Tout commence avec Trawler, le robot d’exploration de Google. Son rôle ? Parcourir le web, découvrir de nouvelles pages et décider lesquelles méritent d’être visitées régulièrement. Il ne se contente pas de collecter bêtement des URL : il établit des priorités. Les sites populaires, avec du contenu frais et beaucoup de visiteurs, ont naturellement droit à des passages plus fréquents.

Selon les Google Leaks, les pages explorées passeraient ensuite dans WebMirror, un système qui gère la déduplication et la canonicalisation. WebMirror compare les versions d’une même page, détecte les doublons et identifie LA page qui fera autorité dans l’index.

INDEXATION : UNE BIBLIOTHÈQUE À PLUSIEURS ÉTAGES

ALEXANDRIA : LA BIBLIOTHÈQUE CENTRALE

Une fois récupérées, les pages atterrissent dans Alexandria – et oui, le nom n’est pas choisi au hasard ! Comme la célèbre bibliothèque antique, ce système catalogue tout ce qui existe sur le web avec un identifiant unique pour chaque document. Et attention, détail important : cet identifiant est lié au contenu lui-même, pas à l’URL. Résultat ? Si Google détecte correctement un contenu dupliqué, il lui donnera le même DocID.

SEGINDEXER : TOUS LES CONTENUS NE SE VALENT PAS

L’un des aspects les plus révélateurs des Google Leaks concerne SegIndexer qui répartit les contenus dans différents « segments » d’index selon leur qualité, fraîcheur et pertinence :

  • Base : le niveau « premium » pour les contenus de haute qualité et les plus fiables
  • Zeppelins : un niveau intermédiaire
  • Landfills : littéralement « la décharge », pour les contenus médiocres ou redondants

Cette hiérarchie a deux conséquences directes :

D’abord sur la visibilité : un contenu relégué dans les Landfills ne verra jamais la lumière du jour dans les résultats, peu importe la puissance du domaine ou le nombre de backlinks. La qualité intrinsèque du contenu est jugée en amont de tout.

Ensuite sur la valeur des liens : le niveau d’une page détermine le poids de ses liens sortants. Un backlink depuis une page classée en « Base » vaut beaucoup plus qu’un lien provenant d’une page des « Landfills ».

HIVEMIND ET TERAGOOGLE : LE STOCKAGE À DEUX VITESSES

Selon les Google Leaks, même le stockage est pensé par niveaux :

  • HiveMind conserve en mémoire les contenus essentiels et à forte valeur ajoutée
  • TeraGoogle archive sur disque les documents moins fréquemment consultés mais toujours indexables

L’idée ? Optimiser les performances. Les contenus prioritaires sont accessibles instantanément, tandis que le reste reste disponible sans ralentir la machine.

LE CLASSEMENT : COMMENT VOTRE PAGE GAGNE (OU PERD) SA PLACE

QBST : LE GARDE-BARRIÈRE SÉMANTIQUE

Révélé pendant le procès antitrust, QBST (Query-Based Salient Terms) agit comme un filtre intelligent. Il identifie les termes indispensables qu’une page doit absolument contenir pour être pertinente sur une requête donnée.

Prenons un exemple concret : pour « meilleures chaussures de running », QBST s’attend à trouver des mots comme « amorti », « stabilité » ou des marques spécifiques. Si votre page n’en contient aucun, elle est éliminée d’office, avant même d’entrer dans les calculs de ranking complexes.

On comprend alors que couvrir un sujet de manière exhaustive n’est pas un plus : c’est un prérequis obligatoire.

MUSTANG ET ASCORER : LE SCORING INITIAL

Une fois les filtres passés, Mustang entre en scène. Ce moteur de classement central récupère les documents correspondant à la requête et calcule leur score de pertinence.

Au cœur de ce système, se trouve Ascorer, le module d’évaluation initiale qui agrège des centaines de signaux pour attribuer un score brut de classement (score IR) à chaque document :

  • Score de spam
  • Fraîcheur du contenu
  • Langue et compatibilité mobile
  • Autorité thématique
  • Qualité du contenu
  • Signaux de liens
  • Et bien d’autres…

Ascorer produit une première liste ordonnée d’environ 1 000 résultats, ce que Google appelle en interne le « green ring » (l’anneau vert).

LE RECLASSEMENT : SUPERROOT ET LES TWIDDLERS

SUPERROOT : LE CHEF D’ORCHESTRE

SuperRoot représente l’étape de réajustement majeure qui a lieu après la sélection initiale des résultats. Il reçoit les 1 000 résultats présélectionnés (le « green ring ») et les affine pour n’en conserver que les 10 meilleurs, qui constitueront la première page de résultats (le « blue ring »).  Pour ce tri final, il s’appuie sur des centaines de petits algorithmes modulaires : les Twiddlers.

TWIDDLERS : LES AJUSTEURS DYNAMIQUES DE GOOGLE

Les Twiddlers, ce sont un peu les « patchs » de Google. Ces modules modifient dynamiquement les scores selon des critères précis. L’avantage de ce système modulaire ? Google peut déployer rapidement de nouveaux signaux sans tout reconstruire.

On distingue deux types :

  • Les PreDoc Twiddlers : rapides, ils opèrent sur l’ensemble des DocIDs avec des informations basiques et les données déjà disponibles, réduisant souvent la liste de 1 000 à quelques centaines de résultats
  • Les Lazy Twiddlers : plus lents, ils consultent des données supplémentaires pour prendre des décisions plus fines sur l’ensemble réduit

Parmi les Twiddlers stars :

  • NavBoost : un module fondé sur le comportement utilisateur. Il analyse jusqu’à 13 mois de données d’interaction (clics, temps passé, rebonds) pour réordonner les résultats selon la satisfaction réelle des utilisateurs. Preuve que le comportement humain peut primer sur la simple pertinence textuelle..
  • RealTimeBoost : le Twiddler dédié à l’actualité et aux sujets tendances. Il ajusterait les classements à partir de données agrégées de Chrome en temps quasi réel – ce qui contredit d’ailleurs les déclarations officielles de Google qui nie utiliser ces données.

QualityBoost : le filtre qualité de l’écosystème. Il applique des signaux propriétaires au niveau du site et de la page pour renforcer les fameux critères E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness).

L’ASSEMBLAGE FINAL : TANGRAM ET GLUE, L’ART DE COMPOSER LA SERP

Après le classement vient la mise en scène sur la SERP (la page de résultats).

Glue agrège d’abord les signaux d’interaction des utilisateurs (clics, défilements, survols) provenant de tous les types de résultats (web, vidéo, actus, local). Il produit une mesure unifiée de pertinence, garantissant une cohérence globale entre tous les types de résultats. 

Tangram (anciennement Tetris, ce qui en dit long sur sa fonction) orchestre ensuite la disposition visuelle. Il gère le placement optimal de tous les éléments : résultats organiques, Knowledge Graph, cartes, carrousels d’images et vidéos, questions fréquentes, actualités, packs locaux… Le but ? Maximiser à la fois la lisibilité de la page et l’engagement de l’utilisateur.

IMPLICATIONS STRATÉGIQUES DES GOOGLE LEAKS POUR VOTRE STRATÉGIE SEO

Ces révélations nous apprennent plusieurs choses importantes :

  1. La qualité compte double : elle influence votre classement direct, mais aussi votre niveau dans SegIndexer, ce qui détermine la valeur de vos backlinks.
  2. Les signaux comportementaux sont déterminants : NavBoost et Glue le prouvent : l’engagement compte énormément. Un contenu qui génère des « bons clics » (longues visites, pas de retour immédiat aux résultats) sera naturellement favorisé.
  3. La fraîcheur offre une fenêtre d’opportunité : FreshnessTwiddler booste temporairement les nouveaux contenus, leur donnant une chance de percer avant d’avoir accumulé des signaux à long terme.
  4. L’autorité est hiérarchique : la promotion ou rétrogradation entre HiveMind et TeraGoogle peut renforcer ou affaiblir les signaux de classement en coulisses.
  5. L’expérience globale de la page compte : avec Tangram et Glue, Google évalue comment les utilisateurs interagissent avec l’ensemble de la SERP, pas seulement avec les liens individuels.

L’architecture modulaire révélée par les Google Leaks de 2024 explique pourquoi le SEO est devenu si complexe. Il ne suffit plus d’optimiser pour un seul algorithme, mais de comprendre comment des dizaines de systèmes spécialisés évaluent, classent et présentent votre contenu à chaque étape.

Pour les agences digitales et les référenceurs, la leçon est claire : l’optimisation efficace nécessite une approche globale qui prend en compte la qualité technique, la pertinence du contenu, l’engagement utilisateur et l’autorité globale du site. Les systèmes de Google sont conçus pour récompenser l’excellence sur tous ces fronts simultanément.

Et vous, êtes-vous prêt(e) à aligner votre stratégie digitale avec l’architecture réelle de Google ?

Une question ou un besoin
à nous soumettre ?