Fin septembre, le brevet de l'un des algorithmes phares de Google, le PageRank, a expiré. Découvrez son fonctionnement précis.
Le PageRank classe les pages web selon leur importance, en référence à Larry Page, cofondateur de Google avec Sergey Brin.
Lors du lancement de Google en 1998, Brin et Page ont innové. Contrairement aux moteurs précédents, qui se basaient uniquement sur le contenu textuel – vulnérable aux manipulations comme le bourrage de mots-clés invisibles –, PageRank intègre les liens hypertextes.
Plus une page reçoit de liens (et de partages sur les réseaux sociaux), plus elle a de chances d'être visitée par un internaute cliquant au hasard.
Inspirés de l'index de citation académique – qui mesure l'importance d'un auteur par le nombre de citations de ses travaux –, Brin et Page ont transposé ce principe au web : les liens entrants équivalent à des citations.
Le modèle repose sur un "surfeur aléatoire" : imaginez un utilisateur naviguant au hasard via les liens. La probabilité d'atteindre une page dépend du nombre et de la qualité des liens pointant vers elle.
Mathématiquement, cela s'appuie sur une marche aléatoire sur un graphe représentant le web et ses liens. Une matrice calcule les scores en tenant compte du PageRank des pages sources : une page de haute autorité transmet plus d'importance.

Sur l'image, la page C surpasse E en PageRank car son unique lien provient d'une page B très autoritaire, malgré les cinq liens d'E.
Que se passe-t-il sur une page sans liens ? Le surfeur saute aléatoirement ailleurs. Google assume que 85 % du temps, il suit un lien de la page courante ; sinon (15 %), il choisit une page au hasard. Cela évite que des pages orphelines aient un score nul.
Inconvénients : nécessite des recrawls fréquents, favorise les pages anciennes, sensible aux appâts à clics (corrigés par Google depuis 2016).
L'algorithme exact reste confidentiel pour prévenir les abus, bien que cela soulève des questions sur la transparence des résultats.
[]