Fin septembre, le brevet sur l'un des algorithmes les plus importants du principal moteur de recherche a expiré :Google PageRank. Comment fonctionne exactement cet algorithme ?
Google PageRank fait exactement ce que son nom l'indique :classer les pages dans Google. Bien qu'il s'agisse également d'une référence à Larry Page, qui a cofondé Google avec Sergey Brin.
Lorsqu'ils ont lancé Google en 1998, Brin et Page n'avaient rien fait de nouveau. Après tout, il existait déjà des moteurs de recherche capables de classer les résultats de recherche en fonction de la "meilleure correspondance avec la requête de recherche". Mais leur algorithme PageRank était différent des autres. Jusque-là, les algorithmes n'utilisaient que le contenu textuel qu'ils trouvaient sur les pages. Cela a ouvert la porte à la manipulation. Par exemple, les créateurs de sites Web pourraient mettre des termes populaires mais contextuellement non pertinents sur les pages de leur site et les rendre invisibles. Le lecteur n'en était pas dérangé et les pages apparaissaient dans les résultats de recherche pour ces termes. Ils étaient injustement mieux classés.
Plus il y a de liens (et de partages sur les réseaux sociaux) vers une page, plus grandes sont les chances que l'internaute qui clique au hasard atterrisse sur cette page
L'idée brillante de Brin et Page était de lier le texte d'une page au « score d'importance » d'une page. Les deux ont obtenu la moutarde pour l'idée du monde de la recherche. En tant que doctorants à l'Université de Stanford, ils connaissaient le soi-disant index de citation. Il calcule un score d'importance pour les auteurs de publications scientifiques en examinant la fréquence à laquelle leurs publications sont citées. Plus il y a de citations, plus l'auteur est important (ou son travail en tout cas). Brin et Page ont simplement traduit les citations vers la gauche. Plus une page reçoit de liens, plus elle est importante.
Pour développer cela davantage, ils sont partis d'une personne imaginaire qui surfe en cliquant au hasard sur un lien sur une page. Chaque page a alors une chance d'être atteinte par l'internaute. Plus il y a de liens (et de partages sur les réseaux sociaux) vers une page, plus il y a de chances que l'internaute qui clique au hasard se retrouve sur cette page. Et donc :plus le score PageRank de cette page est élevé.
Mathématiquement, vous pouvez modéliser tout cela avec une «marche aléatoire» sur un soi-disant graphique. Il reflète la collection de toutes les pages Web et la manière dont elles sont liées les unes aux autres. Vous pouvez ensuite créer une matrice qui trace toutes les pages les unes par rapport aux autres. Vous tenez compte du nombre de liens présents sur la page de référence, ainsi que du score de cette page. Ainsi, une page avec un score élevé transmet une partie de son "importance".
Le PageRank final d'une page peut être déterminé à l'aide de simples techniques d'algèbre linéaire. Dans ce qui précède, nous voyons un graphique représentant un certain nombre de pages liées. Les nombres sont les scores PageRank, qui indiquent la probabilité que la page soit visitée. La page C ne reçoit qu'un seul lien, tandis que la page E en reçoit cinq. Pourtant, la page C de l'algorithme obtient un PageRank plus élevé car le seul lien qu'il reçoit provient de la page B - une page avec un PageRank élevé.
Que faire si l'internaute se retrouve sur une page sans liens ? Brin et Page ont supposé qu'il choisirait alors - encore une fois au hasard - une page sur laquelle cliquer et surfer à partir de là. Leur idée est que les internautes qui commencent sur une page au hasard choisiront un lien au hasard sur cette même page 85% du temps. Dans les 15 % des cas restants, l'internaute ne choisit pas un lien de cette page, mais d'une autre page, sur un autre site Web au hasard. Ainsi, si un internaute se retrouve sur une page sans lien, il se retrouve dans ce dernier scénario.
Sans cette hypothèse, tous ces internautes finiraient par se retrouver sur les pages A, B ou C, laissant toutes les autres pages avec un PageRank de zéro.
Il y a quelques inconvénients associés à la technique. Par exemple, le décompte doit être maintenu régulièrement pour maintenir à jour la structure et les scores de page associés. De plus, les pages plus anciennes sont privilégiées. Les surfeurs sont également souvent attirés par des appâts à clic , même si Google a plus ou moins réussi à y remédier en 2016.
Le fonctionnement exact de l'algorithme actuel est un secret. Google dit qu'il veut que cela reste ainsi, pour éviter les abus. D'autre part, nous ne pouvons jamais être sûrs que notre confiance dans les résultats de recherche ne sera pas abusée par Google.