Les services de streaming et les sites Web utilisent une matrice pour recommander le meilleur contenu au spectateur individuel.
Les données sont le nouveau pétrole, et les data scientists sont au service des mineurs. Les sites d'emploi regorgent d'annonces d'entreprises à la recherche de la bonne personne pour extraire la valeur de leurs données. De nombreux services commerciaux basés sur les données nous facilitent la vie. Pensez aux suggestions que Netflix vous propose lorsque vous souhaitez vous détendre devant la télévision le temps d'une soirée.
Il est clair depuis longtemps que Netflix est prêt à payer cher pour ce modèle de suggestion. De 2006 à 2009, la société a parrainé le Prix Netflix † Le concours, avec 1 million de dollars comme premier prix, visait à trouver un nouveau système de recommandation. Avant cela, Netflix ouvrait son jeu de données de plus de 100 millions d'avis d'utilisateurs de films, afin que les participants puissent y greffer leur système. Le 21 septembre 2009, un gagnant a été choisi. L'équipe qui s'appelait Bellkor's Pragmatic Chaos avait fait un bon travail d'équipe et des maths.
La musique, les produits des boutiques en ligne et le contenu des médias sociaux nous sont également présentés de cette manière.
Un système de recommandation filtre à partir d'une très grande base de données les éléments susceptibles d'intéresser un utilisateur. Ces systèmes ne sont pas seulement utilisés pour recommander des films, comme Netflix ou YouTube. La musique, les produits des boutiques en ligne et le contenu des médias sociaux nous sont également présentés de cette manière. La professeure flamande du MIT Pattie Maes, qui a obtenu son doctorat en intelligence artificielle à la VUB, a entre autres jeté les bases de tels systèmes.
Systèmes de recommandation basés sur le soi-disant filtrage collaboratif utiliser une matrice ou un tableau avec des lignes et des colonnes. Les colonnes contiennent tous les produits – films par exemple – et les lignes contiennent les notes ou les goûts des utilisateurs. Parce que tous les produits n'ont pas de score, une telle matrice a généralement quelques emplacements vides.
Les data scientists travaillent avec cette matrice. Au sein du grand groupe d'utilisateurs, ils recherchent des sous-groupes ayant un goût similaire. (Ils ne tiennent pas compte de facteurs tels que l'âge ou le type de film.) Ils peuvent traiter ce que "similaire" signifie de plusieurs façons et dériver des suggestions de produits de différentes manières. Quoi qu'il en soit, les mathématiques sont toujours impliquées.
Une possibilité de trouver des utilisateurs avec un goût similaire est de travailler géométriquement. Les data scientists comparent les scores des produits entre eux. La matrice et le graphique de droite, avec deux produits et quatre utilisateurs, peuvent servir d'exemple. Les scores de l'utilisateur C sont proches de B. Mais l'utilisateur B ressemble-t-il alors plus à A ou à D ? En distance, ses scores sont plus proches de ceux de l'utilisateur D, mais la distance est-elle une bonne mesure de comparaison ? A et B aiment le deuxième produit deux fois plus que le premier, tandis que D les aime tous les deux de manière égale. Peut-être que A donne des points stricts et D est beaucoup plus généreux avec ça ?
Il semble que nous puissions trouver des utilisateurs ayant des goûts similaires en regardant l'angle entre les lignes pointillées sur le graphique. A et B sont au propre comme au figuré sur la même ligne. C n'est pas loin de ça. Il peut être judicieux d'extrapoler les scores de A et B à des produits que C ne connaît pas encore. Vous pouvez le faire en normalisant et en faisant la moyenne des scores. Pour cela, vous prenez en compte un facteur de pondération, qui dépend de la similarité des utilisateurs. Les méthodes récentes ont tendance à utiliser des techniques d'algèbre linéaire. La formule du Chaos Pragmatique de Bellkor est basée sur ce dernier.
Vous souhaitez vous lancer en tant que data scientist ? Les entreprises recherchent généralement un joueur d'équipe doté d'excellentes compétences en communication, qui est également un expert en mathématiques, en statistiques et en apprentissage automatique. Et de préférence, il ou elle a de l'expérience dans des progiciels exotiques, tels que Scikit-learn, Pandas, Numpy, Spark, Hadoop, Keras et Tensorflow. Ces paquets peuvent être désespérément obsolètes d'ici dix ans. Mais avec la connaissance des mathématiques, vous êtes armé pour l'avenir des données.