Les services de streaming et les sites web exploitent des matrices pour proposer du contenu personnalisé à chaque utilisateur.
Les données sont le nouveau pétrole, et les data scientists en extraient la valeur. Les offres d'emploi pullulent pour des experts capables d'analyser ces trésors numériques. Pensez aux suggestions de Netflix qui transforment vos soirées détente en expériences sur mesure.
Netflix a investi massivement dans ses algorithmes de recommandation. De 2006 à 2009, la plateforme a lancé le Prix Netflix, un concours doté de 1 million de dollars pour innover en la matière. Elle a ouvert son dataset de plus de 100 millions d'évaluations de films. Le 21 septembre 2009, l'équipe Bellkor's Pragmatic Chaos l'a emporté grâce à une approche mathématique collaborative.
La musique, les produits e-commerce et les contenus des réseaux sociaux bénéficient aussi de ces systèmes.
Un système de recommandation filtre une vaste base de données pour identifier les items pertinents. Au-delà de Netflix ou YouTube, ils s'appliquent à la musique, au e-commerce et aux médias sociaux. La professeure Pattie Maes, docteure en IA de la VUB et au MIT, a posé les bases de ces technologies.
Les systèmes de filtrage collaboratif s'appuient sur une matrice : lignes pour les utilisateurs et leurs notes, colonnes pour les produits (films, par exemple). De nombreux champs sont vides, faute d'évaluations.
Les data scientists détectent des sous-groupes d'utilisateurs aux goûts similaires, sans tenir compte de l'âge ou du genre. Ils définissent la "similarité" via des méthodes mathématiques variées pour générer des suggestions précises.
Une approche géométrique compare les vecteurs de scores. Sur le graphique ci-contre (deux produits, quatre utilisateurs), les scores de C sont proches de B. B est-il plus proche de A ou D ? La distance euclidienne peut tromper ; l'angle entre vecteurs (similarité cosinus) est plus fiable. A et B partagent une préférence marquée pour le second produit.

Les angles entre lignes pointillées révèlent les profils similaires. On extrapole les notes manquantes en normalisant et moyennant les scores pondérés par similarité. Les méthodes modernes intègrent l'algèbre linéaire ; celle de Bellkor's Pragmatic Chaos en est un exemple.
Envie de devenir data scientist ? Les employeurs valorisent les profils communicants, experts en maths, stats et machine learning, familiers avec Scikit-learn, Pandas, NumPy, Spark, Hadoop, Keras ou TensorFlow. Les outils évoluent, mais les maths assurent une expertise durable.