Des chercheurs ont développé un programme innovant permettant aux ordinateurs d'apprendre de nouveaux concepts à partir d'un seul exemple, à l'image des humains.

Ce qui semble évident pour nous représente une avancée majeure pour l'intelligence artificielle (IA).
Les ordinateurs accomplissent désormais des tâches autrefois réservées aux humains, comme la reconnaissance d'objets, de visages ou la traduction vocale. Cependant, leur méthode diffère : ils s'appuient sur des volumes massifs de données plutôt que sur une compréhension intuitive.
La plupart des algorithmes identifient des motifs caractéristiques dans les données. Par exemple, un visage est détecté grâce à des arrangements spécifiques de pixels (yeux, nez, bouche), sans véritable compréhension du concept.
Cette approche est extrêmement gourmande en données : il faut des centaines voire milliers d'exemples pour qu'un programme reconnaisse un objet avec fiabilité. Les systèmes de reconnaissance faciale, par exemple, sont entraînés sur des milliers d'images avant d'être opérationnels.
Les humains, eux, apprennent souvent d'un seul exemple. Un enfant reconnaît un crocodile après une visite au zoo, malgré les variations entre individus. De même, un adulte assimile un nouveau symbole ou outil après une brève exposition.
En 2006, un programme capable de reconnaître et reproduire des chiffres manuscrits nécessitait 6 000 exemples par chiffre, alors que les humains y parviennent du premier coup.
Russ Salakhutdinov, informaticien à l'Université Carnegie Mellon, et Brenden Lake, data scientist, ont relevé le défi. Lake a observé que les humains décomposent les symboles en traits séquentiels, reproduisant ainsi leur genèse.
Les chercheurs ont adopté une approche bayésienne, qui gère l'incertitude et excelle avec peu de données. Leur programme convertit les lettres de 30 alphabets en séquences d'opérations génératrices.
Ainsi "entraîné", il reconnaît et reproduit des caractères inédits aussi bien que les humains, selon une étude publiée dans Science.
Des tests ont montré que seuls 3 des 48 participants distinguaient systématiquement les reproductions informatiques des humaines. Avec seulement 5 alphabets d'entraînement, 25 des 32 sujets ne percevaient aucune différence.
Le programme excelle même dans la création de nouveaux caractères plausibles, indistinguables de ceux inventés par des humains.
Les chercheurs tempèrent l'enthousiasme : beaucoup de travail reste pour intégrer images, vidéo et langage. Joshua Tenenbaum, co-auteur, applique ces principes à l'analyse de données scientifiques via "The Automatic Statistician".
Cette méthode promet des avancées en compression de données et analyse automatique.
[]