FRFAM.COM >> Science >> Technologie

DALL-E : Comment l'IA génère des images à partir de texte, par la mathématicienne Ann Dooms

Outre les textes, l'intelligence artificielle est désormais capable de générer des images. La mathématicienne Ann Dooms, experte en IA, explique le fonctionnement de cette technologie révolutionnaire.

À mon grand regret, je n'ai aucun talent pour le dessin. Je me souviens avec stress des cours d'éducation plastique où l'idée était claire dans ma tête, mais ma main ne parvenait pas à la retranscrire. Maladresse ou manque de vision précise ? Même avec un logiciel de dessin, les résultats restaient médiocres. Heureusement, Google Images ou les bases de données photo en ligne permettent de chercher des images similaires via du texte. Mais je dépends de créations existantes : mes idées les plus folles demeurent irréalisables.

Et si ce n'était plus le cas ? En janvier, OpenAI – laboratoire cofondé par Elon Musk – a lancé DALL-E, une plateforme qui génère des images à partir d'une simple description textuelle. Contrairement à Google Images, ce n'est pas une recherche web, mais un modèle d'apprentissage automatique qui crée les images de toutes pièces. Le nom rend hommage au surréaliste Salvador Dalí et au robot WALL-E.

DALL-E s'appuie sur GPT-3, un système générant des textes via un réseau de neurones entraîné sur un immense corpus de données textuelles. Une partie prédit le mot suivant, l'autre évalue la qualité. Au fil des itérations, le modèle excelle : il compose nouvelles, poèmes ou romans entiers, donnant l'illusion d'une compréhension linguistique réelle.

DALL-E : Comment l IA génère des images à partir de texte, par la mathématicienne Ann Dooms

Cette illusion se fissure avec les "hallucinations" de GPT-3 : textes absurdes, stéréotypés ou embarrassants, hérités du corpus d'entraînement. Les développeurs corrigent ces biais. DALL-E étend GPT-3 à des images, entraîné sur des milliards de paires texte-image. Résultat : des créations originales et amusantes.

Le modèle assimile l'apparence des objets (fauteuils, avocats) et, grâce à sa compréhension linguistique, combine concepts : imaginez un fauteuil en forme d'avocat !

La fin des designers de meubles ? Non. Le réseau ignore la faisabilité physique, mais inspire créativement. Pour l'heure, j'installe mon fauteuil-avocat virtuel au salon. Quelqu'un pour en fabriquer un vrai ? Malheureusement, ma maladresse m'en empêche.


[]