DeepMind, la division Intelligence Artificielle (IA) de Google, développe un agent logiciel entraîné sur des images Google Street View. Ce dataset permet de naviguer dans les villes sans coordonnées GPS, en s'appuyant uniquement sur des repères visuels.
L'ensemble de données couvre actuellement les centres-villes de Londres, Paris et New York. Il est composé de photos panoramiques à 360 degrés des rues Street View, au format 84 x 84 pixels. Raia Hadsell, chercheuse chez DeepMind, anticipe que le dataset StreetLearn sera mis à disposition d'autres chercheurs dès novembre.
Grâce à cet ensemble, il est possible de naviguer facilement dans ces trois villes. Le système s'appuie sur l'apprentissage par renforcement, utilisant des réseaux de neurones multicouches et des modèles mathématiques inspirés de la structure du cerveau humain. Comme chez l'humain, le modèle apprend la ville via des repères visuels. Il intègre trois réseaux neuronaux : un réseau convolutif pour la reconnaissance d'images et deux réseaux de mémoire à long et court terme (LSTM).
Ces LSTM agissent comme une mémoire contextuelle pour l'ensemble du système. En combinant ces réseaux, Google crée un agent logiciel transférable à d'autres villes, capitalisant sur ses apprentissages précédents. Raia Hadsell explique : « Un chauffeur de taxi londonien pourrait se rendre à Paris et s'y déplacer sans réapprendre à conduire. Il sait tourner à gauche ou à droite ; il lui suffit d'apprendre l'environnement. Cela fonctionne déjà et s'améliorera avec plus de villes. »
[]