Il est grand temps que les robots et autres machines intelligentes apprennent à nous comprendre.
"Désolé, je ne t'ai pas entendu." Cela pourrait être la première réponse empathique d'une machine vocale. À la fin des années 1990, SpeechWorks, basé à Boston, a commencé à fournir des logiciels aux entreprises pour permettre à leur service d'assistance informatisé d'utiliser ces expressions et d'autres. Depuis lors, nous nous sommes habitués à parler aux machines. Presque chaque appel à un service d'assistance commence par une conversation entre humains et robots. Des centaines de millions de personnes ont un assistant personnel intelligent dans leur poche. Nous pouvons demander à Siri et à des outils similaires de nous trouver un restaurant, d'appeler des amis ou de leur demander de rechercher une chanson.
Mais les machines ne réagissent pas toujours comme nous le souhaitons. Les logiciels de reconnaissance vocale ne fonctionnent pas parfaitement et souvent les machines ne comprennent pas le sens de nos questions. Ils ne comprennent pas non plus les émotions et l'humour, le sarcasme et l'ironie. À l'avenir, si nous commençons à passer plus de temps à interagir avec des machines - et nous le ferons, qu'il s'agisse d'aspirateurs intelligents ou d'infirmières robots humanoïdes - nous devrons leur faire faire plus que simplement comprendre nos mots :elles devront aussi ressentir. Ils devront "comprendre" et partager nos émotions humaines - ils devront donc avoir de l'empathie.
Nous développons de telles machines dans mon laboratoire à l'Université des sciences et technologies de Hong Kong. Les robots empathiques peuvent devenir très utiles dans la société. Ils seront plus que nos assistants et deviendront éventuellement nos collaborateurs. Ils seront amicaux et chaleureux, anticipant nos besoins physiques et émotionnels. Ils apprendront de nos interactions avec les autres, amélioreront nos vies et rendront notre travail plus efficace. Ils s'occuperont des personnes âgées, éduqueront nos enfants et peut-être dans des situations critiques vous sauveront la vie et se sacrifieront pour vous - un acte d'empathie ultime.
Plusieurs robots imitant les émotions sont déjà sur le marché, comme Pepper, un petit compagnon humanoïde développé par la société française Aldebaran Robotics pour le japonais Softbank Mobile. Et il y a le robot Jibo, un assistant personnel pesant un peu moins de trois kilogrammes, conçu par un groupe d'ingénieurs dont Roberto Pieraccini, ancien directeur des technologies de dialogue chez SpeechWorks. Le domaine des robots empathiques est encore à l'ère des machines à vapeur, mais les outils et algorithmes qui amélioreront considérablement ces machines sont déjà en cours d'élaboration.
Logiciel empathique
Je me suis intéressé à la construction de robots empathiques lorsque mon groupe de recherche a conçu le premier équivalent chinois de Siri il y a six ans. Il était fascinant de voir comment les utilisateurs réagissaient émotionnellement aux assistants personnels des machines de manière tout à fait naturelle - et à quel point ils étaient frustrés lorsque leurs machines ne comprenaient pas ce qu'ils voulaient communiquer. J'ai réalisé que la clé pour construire des machines capables de comprendre les émotions humaines se trouvait dans les algorithmes de reconnaissance vocale auxquels j'ai consacré mes vingt-cinq ans de carrière.
Une machine intelligente est essentiellement un système logiciel composé de modules, où chaque module est un programme qui exécute une tâche spécifique. Un robot intelligent peut contenir un module qui traite la parole humaine, un autre module peut reconnaître les images prises par la caméra du robot, etc. Un robot empathique a aussi un « cœur », et ce cœur est un ensemble de logiciels que nous appelons le module empathique. Il analyse les expressions faciales, les marqueurs acoustiques de la parole et le contenu de ce qui est dit, afin de lire les sentiments humains et de dire au robot comment réagir.
Lorsque deux personnes communiquent, elles utilisent automatiquement une série de signaux pour comprendre les émotions de l'autre. Ils interprètent les mouvements du visage et le langage corporel, entendent les changements dans le ton de la voix et comprennent le contenu de ce qui est dit. Construire un module empathique consiste à identifier ces caractéristiques de la communication humaine afin que les machines puissent reconnaître les émotions et leur enseigner des algorithmes pour percevoir ces caractéristiques.
Lorsque mon groupe de recherche a commencé à former des machines à détecter les émotions dans la parole, nous avons décidé de leur apprendre non seulement à reconnaître les caractéristiques fondamentales, mais aussi à comprendre le sens des mots eux-mêmes. Après tout, c'est ainsi que les gens communiquent entre eux :la communication humaine consiste à traiter des signaux. Notre cerveau détecte les émotions dans la voix d'une personne en recherchant des caractéristiques acoustiques qui indiquent le stress, la joie, la peur, la colère, le dégoût, etc. Quand nous sommes heureux, nous parlons plus vite et le ton de notre voix monte. Lorsque nous sommes stressés, notre voix devient plus plate et plus sèche. En utilisant des techniques de traitement du signal, les machines peuvent détecter ces caractéristiques, un peu comme un détecteur de mensonge enregistre la pression artérielle, la fréquence cardiaque et la conductivité cutanée. Pour détecter le stress, nous avons entraîné les algorithmes d'apprentissage automatique à reconnaître les caractéristiques auditives correspondant au stress.
Un court enregistrement de la parole humaine ne peut contenir que quelques mots, mais à partir du ton de la voix, nous pouvons de toute façon extraire de grandes quantités de données pour le traitement du signal. Nous avons d'abord enseigné aux machines comment reconnaître le stress négatif (la tristesse) dans des échantillons de discours d'étudiants de mon institut. Les étudiants ont surnommé cette dernière «l'Université du stress et de la tension de Hong Kong». Nous avons créé le premier corpus multilingue de facteurs de stress naturels en anglais, mandarin et cantonais en posant aux étudiants douze questions de plus en plus stressantes. Après avoir collecté une dizaine d'heures de données, nos algorithmes ont réussi à reconnaître avec précision le stress 70 % du temps - un résultat remarquablement proche de celui des personnes qui écoutent.
Pendant ce temps, une autre équipe de mon groupe entraînait des machines à reconnaître l'ambiance de la musique en analysant simplement ses caractéristiques sonores (c'est-à-dire sans prêter attention aux paroles des chansons). Contrairement aux émotions, certaines humeurs persistent pendant toute la durée de la musique. L'équipe a commencé par collecter 5 000 chansons de tous genres dans les principales langues européennes et asiatiques. Plusieurs centaines de ces chansons avaient déjà été classées par les musicologues en quatorze catégories d'ambiance.
De chaque chanson, nous avons distillé environ un millier de caractéristiques fondamentales - des paramètres acoustiques comme l'énergie, la fréquence fondamentale, l'harmonie - puis avons utilisé la musique étiquetée pour former quatorze classificateurs logiciels différents. Chacun d'eux devait déterminer si un morceau de musique appartenait ou non à une certaine humeur. Par exemple, un classificateur écoute exclusivement de la musique gaie, un autre exclusivement de la musique mélancolique. Les quatorze travaillent ensemble, en s'appuyant sur les conjectures des autres. Si un classificateur "heureux" prend par erreur une chanson mélancolique pour une chanson heureuse, il sera recyclé au tour suivant. Après chaque tour, le classificateur le plus faible est réentrainé et l'ensemble du système s'améliore. De cette façon, la machine écoute de nombreux fragments de musique et apprend lesquels appartiennent à une certaine humeur. Au fil du temps, elle parvient à reconnaître l'ambiance de n'importe quel morceau de musique - juste en écoutant le son, comme nous le pouvons. Sur la base de cette recherche, mes anciens étudiants et moi-même avons créé une entreprise - Ivo Technologies - pour construire des machines empathiques que les consommateurs peuvent utiliser à la maison. Le premier produit, Moodbox, sera un système intelligent qui contrôlera la musique et l'éclairage de chaque pièce des maisons privées, répondant aux émotions de l'utilisateur.
Comprendre les intentions
Pour comprendre l'humour, le sarcasme, l'ironie et d'autres nuances de la communication à un niveau supérieur, une machine devra être capable de faire plus que reconnaître les émotions sur la base des seules caractéristiques acoustiques. Elle devra également comprendre le sens sous-jacent d'une conversation et comparer son contenu à l'émotion avec laquelle un message est délivré.
Les chercheurs ont développé une technologie avancée de reconnaissance vocale en travaillant avec des données humaines collectées depuis les années 1980. Aujourd'hui, cette technologie est assez mature. Cependant, il existe une différence importante entre transcrire une conversation et la comprendre réellement. Pensez simplement à ce qui se passe sur le plan cognitif, neurologique et musculaire lorsqu'une personne dit quelque chose à une autre personne :la personne formule ses pensées, choisit ses mots et parle. L'auditeur décode le message. Dans une conversation entre l'homme et la machine, cette chaîne est complètement différente, avec toutes les conséquences associées :les ondes sonores sont converties en une forme numérique, puis en paramètres.
Lorsque nous avons commencé nos recherches sur les robots empathiques, nous avons réalisé que des algorithmes comme celui-ci qui déduisent les sentiments des utilisateurs à partir des commentaires en ligne pourraient nous aider à analyser les émotions dans la parole. Les algorithmes d'apprentissage automatique recherchent de nombreux éléments du contenu. Des mots clés comme « tristesse » ou « peur » suggèrent la solitude. L'utilisation répétée de mots vides fréquemment utilisés (par exemple "allez") peut indiquer qu'une chanson est pleine d'énergie. Nous analysons également des informations sur le style de discours. Les réponses que quelqu'un donne sont-elles claires, est-il sûr qu'elles sont correctes, ou est-il dans le doute et les réponses sont pleines de pauses et garde-t-il rancune ? Les réponses sont-elles complètes et détaillées ou sont-elles concises et brèves ?
Dans nos recherches sur la reconnaissance des humeurs dans la musique, nous avons formé des algorithmes pour dériver les caractéristiques des émotions à partir des paroles de chansons. Au lieu d'extraire les caractéristiques sonores de chaque morceau de musique, nous avons extrait des séquences de mots des paroles et les avons soumises aux classificateurs individuels. Chacun d'eux était chargé de déterminer si des parties des paroles correspondaient à l'un des quatorze accords. De telles séquences de mots sont appelées N-grammes. Pour trouver la signature d'une humeur, nous avons également utilisé des balises représentant la partie du discours des mots. Les ordinateurs peuvent utiliser des N-grammes et des parties d'étiquettes vocales pour former des approximations statistiques des règles grammaticales dans n'importe quelle langue. Ces règles aident des programmes comme Siri à reconnaître la parole et des logiciels comme Google Traduction à convertir du texte dans une autre langue.
Une fois qu'une machine peut comprendre le contenu de la parole, elle peut comparer ce contenu avec la façon dont il est prononcé. Si quelqu'un soupire et dit "Je suis tellement content de devoir travailler tout le week-end", un algorithme peut détecter que le signal émotionnel et le contenu de la phrase ne correspondent pas, et calculer la probabilité que l'orateur soit sarcastique à ce moment-là. moment. est. De même, une machine capable de comprendre les émotions et le contenu de la parole peut lier ces informations à encore plus d'entrées, détectant des intentions encore plus complexes. Lorsque quelqu'un dit "j'ai faim", un robot peut trouver la meilleure réponse en fonction de l'emplacement de l'orateur, de l'heure de la journée, des préférences historiques de l'utilisateur et d'autres paramètres. Si le robot et son utilisateur sont à la maison et qu'il est presque midi, le robot pourrait dire :« Dois-je vous faire un sandwich ? » Si le robot et son utilisateur sont en voyage, il pourrait dire :« Aimeriez-vous que je sois vous cherchez un restaurant ?'
Zara la Supergirl
Au début de cette année, des étudiants et des chercheurs postdoctoraux de mon laboratoire ont commencé à assembler tous nos différents modules de reconnaissance de la parole et de reconnaissance des émotions et à construire un prototype de robot empathique. Nous l'avons appelée Zara la Supergirl. Pour former Zara, des centaines d'heures de données ont été traitées, et aujourd'hui le programme tourne sur un simple ordinateur de bureau. Désormais, Zara est un robot virtuel, représenté sur l'écran de l'ordinateur par un personnage de dessin animé.
Quand quelqu'un entame une conversation avec Zara, elle dit :"Attends une minute pendant que j'analyse ton visage." Les algorithmes de Zara étudient les images prises par la webcam de l'ordinateur pour déterminer votre sexe et votre origine ethnique. Ensuite, elle vérifiera quelle langue vous parlez (Zara comprend l'anglais et le mandarin et apprend maintenant le français) et vous posera quelques questions dans votre langue maternelle :« Quel est votre premier souvenir ? Parlez-moi de votre mère. Comment se sont passées tes dernières vacances? Raconte-moi une histoire avec une femme, un chien et un arbre'.
Ce processus permet à Zara de répondre d'une manière qui imite l'empathie. Il peut le faire en fonction des expressions de votre visage, des caractéristiques acoustiques de votre voix et du contenu de vos réponses. Après une conversation de cinq minutes, Zara essaiera de deviner votre personnalité et vous demandera ce que vous pensez des machines empathiques. Ce dernier est un moyen pour nous d'obtenir des commentaires des gens sur leur interaction avec les premiers robots empathiques.
Zara n'est encore qu'un prototype, mais parce qu'il est basé sur des algorithmes d'apprentissage automatique, il deviendra de plus en plus "intelligent" en interagissant avec de plus en plus de personnes et en collectant de plus en plus de données. À ce stade, sa base de données de connaissances est basée uniquement sur les interactions avec les étudiants diplômés de mon laboratoire. Pour l'année prochaine, nous prévoyons de donner un corps à Zara en la transformant en robot humanoïde.
Il est prématuré de dire que l'ère des robots amicaux est déjà arrivée. Nous venons tout juste de commencer à développer les outils les plus élémentaires dont les robots émotionnellement intelligents auront besoin. Et quand la progéniture de Zara apparaîtra sur le marché, elle ne sera certainement pas parfaite non plus. Mais je ne pense pas que se concentrer sur la fabrication de machines parfaitement précises soit la chose la plus importante. Je pense qu'il est beaucoup plus important que nos machines deviennent plus humaines. Vous n'êtes pas obligé de fonctionner parfaitement, car les gens ne le font pas non plus. Si nous faisons cela correctement, les machines empathiques ne deviendront pas les robots suzerains que certains craignent. Ils seront nos gardiens, nos professeurs et nos amis.