Les linguistes écrivent des logiciels pour analyser automatiquement le langage. Les scientifiques littéraires créent des éditions de texte numériques. Depuis 2010, toutes les recherches en langues et littératures numériques à UAntwerp sont regroupées sur la plateforme Digital Humanities. Le linguiste informatique Walter Daelemans et le spécialiste de la littérature Dirk Van Hulle déchiffrent le code.
L'époque où un érudit littéraire s'enfermait dans la bibliothèque de manuscrits poussiéreux est révolue. Les chercheurs en sciences humaines recourent de plus en plus aux outils numériques :bases de données de livres ou de documents, ou corpus linguistiques. Non seulement le matériel est de plus en plus numérique, mais les méthodes aussi.
Le linguiste informatique Walter Daelemans et le spécialiste de la littérature Dirk Van Hulle ont créé, avec leurs collègues Thomas Crombez et Mike Kestemont, la plateforme Digital Humanities (uahost.uantwerpen.be/platformdh), qui rassemble toutes ces recherches sur le langage et la littérature numériques. Avec Kestemont, ils sont également responsables du cours de licence Humanités numériques.
Cela signifie-t-il que les linguistes et les spécialistes de la littérature devraient désormais être capables d'écrire des logiciels en plus d'un bon talent pour les langues ? « C'est une exigence pour nous en linguistique informatique », confirme Walter Daelemans. "En littérature, il faut au moins la volonté de faire des transcriptions de manuscrits, par exemple, dans le langage de balisage XML", explique Dirk Van Hulle. « Un consortium très ouvert, la Text Encoding Initiative (TEI), se réunit chaque année pour déterminer et éventuellement ajuster les conventions de ce langage de balisage. Après tout, l'objectif est de créer un langage dans lequel nous nous comprenons et qui, espérons-le, d'ici 100 ans pourra encore être lu par les ordinateurs. »
Il y a trois ans, Van Hulle a reçu une subvention de démarrage de 1,1 million d'euros du Conseil européen de la recherche pour des recherches novatrices sur les manuscrits littéraires. Avec son équipe, il crée des éditions de génétique textuelle numérique des œuvres de l'écrivain irlandais Samuel Beckett, y compris sa bibliothèque.
« Nous essayons de créer un environnement numérique où vous pouvez reconstruire la genèse du texte, mais où vous pouvez également interagir avec les textes sources que Beckett a utilisés. Ce projet est une étude de cas pour faire un point plus important sur la science de l'édition. Dans le passé, la recherche en génétique textuelle était considérée comme une fonction de l'édition d'un texte. Mais le processus d'écriture est tout aussi important que le produit. Alors pourquoi ne pas faire d'une édition de texte un instrument pour enquêter sur la genèse du texte ? »
Avec cette recherche numérique sur les processus créatifs, l'équipe de Van Hulle fait partie d'un réseau européen Marie Curie sur "l'édition scientifique numérique" et en Flandre, UAntwerp ouvre la voie en tant que porte-parole de la communauté de recherche scientifique FWO "Digital Humanities Flanders".
« Non seulement au Département de littérature, mais aussi à la faculté et à l'interfaculté, il y a une collaboration au sein de notre université avec des chercheurs en écriture. Entre autres choses, le processus d'écriture de Roosevelt , le dernier roman de Gie Bogaert, peut être analysé avec le logiciel Inputlog, développé dans notre université, qui enregistre chaque frappe et clic de souris de l'auteur."
Van Hulle a également étudié, entre autres, le processus d'écriture de L'origine des espèces de Charles Darwin. « Du vivant de Darwin, six éditions du livre ont paru. Vous voulez pouvoir comparer ces textes entre eux, mais aussi avec ce que Darwin a écrit dans ses cahiers, ses portefeuilles, ses journaux intimes et ses lettres. En collaboration avec l'Institut Huygens d'histoire néerlandaise, nous avons travaillé sur le programme CollateX pour trouver rapidement toutes les variantes de n'importe quelle phrase à toutes les étapes d'écriture. Nous recherchons des moyens d'étudier facilement ce qui rend un processus d'écriture très dynamique, à savoir ces variantes de texte, et ainsi mieux comprendre le fonctionnement de l'imagination humaine. »
« Nous recherchons désormais également des moyens d'automatiser le travail de transcription », déclare Van Hulle. "Tout comme vous pouvez convertir des textes numérisés en texte modifiable avec la reconnaissance optique de caractères (OCR), nous aimerions développer davantage la reconnaissance de texte manuscrit (HTR) en collaboration avec d'autres groupes de recherche européens, afin de pouvoir également convertir l'écriture manuscrite en texte modifiable. Ce n'est pas facile car chaque écriture est différente, ce qui signifie que différentes "données d'apprentissage" sont nécessaires pour l'algorithme d'apprentissage."
En tant que linguiste informatique, Walter Daelemans connaît tout sur les algorithmes. De nombreux projets sont en cours au sein de son groupe de recherche qui peuvent utiliser des algorithmes basés sur des collections et des fragments de textes collectés pour détecter des comportements indésirables tels que la cyberintimidation et la propagande de l'EI, lier la personnalité au style d'écriture, établir des diagnostics basés sur les données des patients, simuler comment un enfant apprend le langage, et ainsi de suite.
«Nous menons des recherches à plusieurs niveaux», explique Daelemans. « Le premier niveau est la compréhension de texte :sommes-nous capables de comprendre automatiquement un texte et de stocker les connaissances qu'il contient dans des bases de données ? Un exemple d'étude est notre projet sur le langage médical. Nous travaillons sur un système qui analyse les données des patients et l'intention est de pouvoir faire des diagnostics automatiques à long terme. Nous utilisons pour cela les dernières technologies, à savoir les réseaux de neurones profonds.
Le deuxième niveau auquel le texte peut être analysé est l'émotion et l'opinion :"Nous faisons de l'extraction de sentiments et la détection d'opinion », explique Daelemans. "Nous avons actuellement un nouveau projet intéressant avec les politologues et les communicants dans lequel nous analysons comment les gens sur les réseaux sociaux analysent l'actualité, comment ils se forgent une opinion à partir de ce qu'ils trouvent sur les réseaux sociaux et dans la presse, et vice versa :comment la presse y répond. Les élections de 2019 sont notre objectif. Nous voulons cartographier ce qui précède en termes d'opinions sur les réseaux sociaux et dans la presse. L'idée classique est que les politiciens fixent l'ordre du jour, en informent la presse et le commentent sur les réseaux sociaux. Mais en fait, cette pyramide est maintenant à l'envers. Ce sont les médias sociaux qui déterminent l'agenda des politiciens. En utilisant cette analyse de texte subjective, nous pouvons surveiller comment cela en temps réel va."
Au troisième niveau, Daelemans et son équipe tentent de découvrir ce que vous pouvez apprendre sur son auteur à partir d'un texte. "Puis-je en savoir plus sur les facteurs démographiques tels que l'âge et le sexe, et les facteurs psychologiques tels que le fait que l'auteur soit introverti ou extraverti, s'il est très instruit ou non, politiquement de gauche ou de droite ? Dans une certaine mesure, vous pouvez le déduire du texte.
Par exemple, le projet AMiCA récemment achevé portait sur la sécurité en ligne et la sécurité des enfants et des jeunes, pour les protéger des contenus préjudiciables. Dans le cas le plus extrême, ce sont des pédophiles, mais le cyber-harcèlement peut aussi être détecté automatiquement :« Les gens sont-ils vraiment ceux qu'ils prétendent être ? Nous pouvons vérifier cela en découvrant leur âge et leur sexe en fonction de leurs publications. Ou nous pouvons aller voir si quelqu'un a une structure de personnalité pour être une victime ou un intimidateur dans le cyberharcèlement."
Daelemans travaille actuellement sur le profilage du personnel. « Certaines entreprises en Chine reçoivent des milliers de candidatures pour chaque poste vacant. Pour le moment, ils ne regardent que les candidats des «bonnes» universités et de nombreux profils intéressants manquent à l'appel. Nous travaillons maintenant avec une entreprise qui utilise notre logiciel pour analyser les réponses en texte ouvert des candidats afin de voir si ce candidat répond aux critères du poste en termes de niveau, de personnalité et de vision."
"Nous développons ces applications en nous basant sur l'état de l'art dans notre domaine et qui évolue très vite en ce moment », témoigne Daelemans. « Cela nous amène aux « réseaux de neurones » qui ont envahi le domaine de l'intelligence artificielle, dont la linguistique computationnelle fait partie. Dans tous les domaines où ces réseaux sont utilisés, vous constatez une amélioration significative de la précision de ces systèmes, à la fois dans le traitement des images et dans l'analyse de la parole et du texte. En fait, c'est très simple ce que font ces réseaux de neurones. Vous offrez simplement au réseau beaucoup de données et il apprend à y reconnaître des modèles, qu'il s'agisse de texte, de son ou d'images. Ce sont en fait des algorithmes qui ont été inventés au siècle dernier, mais qui ne peuvent maintenant être utilisés de manière très efficace qu'avec la puissance de calcul d'aujourd'hui. »
Aujourd'hui, nous pouvons donner tellement d'informations à ces réseaux de neurones que pour certaines tâches, ils atteignent le niveau du cerveau humain ou même font mieux, Daelemans le sait. « Les réseaux de neurones ont également fait d'énormes progrès dans le domaine de la traduction automatique. Google Translate a récemment été amélioré de 60% de cette manière. En raison de l'évolution rapide, tout ce qui se passe maintenant est très excitant. Parce que ce type de recherche est très éloigné de la linguistique classique, nous formons nos étudiants en Master Linguistique Informatique de manière à ce qu'ils sachent bien programmer et aient des bases solides pour comprendre et développer les algorithmes.”
Ce qui rend le Centre de recherche en linguistique computationnelle et en psycholinguistique (CLiPS) de Walter Daelemans si unique, c'est qu'il relie la linguistique informatique à la psycholinguistique. Plusieurs projets très intéressants sont également en cours à ce carrefour.
« Par exemple, avec le professeur Steven Gillis, nous avons un projet TOP qui tente de simuler comment un enfant apprend une langue à partir de données linguistiques primaires à l'aide de modèles informatiques. Il s'agit d'une recherche fondamentale à long terme sur l'hypothèse suivante :quelle part de nos connaissances linguistiques est innée et quelle part est cachée dans l'intrant et peut donc être extraite avec des processus cognitifs généraux ? Avec le professeur Dominiek Sandra, nous avons un projet sur les modèles informatiques du multilinguisme. Par exemple, au sein de CLiPS, nous travaillons bien ensemble sur les trois volets :acquisition du langage, traitement et modélisation informatique.