Les linguistes computationnels conçoivent des logiciels pour analyser automatiquement le langage humain. Les spécialistes de littérature produisent des éditions numériques de textes. Depuis 2010, toutes les recherches en langues et littératures numériques à l'Université d'Anvers (UAntwerp) sont centralisées sur la plateforme Digital Humanities. Walter Daelemans, expert en linguistique computationnelle, et Dirk Van Hulle, éminent spécialiste de littérature, en sont les pionniers.
L'ère où les érudits littéraires s'enfermaient dans des bibliothèques poussiéreuses est révolue. Les chercheurs en sciences humaines s'appuient désormais massivement sur des outils numériques : bases de données de livres et documents, corpus linguistiques. Non seulement les matériaux sont numérisés, mais les méthodes le sont aussi.
Walter Daelemans et Dirk Van Hulle, avec leurs collègues Thomas Crombez et Mike Kestemont, ont fondé la plateforme Digital Humanities (uahost.uantwerpen.be/platformdh), qui regroupe ces travaux sur le langage et la littérature numériques. Avec Kestemont, ils animent également le cours de bachelier "Humanités Numériques".
Cela implique-t-il que linguistes et littéraires doivent désormais coder ? "C'est indispensable en linguistique computationnelle", confirme Walter Daelemans. "En littérature, il faut au minimum maîtriser les transcriptions de manuscrits en XML", ajoute Dirk Van Hulle. "Le consortium ouvert Text Encoding Initiative (TEI) définit annuellement ces conventions pour un balisage durable, lisible par les ordinateurs dans 100 ans."

Il y a trois ans, Van Hulle a obtenu une subvention de démarrage de 1,1 million d'euros du Conseil européen de la recherche pour étudier les manuscrits de Samuel Beckett. Son équipe crée des éditions numériques de génétique textuelle, incluant sa bibliothèque.
"Nous développons un environnement numérique pour reconstruire la genèse des textes et interagir avec les sources de Beckett. C'est un cas d'étude pour repenser l'édition scientifique : le processus créatif vaut autant que le produit final. Pourquoi ne pas en faire un outil d'enquête ?"
Avec ces recherches, l'équipe de Van Hulle intègre un réseau Marie Curie européen sur "l'édition scientifique numérique". En Flandre, l'UAntwerp mène via le groupe FWO "Digital Humanities Flanders".
"À travers départements et facultés, nous collaborons sur l'écriture créative. Par exemple, Inputlog – logiciel développé à l'UAntwerp – analyse le processus de rédaction du roman Roosevelt de Gie Laforce, en enregistrant chaque frappe et clic."
Van Hulle a aussi examiné L'Origine des espèces de Darwin. "Six éditions parurent de son vivant. Nous comparons textes, carnets, lettres via CollateX, développé avec l'Institut Huygens, pour détecter variantes et dynamiques créatives, éclairant l'imagination humaine."
"Nous automatisons les transcriptions", annonce Van Hulle. "Après l'OCR pour textes imprimés, nous avançons en HTR (reconnaissance de texte manuscrit) avec des partenaires européens. Chaque écriture unique exige des données d'entraînement spécifiques pour l'apprentissage automatique."
En linguistique computationnelle, Walter Daelemans excelle en algorithmes. Son groupe CLiPS détecte cyberharcèlement, propagande, profile personnalités, diagnostique via textes patients, simule acquisition langagière enfantine.
"Nous opérons à plusieurs niveaux", explique Daelemans. "D'abord, compréhension textuelle : extraire et stocker connaissances, comme en langage médical pour diagnostics automatisés via réseaux de neurones profonds.
Ensuite, émotions et opinions : extraction de sentiments. Avec politologues, nous analysons réactions sociales à l'actualité pour les élections 2019, cartographiant influences bidirectionnelles – médias sociaux inversent l'agenda politique – en temps réel."
Troisièmement, inférer traits d'auteur : âge, sexe, introversion, éducation, orientation politique. Le projet AMiCA (sécurité en ligne enfants) détectait pédophiles, cyberharcèlement via profils.

"Pour le recrutement en Chine, notre logiciel évalue réponses ouvertes sur compétences, personnalité, vision."
"Sur l'état de l'art, ces réseaux révolutionnent l'IA, y compris linguistique computationnelle, boostant précision en texte, image, parole. Ils apprennent patterns massifs grâce à la puissance actuelle. Google Translate s'est amélioré de 60 %. Nos masters en Linguistique Informatique forment programmeurs et algorithmiciens."
Unique au CLiPS : lien linguistique computationnelle/psycholinguistique. Projets simulent acquisition enfantine (avec Steven Gillis), modélisent multilinguisme (Dominiek Sandra), fusionnant acquisition, traitement, modélisation.