FRFAM.COM >> Science >> Histoire

Comment les algorithmes de langage ont refroidi une histoire d'amour médiévale

Les lettres d'amour entre Héloïse et Abélard sont l'un des secrets les mieux gardés de notre histoire. Pendant des décennies, les spécialistes se sont demandé qui les avait écrits. Armé d'algorithmes de langage, j'ai pu démasquer le véritable auteur de la fascinante correspondance.

Photo :Héloïse et Abélard capturés par l'oncle Fulbert (Jean Vignaud, 1819).

C'est la perle littéraire du Moyen Age. Échange de lettres en latin, écrites dans le Paris du XIIe siècle entre un homme et une femme qui se déclarent leur amour. Passionné, érotique, direct et donc unique pour son époque. Il s'appelle Abélard et elle s'appelle Héloïse. Abélard est un maître d'école populaire. Héloïse est son apprenti. Les deux entament une liaison, mais lorsque l'oncle d'Héloïse l'apprend, il fait castrer Abélard en pleine nuit. Traumatisés, les deux amants se réfugient au monastère. Isolés l'un de l'autre, ils commencent à échanger des lettres d'amour qui racontent leur histoire d'amour tragique.

Le mystère de la paternité

C'est aussi une histoire trop belle pour être vraie. Ou du moins partiellement. Délivrant le summum littéraire du Moyen Âge latin, ces amants énigmatiques égarent leurs lecteurs depuis des siècles. Les spécialistes contestent amèrement l'authenticité et la paternité de la correspondance. Quiconque lit attentivement les lettres remarquera rapidement qu'il ne s'agit pas de sextos ordinaires, mais de chefs-d'œuvre littéraires convaincants qui forment un ensemble solide et montrent une ligne. Il se sent juste trop éteint. Il est trop orchestré et calculé pour continuer comme une correspondance privée qui est tombée entre nos mains 900 ans plus tard.

C'est trop bizarre pour une correspondance privée qui est tombée entre nos mains 900 ans plus tard

Pour aggraver les choses, il n'y a pas non plus d'écriture manuscrite contemporaine du texte. Une minorité ose donc même prétendre que les critiques littéraires sont les yeux ouverts pour applaudir une farce littéraire et que ce n'est pas Héloïse et Abélard mais un faussaire qui a construit la collection. Et si la salle n'a pas été assez blessée en son honneur, vous pouvez la rendre encore plus rouge en osant affirmer sans aucune preuve qu'Héloïse, la voix féminine la plus célèbre du Moyen Âge, n'a peut-être rien à voir avec la collection de tout, et qu'un fantasme masculin était à la base de la pièce maîtresse du Moyen Âge occidental.

Reconnaissance d'auteur avec des algorithmes de langage

Pour apporter un éclairage nouveau sur la paternité de cette correspondance déroutante, je me suis armé d'algorithmes de langage de reconnaissance d'auteur. Celles-ci ont récemment abouti à des expositions très médiatisées de noms à consonance. Par exemple, ils ont surpris Jules César n'ayant pas rédigé seul ses rapports de bataille. Et ils ont présenté des preuves irréfutables qui, en 2013, ont forcé J. K. Rowling à admettre que non pas un Robert Gailbraith — son pseudonyme — mais elle-même The Cuckoo's Calling avait écrit.

L'idée révolutionnaire derrière les algorithmes de langage est que les auteurs laissent une sorte d'ADN stylistique dans leur texte en dehors de leur conscience

L'idée révolutionnaire derrière ces nouvelles méthodes est que les écrivains laissent une sorte d'ADN stylistique dans leur texte en dehors de leur conscience. Peut-être quelque peu contre-intuitif, cet ADN n'est pas tellement caché dans les grands tropes. Ces derniers, soit dit en passant, sont faciles à imiter. Le style d'écriture, comme nous l'enseignent ces algorithmes, se révèle dans notre préférence pour les petits mots, sur lesquels nous nous rabattons souvent. Non pas les mots de contenu, mais les charges avec lesquelles nous colorons nos textes, tels que les adverbes, les conjonctions, les prépositions, les pronoms et les articles, laissent des empreintes stylistiques qui vous appartiennent indéniablement ou à moi. Par exemple, une personne peut aimer utiliser "cependant", tandis que l'autre préfère "bien que".

Comment les algorithmes de langage ont refroidi une histoire d amour médiévale

Figure 1. Exemple théorique et intuitif d'un cluster plot dans lequel les textes de deux auteurs (rouge et vert) sont comparés. Les fréquences de trois mots sont projetées sur les axes x, y et z. Dans une étude plus approfondie (comme dans les figures ci-dessous), les informations riches de parfois 200 mots ou plus sont résumées sur 3 axes qui indiquent les principales tendances. Les points sont les fragments de texte. Sans aucune connaissance préalable, l'algorithme divisera les textes dans l'espace, créant des groupes de textes avec un style similaire.

Un avantage de ces mots est qu'ils sont si nombreux dans notre langue qu'ils sont faciles à quantifier. Dans la reconnaissance d'auteur, les fréquences de parfois 200 ou plus de ces mots sont prises en compte. Cela devient vraiment intéressant lorsque les textes sont ensuite projetés via des fréquences de mots sous forme de coordonnées sur les axes x, y et z. Dans de telles figures, comme on le voit ici, des textes écrits dans le même style montreront des fréquences de mots similaires et se positionneront par conséquent à proximité les uns des autres dans l'espace.

Qui a écrit les lettres ?

Avec ces algorithmes de langage à portée de main, je comptais démasquer le véritable auteur des lettres d'amour. Et le dénouement m'a surpris. L'histoire d'amour était peut-être réelle, et il ne fait aucun doute qu'Heloïse était une auteure brillante – c'est ce que nous enseignent les témoignages contemporains – mais je ne retrouvais nulle part sa trace stylistique dans les lettres. Comme le montrent les chiffres, la collection de lettres a une forte unité stylistique qui ressemble presque à tous les niveaux à un auteur :Abélard.

Comment les algorithmes de langage ont refroidi une histoire d amour médiévale

Figure 2. Les lettres d'Abélard et d'Héloïse. Un seul groupe apparaît, indiquant avec une forte probabilité qu'un seul auteur travaillait.

Comment les algorithmes de langage ont refroidi une histoire d amour médiévale

Figure 3. La correspondance montre également une forte ressemblance stylistique avec les autres œuvres d'Abélard.

N'est-il pas tiré par les cheveux de soupçonner un homme médiéval de jouer son âme sœur, au lieu de supposer qu'Héloïse écrivait simplement ses lettres elle-même ? Pas vraiment. Les auteurs contemporains font ce qu'Abélard a déjà fait, et quand ils le font, nous appelons cela de la fiction.

Les auteurs contemporains font ce qu'Abélard a déjà fait, et quand ils le font, nous appelons cela de la fiction

Ce que les algorithmes du langage montrent clairement, c'est qu'Abélard est un conteur qui a compris le pouvoir de l'amour et l'a utilisé avec gratitude pour captiver ses lecteurs. Dans ce dernier, il a réussi. Après tout, pendant des siècles, ses lecteurs ont trouvé les lettres si belles et fascinantes qu'ils ont continué à chérir l'espoir qu'il s'agissait de lettres médiévales privées.

Le fait que les algorithmes soient moins impressionnés par le jeu d'acteur d'Abélard et puissent ajuster sobrement notre vision d'un texte est leur plus grande force. Plus ils deviennent sensibles à la modélisation de notre langue et de notre littérature, plus ils nous mettent au défi de remettre en question nos préjugés personnels, et plus ils nous permettent d'en apprendre davantage sur nous-mêmes en tant qu'humains et sur notre histoire.

Jeroen De Gussem a été nominé pour la Flemish PhD Cup. Découvrez-en plus sur ses recherches sur www.phdcup.be.


[]