Des chercheurs américains de l'université Cornell développent un logiciel capable de repérer les articles scientifiques frauduleux grâce à l'analyse linguistique. Un langage suspect est souvent révélateur.

Repérer les fraudes par l'analyse du langage
Vous souvenez-vous de Diederik Stapel, l'ancien professeur de psychologie de l'université de Tilburg, déchu en 2011 après la découverte de fraudes dans ses recherches sur plusieurs années ? Des scientifiques de l'université Cornell expliquent dans PLOS ONE comment distinguer les faux articles, comme ceux de Stapel, des authentiques, en se basant sur le langage employé. Par exemple, Stapel utilisait significativement plus de termes scientifiques que la moyenne des articles véridiques.
Leur méthode de détection atteint 70 % de précision. L'équipe teste actuellement une vaste collection de faux papiers pour valider et affiner le logiciel.
Des marqueurs linguistiques du mensonge
« Le mensonge est très stressant. Cette peur s'infiltre souvent dans le langage du menteur », explique le chercheur David Markowitz. Par exemple, un président mentant sur une guerre emploie moins de pronoms personnels comme « je » ou « moi », et plus de mots évoquant la « peur ». L'équipe a aussi analysé des profils de sites de rencontres en ligne.
Les articles de Stapel, au nombre de 49 où il était premier auteur, ont servi de cas d'étude idéal. Dans les textes frauduleux, il affectionnait les mots renforçants comme « profond » ou « extrême », et évitait les atténuateurs tels que « assez » ou « quelque peu ». Si cette approche s'avère efficace sur d'autres fraudes, elle pourrait devenir un outil précieux pour identifier les études douteuses.
Critiques de la méthode
Des voix critiques s'élèvent toutefois. Le linguiste néerlandais Marc van Oostendorp (Université de Leiden) note sur son blog Neder-L que les « vrais » articles comptent souvent plus de co-auteurs, ce qui pourrait expliquer la modération des exagérations comme « extrême ». Les chercheurs américains n'évoquent pas ces alternatives, observe-t-il. (adw)
[]