FRFAM.COM >> Science >> Technologie

Algorithmes innovants pour détecter les trolls sur Twitter : une étude linguistique fiable

Comment distinguer les tweets authentiques des messages produits par des armées de trolls ? Deux algorithmes basés sur des paramètres sociolinguistiques y parviennent efficacement.

À l'approche de l'élection présidentielle américaine, le sujet est plus brûlant que jamais : la guerre géopolitique se livre désormais avec des armées de trolls et des armes numériques. Cette semaine, William Evanina, directeur du NCSC (service américain de contre-espionnage numérique), a alerté sur les ingérences russes (pro-Trump), chinoises (pro-Biden) et iraniennes (pro-chaos aux États-Unis).

Comment contrer ces trolls sans porter atteinte à la liberté d'expression ? En identifiant leurs tweets de manière précise. Les approches classiques basées sur le temps, les hashtags ou la localisation géographique sont insuffisantes. Le spécialiste en linguistique appliquée Sergei Monakhov, de la Friedrich-Schiller-Universität de Jena, a adopté une méthode novatrice. L'université confirme que cette recherche est indépendante : non financée de l'extérieur et sans conflits d'intérêts.

Monakhov a comparé des tweets authentiques de membres du Congrès américain à des tweets générés par des trolls russes. Son approche sociolinguistique repose sur un constat clé : les trolls diffusent un nombre limité de messages à grande échelle, nécessitant une diversité linguistique et thématique minimale pour éviter la détection. Sans cela, un tweet isolé est immédiatement identifié comme l'un des milliers de publications quasi-identiques d'un même compte au même moment.

Algorithmes innovants pour détecter les trolls sur Twitter : une étude linguistique fiable

Voilà leur talon d'Achille, selon Monakhov. Dans un message court et répétitif, la variation linguistique est limitée, menant à des formulations artificielles. Cela se manifeste par une anomalie dans la répartition des mots répétés et des bigrammes. La distribution chez les trolls est manifestement artificielle comparée à celle d'un utilisateur individuel.

"En quantifiant ces anomalies, nous avons développé deux algorithmes. Cinquante tweets suffisent pour identifier un troll."

Monakhov a testé ses algorithmes sur le compte le plus suivi au monde : "Ils distinguent immédiatement les tweets de trolls de ceux de Donald Trump authentiques." Des recherches supplémentaires sont nécessaires pour approfondir.


[]