Comment distinguer les vrais tweets des faux messages des armées de trolls ? Avec deux algorithmes basés sur un nouvel ensemble de paramètres, il s'avère.
À l'approche de l'élection présidentielle américaine, elle fera plus que jamais l'actualité :la bataille géopolitique ne se livrera plus avec des armées conventionnelles et des arsenaux nucléaires, mais avec des armées de trolls et des armes numériques. Plus tôt cette semaine, William Evanina, directeur du service de contre-espionnage numérique américain NCSC, a également mis en garde contre les ingérences russes (pro-Trump), chinoises (pro-Biden) et iraniennes (pro-chaos général aux États-Unis).
Comment arrêter ces armées de trolls sans compromettre la liberté d'expression ? En identifiant leurs tweets. Ce n'est pas si simple. Pas même avec des algorithmes basés sur le temps, le hashtag et la localisation géographique. Le spécialiste en linguistique appliquée Sergei Monakhov a donc adopté une approche différente avec une étude à la Friedrich-Schiller-Universität (Jena). Une recherche qui, assure l'université, n'a été "pas financée de l'extérieur et sans conflits d'intérêts". Lu :non manipulé par une partie impliquée en vue du résultat souhaité.
Monakhov a mené une étude comparative d'un certain nombre de vrais tweets de membres du Congrès américain par rapport à un certain nombre de faux tweets de trolls russes. Il y jette un filet sociolinguistique, basé sur un double constat :les trolls ne diffusent qu'un nombre limité de messages, mais ils le font à grande échelle. Une diversité suffisante dans la langue et les thèmes est néanmoins requise. Sinon, un tweet séparé tombe immédiatement dans le panier comme l'un des milliers de tweets (presque) identiques d'un seul et même expéditeur au (presque) même moment.
Et c'est leur talon d'Achille, a conclu Monakhov. A l'intérieur d'un message qui doit être à la fois court et identique, on ne peut pas varier à l'infini avec la langue. Cela conduit rapidement à des ruses. Et ceux-là – le mot dit tout – ont quelque chose d'artificiel. Selon Monakhov, cela se traduit par un signal d'alarme concret :« Une anomalie dans la répartition des mots répétés et des couples de mots. Dans un tweet en série d'un troll, la distribution est manifestement différente - artificielle, donc - que dans un tweet individuel d'un twitterer individuel.
« En quantifiant cela, nous sommes arrivés à deux algorithmes. Cinquante tweets suffisent pour dénoncer un troll."
Monakhov lui-même a fait le test décisif avec le twitteur le plus célèbre du monde :« Nos algorithmes ont immédiatement vu la différence entre les tweets de trolls et les vrais de Donald Trump. » il ne va pas plus loin qu'un cliché bien connu :« Cela doit être déterminé par des recherches plus approfondies. .'