Pouvez-vous conclure à partir des données de Google Livres que nous devenons de plus en plus émotifs ? Le linguiste Hendrik De Smet remet en question la forme de recherche connue sous le nom d'"analyse culturelle".
Les conclusions d'un récent article paru dans PNAS, la célèbre revue de l'Académie nationale américaine des sciences, apporteront sans aucun doute de l'eau au moulin de ceux qui se sentent appelés à un certain pessimisme culturel. "[N]os résultats suggèrent", disent les auteurs, "qu'au cours des dernières décennies, il y a eu un changement marqué dans l'intérêt public du collectif à l'individuel, et de la rationalité vers l'émotion". Cette conclusion est basée sur une analyse statistique complexe des changements de fréquence de 5 000 mots à haute fréquence en anglais, mesurés au cours des deux cents dernières années, à l'aide des données de Google Books. Il semble donc que les auteurs aient les chiffres durs du big data de leur côté. Les auteurs eux-mêmes - Marten Scheffer, Ingrid van de Leemput, Els Weinans et Johan Bollen - étaient suffisamment confiants pour baptiser leur article "La montée et la chute de la rationalité". Mais avant de décider de croire ce que nous avons peut-être secrètement voulu croire de toute façon, nous devons considérer que les chiffres peuvent aussi induire en erreur.
L'article de Scheffer et al. appartient à un type de recherche en croissance rapide connu sous le nom d '«analyse culturelle», qui tente de déduire les changements culturels à partir des fréquences de mots changeantes dans de grands ensembles de données historiques. Ceux qui veulent mieux comprendre ce que vise ce type de recherche peuvent commencer par Google Ngram Viewer, l'application qui met à la disposition du grand public l'ensemble de données central de Scheffer et al. Ouvrez l'écran d'accueil et vous êtes immédiatement encouragé à consulter vous-même l'analyse culturelle. Un joli graphique apparaît à l'écran, comme le montre la figure 1 ci-dessous, montrant l'évolution de la fréquence d'utilisation de trois noms propres - Frankenstein, Sherlock Holmes et Albert Einstein au fil du temps.
Le nom Frankenstein - personnage principal du roman de Mary Shelley de 1818 - est apparu pour la première fois dans le discours public, suivi de Sherlock Holmes dans la seconde moitié du 19e siècle et d'Albert Einstein dans la première moitié du 20e. Pendant un certain temps, ce dernier a apparemment bénéficié d'une plus grande notoriété que ses deux concurrents fictifs, mais à la fin du XXe siècle, il a été repris par Frankenstein, et plus récemment, Sherlock Holmes en particulier est à la hausse, et Frankenstein est sur le point d'obtenir . En tant qu'utilisateur, vous ressentez immédiatement le besoin de rechercher une causalité derrière cela - bien sûr qu'un détective le fait en ces temps de théories du complot , quelque chose comme ca. Trouver et expliquer les modèles de fréquence changeante des mots est exactement ce que des chercheurs tels que Scheffer et al. essaient de faire, mais à grande échelle et avec un arsenal étendu de techniques statistiques.
Ce qui est si séduisant dans ces types d'entreprises, c'est qu'elles donnent l'impression de pouvoir saisir une réalité culturelle incroyablement complexe en chiffres objectifs. Mais le danger de la circularité est juste au coin de la rue, et puis il y a aussi de nombreux pièges techniques et linguistiques. Néanmoins, le soupçon d'objectivité permet à ce type de recherche de trouver rapidement sa place dans la presse scientifique généraliste et le grand public. Le temps, l'espace et la lisibilité ne me permettent pas de couvrir ici tous les aspects de l'article de Scheffer et al. Leur argumentation est plus complexe que je ne puis les reproduire ici. Mais compte tenu de leurs revendications de grande envergure, il est néanmoins souhaitable de souligner certains problèmes fondamentaux.
L'argument central de Scheffer et al est qu'au cours des 200 dernières années, un grand groupe de mots s'est développé en parallèle dans leur fréquence. Scheffer et autres se réfèrent à ce parcours comme "le bâton de hockey incliné", d'après la forme de la courbe. Prenons par exemple en colère † Jusqu'au milieu du XXe siècle, la fréquence de la colère cette tendance a stagné pendant un certain temps, puis s'est soudainement inversée vers 1980, comme on peut le voir sur la figure 2 ci-dessous. (A part:Dans ce graphique et les suivants, j'ai normalisé les fréquences, avec 1 pour la fréquence mesurée la plus élevée et 0 pour la plus basse, afin que les tendances puissent facilement être affichées dans le même graphique. Les fréquences sont également normalisées, alors prenez en compte que les ensembles de données consultés ne contiennent pas la même quantité de données pour chaque année ou décennie.)
Scheffer et al. soutiennent que les mots qui suivent ce modèle, tels que en colère , sont principalement des mots faisant référence à des sentiments et à une expérience individuelle (principalement est un ajout important ici, car la liste comprend également des mots comme petit-déjeuner , par , accrocher ou ciel , qui suivent probablement le même schéma). Il y a aussi des mots qui suivent le schéma inverse. Par exemple, raisonnable a d'abord augmenté en fréquence, puis a plongé brusquement vers 1980, comme le montre la figure 2. De tels mots, selon Scheffer et al., font généralement référence à la science, au caractère raisonnable, aux procédures, etc. En résumé, vers 1980, notre intérêt mutuel a tourné. Du coup on a préféré parler de ressenti, on a arrêté de suivre nos pensées, et l'individuel a pris le pas sur le collectif.
Fondamentalement, il n'est pas déraisonnable de s'attendre à ce qu'un changement dans notre culture puisse se manifester dans notre utilisation de la langue ou, à l'inverse, que notre utilisation de la langue puisse révéler quelque chose sur ce qui se passe dans notre culture. La fréquence avec laquelle nous utilisons les mots pour certains concepts peut en effet servir d'étalon, du moins dans certains cas. La figure 3 ci-dessous montre la fréquence des pizzas en anglais, selon les données de Google Books. D'après le graphique de la figure 3, il est plausible que les anglophones aient commencé à manger beaucoup plus de pizza depuis le milieu du 20e siècle.
Mais la traduction de la fréquence des mots à la réalité historique est rarement aussi simple. La figure 4 montre la fréquence des marteaux et ongles † Si l'on se laisse naïvement emporter par les chiffres, on pourrait conclure qu'il y a eu beaucoup de martelage entre 1850 et 1930, mais sans augmentation correspondante du nombre de clous utilisés. À la fin du 20e siècle, l'utilisation des clous a soudainement explosé, suivie rapidement d'une revalorisation plus modeste du marteau.
L'exemple expose immédiatement deux problèmes. Premièrement, la fréquence des mots fluctue pour diverses raisons, parfois très obscures. Qui m'explique pourquoi la fréquence des marteaux change sa façon de faire? Scheffer et al sont conscients de ce premier problème dans une certaine mesure. C'est l'une des raisons pour lesquelles leur analyse n'est pas basée sur la fréquence d'un mot, mais sur les fréquences de plusieurs mots. Pourtant, je crois qu'ils sous-estiment encore les difficultés, comme cela deviendra évident dans un instant.
Deuxièmement, un mot ne correspond pas sans ambiguïté à un concept. Le n anglais courrier se réfère en fait non seulement aux ongles mais aussi aux ongles. Donc, si vous voulez savoir quelque chose sur les ongles, la fréquence des ongles n'est pas d'une grande utilité † Les linguistes appellent une telle multitude de significations polysémie et conviennent que la polysémie dans le langage est la norme. C'est-à-dire qu'essentiellement tous les mots d'une langue sont plus ou moins polysémiques (pour ceux qui n'y croient pas, prenez un dictionnaire avec vous et vous verrez). Quel mot dans les listes de Scheffer et al. semble signifier est tout au plus notre première association, colorée à l'avance par le contexte de la liste elle-même. Ce qu'un mot signifie dans son contexte réel est souvent quelque chose de complètement différent. Juste pour donner un exemple un peu aléatoire, Scheffer et al. étiquettent pleurer comme mot d'émotion, mais est-ce aussi dans la pratique clinique d'un pédiatre, ou lorsqu'il désigne le bruit des mouettes ou du vent ?
L'absence d'une relation univoque entre le mot et le concept s'étend également dans l'autre sens. Il y a généralement plus d'un mot pour exprimer à peu près le même concept. Par exemple, le thésaurus de Webster nous dit que il y a au moins environ 120 adjectifs différents en anglais pour exprimer diverses nuances de colère (désapprobateur , enragé , glacial , indigné , irrascible , passionné , querelleur , rancoeur , ressentiment , bouillonnant , testé , coché , énervé , courroucé , et ainsi de suite). Connaître la fréquence de la colère donc pas suffisant.
La relation complexe entre les mots et les concepts n'est même pas abordée dans l'article de Scheffer et al. Cependant, il est très fondamental à leur argument. Parce qu'il n'y a pas de relation univoque entre les mots et les concepts, il est également impossible qu'il y ait une relation univoque entre le changement de fréquence dans l'utilisation des mots et le changement de fréquence dans l'utilisation des concepts associés. Pas étonnant, alors, que les courbes de fréquence fassent déjà des courbes étranges, et leur interprétation est une entreprise périlleuse.
Et puis il y a un autre problème, au moins aussi grave. En fait, Google Livres est un gâchis. Nous ne savons qu'approximativement comment cet énorme ensemble de données est structuré en interne. Si vous voulez vraiment savoir si la fréquence d'un mot change, vous utilisez un corpus historique - une collection de textes principalement composée, qui permet de comparer au mieux les périodes historiques entre elles. Pour l'anglais des 200 dernières années, le Corpus of Historical American English (COHA) le choix évident. C'est beaucoup plus petit que Google Livres, mais c'est principalement parce que Google Livres est incroyablement grand. Avec 400 millions de mots de texte, COHA est l'un des plus grands corpus historiques disponibles, et il a été composé avec suffisamment de soin pour garantir que différents types de texte, tels que les romans et les journaux, sont représentés de manière égale au fil des décennies. Ce n'est qu'ainsi que vous pourrez essayer de mesurer les changements dans la fréquence des mots avec une certaine tranquillité d'esprit.
Si nous testons les conclusions de Scheffer et al., par rapport à l'ACHO, il s'avère que la réalité empirique sur laquelle ils s'appuient n'est peut-être pas si réelle du tout. Selon Scheffer et al., les cinq meilleurs représentants du "bâton de hockey incliné" sont les suivants :en colère , regarde , marcher , inattendu et dormir † Mais leur fréquence dans COHA, comme le montre la figure 5, montre quelque chose de complètement différent. Seule la courbe des inattendus se rapproche de la signature du "bâton de hockey incliné". En colère , regarde , marcher et dormir augmentent en fréquence à l'échelle mondiale, atteignant leur fréquence la plus élevée dans les années 80 et 90 du 20e siècle, juste au moment où elles auraient dû être à leur plus bas.
Par conséquent, les résultats de Scheffer et al ne peuvent pas être bien reproduits dans un corpus spécialement conçu pour comparer des périodes historiques. Le fait que COHA soit un ensemble de données plus petit n'a pas beaucoup d'importance ici. Les courbes semblent un peu plus anguleuses, mais la figure 5 ci-dessus est toujours basée sur des centaines de milliers d'observations. Un statisticien peut faire quelque chose avec ça. Mais pourquoi des résultats contradictoires ? L'explication la plus plausible à laquelle je puisse penser est que la composition des données dans Google Livres change avec le temps. Cela est probablement dû aux procédures de sélection de Google Livres lui-même, aux procédures de sélection des bibliothèques d'où provient Google Livres, à l'inconstance des traditions historiques et au changement réel dans les genres de texte que nous lisons et produisons. Certes, ce dernier type de changements peut dire quelque chose sur notre culture, car une société qui troque le sermon du dimanche contre le supplément sportif du journal a bien sûr fondamentalement changé. Seulement, il est impossible de déterminer à partir des données de Google Livres le poids de ce facteur.
Il est donc fort possible que Scheffer et consorts aient découvert une discontinuité dans la composition de Google Livres avec leur "bâton de hockey incliné". Sans confirmation sur la base d'un corpus réel, je ne suis donc pas enclin à accepter sans poser de questions les résultats des recherches de Scheffer et al. Scheffer et al corroborent leurs résultats avec des données provenant d'autres ensembles de données, mais ils ne contiennent pas une trace aussi claire du fameux "bâton de hockey incliné". En particulier, l'affirmation selon laquelle les années 1980 sont un moment charnière dans le développement décrit ci-dessus devient très douteuse - et c'est précisément le point le plus intéressant et le plus innovant de leur argumentation.
Au total, il m'est difficile de conclure ici autrement que que le Big Data ne tient finalement pas ses promesses. C'est formidable d'avoir beaucoup de données à votre disposition, mais si cela signifie que vous ne savez plus ce que vous avez et que vous devez faire toutes sortes d'hypothèses douteuses lors de l'interrogation de vos données, la crédibilité des résultats de la recherche diminue rapidement. La recherche souffre alors précisément de ce que Scheffer et al considèrent comme caractéristique de notre culture actuelle. Les observations empiriques perdent du terrain, et le ressenti du chercheur prend le dessus :ce qui paraît plausible doit être vrai. Nous avons la chance d'avoir encore des corpus pour continuer à marteler les faits.