La limite numérique de ce qui est "significatif" est trop souvent l'alibi pour justifier une recherche de qualité inférieure. Et ce sont précisément de telles études reprises avec impatience par les médias.
Les scientifiques ne se contentent pas de crier, ils ne rapportent que des résultats "significatifs". Mais la limite numérique de ce qui est "significatif" est trop souvent l'alibi pour justifier une recherche de qualité inférieure. Et ce sont précisément ces études qui sont reprises avec empressement par les médias.
Peter Grünwald est un mathématicien dont la mission n'est pas mince. Il veut que les chercheurs utilisent des statistiques fondamentalement différentes pour interpréter leurs expériences. Certes, dans les sciences sociales et le monde médical, c'est presque une bataille. Les principes de ce qui est « significatif » et de ce qui ne l'est pas, formulés vers 1935 par Fisher, Neyman et Pearson, ont maintenant dégénéré en dogme scientifique. Il existe un progiciel standard pour cela, SPSS, afin que le médecin ou le psychologue puisse saisir ses données expérimentales sans avoir à se soucier des calculs. Faut-il tout changer ?
Fétichisme
Lors des Dutch Mathematics Days, une réunion annuelle de centaines de mathématiciens et professeurs de mathématiques, fin janvier, Grünwald a donné la conférence de clôture. Il est chercheur principal au Centre de mathématiques et d'informatique et professeur de statistiques à Leiden. Grünwald a laissé son public voter en ligne avec leurs Smartphones pour savoir si une photo érotique qu'ils avaient vue serait bientôt projetée à gauche ou à droite sur l'écran vidéo.
Le psychologue Daryl Bem a mené une expérience similaire en 2011. Il a publié ses découvertes dans la principale revue de psychologie sociale, Journal of Personality and Social Psychology. † Seulement si les photos étaient érotiques, ses sujets devinaient correctement (p <0,05) plus souvent que cinquante pour cent. C'était une grande nouvelle, jusqu'à ce que dans The Oprah Winfrey Show prêt. Cela a également suscité de nombreuses critiques, entre autres de la part du psychologue d'Amsterdam Eric-Jan Wagenmakers, également quelqu'un qui pense que la science fait du fétichisme avec 'p <0,05'.
'Le brocoli aide à lutter contre l'autisme'
Les critiques à l'égard du critère de l'importance émanent de divers milieux. L'objection la plus simple est que c'est tellement boiteux :si vous répétez une expérience vingt fois, vous trouvez généralement un résultat significatif une fois et vous pouvez publier un article scientifique à ce sujet. Si c'est un sujet sexy, il fera la une des journaux et peut-être même des talk-shows à la télévision.
Comment cela fonctionne est magnifiquement illustré par une bande dessinée sur la façon dont les bonbons verts causent l'acné. « Si vous décidez à l'avance de faire vingt fois l'expérience, vous pouvez appliquer une correction statistique. Mais si différents groupes de recherche y travaillent, même s'ils ne se connaissent pas, comment corrigez-vous cela ? » demande Grünwald.
On pourrait penser que le problème n'est pas si grave si seulement un message sur 20 du type "le brocoli aide contre l'autisme" est infondé - ce que dans le jargon académique on appelle "non reproductible". Mais c'est bien pire :dans un article controversé de 2005, le professeur John Ioaniddis (Université de Stanford, États-Unis) a estimé que trente pour cent des résultats de la recherche médicale, même les plus cités, sont non reproductibles. Cela est principalement dû au soi-disant biais de publication † Les revues scientifiques ne veulent pas d'articles disant que "le brocoli n'aide pas l'autisme", donc toutes les tentatives infructueuses pour montrer un lien significatif entre l'un et l'autre ne sont même pas envoyées. Ce qui reste est donc en grande partie du type "les acides verts provoquent l'acné".
Source de misère
Une autre objection à la p-value est qu'elle provoque une sorte de renversement de la charge de la preuve, le sophisme du procureur (erreur de l'accusateur, voir encadré en bas de cet article). "Une source de misère", l'a appelé Grünwald dans sa conférence. Un p <0,05 dit :étant donné cette hypothèse nulle (les gens ne sont pas des médiums), la probabilité de ces dates (387 personnes sur 700 votent correctement) est inférieure à 5 %. Presque inévitablement, les gens interprètent cela comme la déclaration suivante :étant donné ces données (387 personnes sur 700 votent correctement), la probabilité que l'hypothèse nulle soit vraie est inférieure à 5 %. Ainsi, la probabilité que les gens aient des médiums serait supérieure à 95 %.
La plupart des gens, même les mathématiciens, ont intuitivement tendance à faire cette inversion. Un exemple bien connu illustrant que les deux probabilités dans le sophisme du processeur peut différer énormément, va comme suit. Supposons que vous disiez à une personne au hasard qu'il est un basketteur professionnel. Quelle est la probabilité qu'il mesure plus de 1 mètre 90 ? Supposons maintenant que quelqu'un vous dise qu'une personne au hasard mesure plus de 6 pieds. Quelle est la probabilité qu'il soit un joueur de basket professionnel ? Grünwald :"Bien que ce soit facile dans certains contextes, par exemple avec ce joueur de basket-ball, c'est un raisonnement correct sur les probabilités conditionnelles - évitant ainsi l'erreur du procureur – clairement quelque chose pour lequel l'esprit humain n'est pas fait.'
Arrêt facultatif
Ce que vous n'êtes pas non plus autorisé à faire lors du calcul avec la valeur p est l'arrêt facultatif † Supposons que vous fassiez une expérience avec une centaine de sujets pour voir si un certain médicament fonctionne mieux qu'un placebo, et vous obtenez une valeur p de 0,07. Ennuyeux, parce que ce n'est tout simplement pas significatif, donc c'est non publiable. La tentation est grande de continuer :peut-être que la p-value descendra en dessous de 0,05 si j'ajoute vingt autres sujets de test ? Même si vous le pouvez, c'est de la triche; la valeur p que vous calculez maintenant est sujette à la déflation, ce qui ne fournit plus une juste mesure de l'importance.
De nos jours, les essais médicaux doivent être décrits en détail à l'avance, y compris le nombre de sujets testés. En psychologie sociale notamment, les règles sont beaucoup moins strictes. Les sujets d'expériences sont rassemblés (souvent issus des classes d'étudiants de première année du chercheur lui-même), parfois sur plusieurs mois et dans plusieurs universités. La publication sur la recherche doit indiquer combien de sujets de test ont été utilisés au total, mais il est souvent difficile de savoir si ce nombre a été déterminé à l'avance ou a été ajusté à mi-parcours.
___________________________________________________________
Valeur P et hypothèse nulle
La coïncidence joue un rôle dans chaque expérience, c'est pourquoi le résultat ne représente jamais simplement "la vérité". Si dans une salle 700 personnes votent pour savoir si une photo érotique apparaîtra à gauche ou à droite, et que vous supposez qu'elles n'ont rien de mieux que le jeu à l'aveugle (l'hypothèse nulle), alors en moyenne - donc si vous faites l'expérience très souvent - 350 les gens voteront « à gauche », et le reste bien sûr « à droite ». Mais dans presque toutes les expériences, le nombre d'électeurs de gauche s'écartera en fait de 350.
Le graphique à barres montre ceci :la chance d'exactement 350 électeurs de gauche n'est que de 1 sur 33 (0,03), 32 fois sur 33 c'est plus ou moins. Supposons qu'au final 382 personnes sur 700 aient voté "de gauche" (sur la photo au début de cet article le vote était toujours en cours, mais au total moins de 700 personnes ont voté et le véritable résultat final n'est plus disponible). Si vous recherchez 382 sur l'axe horizontal, vous voyez que la probabilité de ce résultat n'est que de 0,002, 1 sur 500. Ce résultat est-il significatif ?
Tracer une ligne sur le graphique juste assez loin du haut pour que 95 % des résultats soient à gauche et 5 % à droite. En d'autres termes :l'aire sous le graphique à gauche de la p-ligne est vingt fois plus grande que l'aire à gauche. C'est le fameux critère p <0,05. Le résultat du vote, 382 votes à « gauche », est à droite de la ligne p, donc le résultat est significatif. Mais qu'est-ce que cela signifie ?
Cela signifie :étant donné que les gens n'ont rien de mieux que de deviner à l'aveugle, ils voteront "à gauche" moins de 5 % des fois que cette expérience est menée. Dans les sciences sociales et dans de nombreuses expériences médicales, c'est une raison pour rejeter maintenant l'hypothèse nulle (bien que la limite de 0,05 ait été choisie assez arbitrairement).
Dans ce cas :apparemment, les gens peuvent mieux prédire l'avenir qu'en jouant à l'aveugle. Ou ils préfèrent tout simplement la gauche, par exemple parce que vous commencez à lire de ce côté-ci. Presque tout le monde, y compris de nombreux chercheurs, a maintenant tendance à penser que c'est la même chose que :étant donné ce résultat, il y a moins de 5 % de chances que les gens ne jouent qu'à l'aveuglette. Mais ce n'est pas du tout pareil; c'est l'infâme erreur du procureur Voir l'autre case au bas de cet article pour une explication.
___________________________________________________________
Tester les martingales
Comment devrait-il être? Grünwald :« C'est beaucoup plus pratique d'avoir une méthode qui permet de continuer aussi longtemps que l'on veut. Grünwald travaille sur ce qu'on appelle des martingales de test, où cela est effectivement autorisé, et qui donnent une valeur pour la valeur probante d'une expérience, qui n'a pas les problèmes d'interprétation de la p-value.
Le terme "Martingale" vient du casino. C'est une stratégie légendaire pour toujours gagner à la roulette :ne misez que sur le « rouge » et doublez votre mise à chaque fois que vous perdez. Vous réaliserez en effet toujours un petit bénéfice net - mais seulement dans un monde de rêve où la table de roulette n'a pas de mise maximale et où vous disposez d'un capital de départ infiniment grand.
Les martingales de test sont une généralisation à la fois de la p-value et de la méthode bayésienne (voir encadré sur l'erreur de l'accusateur). L'hypothèse nulle et une hypothèse alternative sont comme « noir » et « rouge » à la roulette, et tout résultat expérimental est comme un tour de roulette. Vous prédéterminez un certain nombre de stratégies pour parier sur l'un ou les deux, puis essayez de gagner autant d'argent virtuel que possible. Si l'hypothèse nulle est vraie, alors la roue de la roulette est juste et vous ne gagnez rien à long terme. Si l'hypothèse alternative est vraie, il existe en principe une stratégie pour marquer mieux que le hasard - ce n'est jamais la martingale primale mentionnée auparavant - et vous réaliserez un bénéfice net.
« Plus vous gagnez d'argent, plus vous avez de preuves contre l'hypothèse nulle. C'est fortement lié à ce que font les fonds cotés », déclare Grünwald. "Ils essaient toujours de trouver une stratégie d'investissement qui surperforme l'indice boursier." Si vous appelez le gain virtuellement gagné W, alors 1/W vous donne une sorte de valeur p robuste, qui est également valable avec arrêt facultatif † Vous pouvez donc décider vous-même de la durée de votre expérience.
Les mathématiques sous-jacentes sont compliquées, alors ne dérangez pas les médecins ou les psychologues avec ça. Grünwald travaille toujours à perfectionner la méthode, mais à terme, il sera également possible de l'implémenter dans un progiciel tel que SPSS. "En fin de compte, je pense que vous vous retrouvez avec une histoire beaucoup plus simple que la valeur p. L'argent est très tangible. Et jusqu'à ce que j'aie fini mon travail :utilisez les tests d'hypothèse bayésiens.'
___________________________________________________________
La fausse couche du procureur
Si vous supposez que les gens ne sont pas psychiques (l'hypothèse nulle) et que 382 personnes sur 700 prédisent correctement qu'une image sera affichée à gauche, alors la valeur p de ce résultat est bien inférieure à 0,05, ce qui est environ 0 ,01. La convention est que vous pouvez rejeter l'hypothèse nulle. Mais on ne sait pas très bien ce que cela signifie pour la probabilité que le contraire soit vrai, "les gens sont psychiques". Si vous inversez simplement l'énoncé ("Étant donné qu'au moins 382 personnes sur 700 ont fait la bonne prédiction, la probabilité que les gens aient des médiums est de 1 - 0,01 =0,99, ou 99 pour cent"), vous validez le l'erreur du procureur, l'erreur du procureur. Cette erreur est d'autant plus grande que l'hypothèse nulle est a priori probable, moins la capacité psychique existe réellement.
Imaginez faire cette expérience un nombre incalculable de fois, à chaque fois avec 700 autres personnes dans la pièce, et seulement une salle sur dix mille est vraiment psychique (après tout, nous sommes sceptiques a priori). Pour plus de commodité, nous supposons également qu'un médium prédit toujours correctement au moins 382 fois, donc jamais moins. Il y a alors quatre options :
L'hypothèse a priori est que seulement 1 salle sur 10 000 est paranormale, 9 999 ne le sont pas. La probabilité qu'une pièce soit à la fois psychique et obtienne un score d'au moins 382 est de 0,0001 × 1. La probabilité que ce score soit atteint par une pièce non psychique est de 0,9999 × 0,01 =0,009999 =0,009999 . Dans tous les autres cas, la salle obtient un score inférieur à 382.
Étant donné qu'une pièce obtient un score de 382 ou plus, quelle est la probabilité que cela soit le résultat d'une capacité psychique ? Retour en arrière :selon le sophisme du procureur que la chance est de 99 pour cent. Mais en fait, la chambre psychique a une part beaucoup plus faible de la chance totale d'obtenir un score d'au moins 382 :0,0001/(0,0001 + 0,009999) =0,0099… soit à peine 1 %. Dans les 99 % des cas restants (0,009999/(0,0001+0,009999 =0,990….), le score d'au moins 382 est atteint par une chambre non psychique !
Bien sûr, cette distribution dépend fortement de l'hypothèse a priori selon laquelle seulement 1 salle sur 10 000 est psychique. Vous pouvez faire d'autres hypothèses a priori, mais il ne fait aucun doute que le erreur du procureur dans tous les cas n'obtient pas de réponse correcte.
C'est pourquoi la théorie bayésienne des probabilités commence toujours par un a priori, une hypothèse sur la probabilité de votre hypothèse, et prend en compte les résultats des expériences. On peut également se demander ce qu'est un bon a priori (parce que parfois vous n'en savez presque rien), mais la méthode baysienne évite le sophisme du procureur et autres paradoxes de la valeur p.
Cela confirme également la sagesse séculaire selon laquelle des affirmations extraordinaires nécessitent des preuves extraordinaires. Si votre a priori est très petit, un p d'environ 0,05 ne signifie presque rien.
___________________________________________________________