En science, toutes les preuves expérimentales ne se valent pas. Alors pour mesurer la qualité d’une preuve expérimentale, les statisticiens ont développé le concept de “p-valeur”.
Aujourd’hui, il est devenu presque impossible de trouver des publications scientifiques qui ne font pas usage du concept. Comment ça marche ?
La p-valeur, ce n’est rien d’autre qu’une note entre 0% (très bien) et 100% (pas bien), égale à la probabilité d’obtenir par pur hasard un résultat expérimental au moins aussi convaincant que celui concrètement obtenu par les chercheurs une fois l’expérience terminée. Si cette probabilité est trop élevée, par exemple 20, 40 ou 70%, alors on ne peut pas considérer le résultat expérimental comme une preuve.
En général d’ailleurs, les chercheurs ne publient rien dans ce cas de figure : convaincre un éditeur de publier un papier de recherche disant “on a essayé et on a obtenu une p-valeur moisie”, c’est dur. Pour qu’une preuve expérimentale soit jugée crédible (les statisticiens disent *significative*), il faut que la p-valeur liée soit faible, la plus proche de 0% possible. Beaucoup de scientifiques disent qu’en dessous de 5%, c’est bon, ils ont fait une découverte, les résultats ne sont pas le fruit d’un aléa statistique : https://i.redd.it/ese8n7bpps7z.png
En réalité, tout dépend de ce qu’on cherche à prouver. Une p-valeur de 4, 3 ou même 1%, cela reste peu convaincant s’il s’agit de remettre en question toute la physique moderne par exemple : mieux vaut être sûr de son coup et obtenir une preuve expérimentale extrêmement convaincante, avec une p-valeur de peut-être 0,00001% (si pas moins !)
A l’inverse, si l’on cherche à prouver quelque chose porteur d’enjeux nettement plus faibles, par exemple que le dé utilisé pour jouer au Monopoly avec quelques amis est pipé, pas besoin d’une p-valeur aussi faible que 0,00001% : une p-valeur aussi élevée que 10% pourra être jugée convaincante pour déclarer le dé pipé (cela dit, 0,00001% reste mieux).