Pourquoi la p-value est fausse et produit des faux-positifs
Parce qu’une p-value est calculée conditionnellement à l’hypothèse nulle étant vraie, elle ne représente pas la probabilité de commettre une erreur de type I dans la situation réelle dans laquelle on se trouve. Lorsqu’elle est interprétée de cette façon, elle surestime systématiquement le « risque de premier ordre ».
Voici le raisonnement précis.
1. Ce qu’est réellement le « risque de premier ordre »
Le taux d’erreur de type I (risque de premier ordre) est :
Il s’agit d’une propriété à long terme, fixée a priori, d’une règle de décision (par exemple : « rejeter si »).
Ce n’est pas une probabilité concernant l’expérience en cours.
2. Ce qu’est réellement une p-value
Une p-value est :
Points clés :
Elle est conditionnelle au fait que soit vraie
Ce n’est pas
Ce n’est pas
3. D’où vient la surestimation
L’interprétation courante (mais incorrecte)
« Si , il y a 3 % de risque que je commette une erreur de type I. »
C’est faux.
Pourquoi cela surestime le risque de premier ordre
Pour commettre une erreur de type I dans cette expérience, deux conditions doivent être réunies :
est vraie
On rejette
Or la p-value suppose déjà que (1) est vraie avec une probabilité égale à 1.
La probabilité réelle de commettre une erreur de type I est :
Comme :
la p-value exagère nécessairement la probabilité d’avoir tort.
4. Une illustration bayésienne simple
Supposons :
Probabilité a priori que soit vraie : 0,5
p-value observée : 0,05
Sous des hypothèses raisonnables, la probabilité a posteriori que soit vraie est souvent bien supérieure à 0,05, typiquement de l’ordre de 20 à 40 %.
Donc :
p-value = 0,05
Probabilité réelle d’erreur de type I ≫ 5 %
Cela est parfois appelé la « fausseté de la p-value » ou relié au risque de faux positifs (Colquhoun, 2014).
Colquhoun, D. (2014). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science, 1(140216), 1-16. https://doi.org/10.1098/rsos.140216
5. Pourquoi cela est inévitable en tests fréquentistes
Le cadre fréquentiste n’attribue pas de probabilités aux hypothèses
Il contrôle uniquement des taux d’erreur avant d’observer les données
Une fois les données observées, la p-value n’a pas de signification décisionnelle directe
La p-value n’est donc pas fausse, mais son interprétation est très souvent erronée.
6. Interprétation correcte
✔ Correct :
« Si l’hypothèse nulle était vraie, des données au moins aussi extrêmes seraient observées avec une probabilité égale à . »
❌ Incorrect :
« Il y a une probabilité
7. Message clé
Les p-values surestiment le risque de premier ordre parce qu’elles :
conditionnent sur le fait que soit vraie,
ignorent la probabilité que soit fausse,
sont confondues avec des probabilités a posteriori.
C’est pourquoi :
des p-values très petites (<0.000001) sont nécessaires pour une preuve solide,
la réplication est essentielle,
des approches bayésiennes ou fondées sur la vraisemblance sont souvent plus informatives.
Commentaires
Enregistrer un commentaire