Pourquoi la p-value est fausse et produit des faux-positifs

 Parce qu’une p-value est calculée conditionnellement à l’hypothèse nulle étant vraie, elle ne représente pas la probabilité de commettre une erreur de type I dans la situation réelle dans laquelle on se trouve. Lorsqu’elle est interprétée de cette façon, elle surestime systématiquement le « risque de premier ordre ».

Voici le raisonnement précis.


1. Ce qu’est réellement le « risque de premier ordre »

Le taux d’erreur de type I (risque de premier ordre) est :

α=P(rejeter H0H0 est vraie)

Il s’agit d’une propriété à long terme, fixée a priori, d’une règle de décision (par exemple : « rejeter si p<0,05»).

Ce n’est pas une probabilité concernant l’expérience en cours.


2. Ce qu’est réellement une p-value

Une p-value est :

p=P(TtobsH0)

Points clés :

  • Elle est conditionnelle au fait que H0 soit vraie

  • Ce n’est pas P(H0données)

  • Ce n’est pas P(erreur de type I)


3. D’où vient la surestimation

L’interprétation courante (mais incorrecte)

« Si p=0,03, il y a 3 % de risque que je commette une erreur de type I. »

C’est faux.

Pourquoi cela surestime le risque de premier ordre

Pour commettre une erreur de type I dans cette expérience, deux conditions doivent être réunies :

  1. H0 est vraie

  2. On rejette H0

Or la p-value suppose déjà que (1) est vraie avec une probabilité égale à 1.

La probabilité réelle de commettre une erreur de type I est :

P(H0données)×P(rejeterH0données)

Comme :

P(H0données)<1

la p-value exagère nécessairement la probabilité d’avoir tort.


4. Une illustration bayésienne simple

Supposons :

  • Probabilité a priori que H0 soit vraie : 0,5

  • p-value observée : 0,05

Sous des hypothèses raisonnables, la probabilité a posteriori que H0 soit vraie est souvent bien supérieure à 0,05, typiquement de l’ordre de 20 à 40 %.

Donc :

  • p-value = 0,05

  • Probabilité réelle d’erreur de type I ≫ 5 %

Cela est parfois appelé la « fausseté de la p-value » ou relié au risque de faux positifs (Colquhoun, 2014).

Colquhoun, D. (2014). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science, 1(140216), 1-16. https://doi.org/10.1098/rsos.140216 


5. Pourquoi cela est inévitable en tests fréquentistes

  • Le cadre fréquentiste n’attribue pas de probabilités aux hypothèses

  • Il contrôle uniquement des taux d’erreur avant d’observer les données

  • Une fois les données observées, la p-value n’a pas de signification décisionnelle directe

La p-value n’est donc pas fausse, mais son interprétation est très souvent erronée.


6. Interprétation correcte

✔ Correct :

« Si l’hypothèse nulle était vraie, des données au moins aussi extrêmes seraient observées avec une probabilité égale à p. »

❌ Incorrect :

« Il y a une probabilité p que je commette une erreur de type I. »


7. Message clé

Les p-values surestiment le risque de premier ordre parce qu’elles :

  • conditionnent sur le fait que H0 soit vraie,

  • ignorent la probabilité que H0 soit fausse,

  • sont confondues avec des probabilités a posteriori.

C’est pourquoi :

  • des p-values très petites (<0.000001) sont nécessaires pour une preuve solide,

  • la réplication est essentielle,

  • des approches bayésiennes ou fondées sur la vraisemblance sont souvent plus informatives.

Commentaires

Posts les plus consultés de ce blog

Standard error from Hessian Matrix... what can be done when problem occurs

stepAIC from package MASS with AICc

Multivariable analysis and correlation of iconography