risque de première espèce Archives

Les tests statistiques font partie de ce que l’on appelle la statistique inférentielle.

Au contraire de la statistiques descriptives, on va utiliser des lois de probabilités afin de prendre une décision dans une situation faisant intervenir une part de hasard. Effectivement, dans les tests statistiques, on ne va pas travailler sur une population mais sur un échantillon.

Les tests statistiques sont ainsi souvent utilisées pour isoler une partie de la population d’une influence. On forme ainsi une population témoin.

Par exemple :

Dans le domaine médical, on isole 2 échantillons : le premier soumis a un médicament et le second non soumis. On observe ainsi l’effet du médicament.
Dans le domaine du web, on parle d’ABTest, on isole une partie de la population afin de tester l’effet d’une nouvelle page, d’une modification d’un bloc sur la page, …

Les définitions d’un test statistique

Les tests statistiques sont des tests dits d’hypothèses.

On pose donc 2 hypothèses :

L’hypothèse $H_0$ , l’hypothèse nulle qui est la proposition que l’on considère vraie a priori
L’hypothèse $H_1$ , l’hypothèse alternative

Par exemple : Pour un test médical (test de grossesse), on pose les hypothèses suivantes :

$H_0$ : la patiente n’est pas enceinte (bHCG=0)
$H_1$ : la patiente est enceinte (bHCG>0)

Remarque : $H_0$ et $H_1$ ne jouent pas le même rôle. En effet, L’ensemble du raisonnement est fait sous $H_0$ . $H_1$ n’est choisi que par défaut si $H_0$ ne convient pas.

A ce stade, on cherche à valider une ou l’autre des hypothèses. Nous sommes en statistiques inférentielles, on se donne donc une « marge d’erreur » que l’on appelle risque. Il en existe deux sortes :

Le risque de première espèce α représente la probabilité de rejeter $H_0$ alors qu’elle est vraie. Donc 1-α représente la confiance du test
Le risque de seconde espèce β représente la probabilité d’accepter $H_0$ alors qu’elle est fausse. Dans 1-β représente la puissance du test

Dans notre exemple : on a :

α est la probabilité de conclure enceinte des patientes pas enceintes. Donc, la confiance est la proportion de patients pas enceintes déclarées pas enceinte.
β est la probabilité de conclure pas enceinte des patientes enceinte. Donc, la puissance est la proportion de patientes enceintes bien détectées.

Remarque : α et β dépendent l’un de l’autre : la diminution de l’un provoque l’augmentation de l’autre à périmètre égal. Afin d’améliorer ces deux critères il faut augmenter la taille de l’échantillon.

Une fois les hypothèses posées et le risque choisi, il nous faut prendre le type de test adapté à notre situation et ainsi définir notre statistique de test. C’est en comparant cette statistique de test calculé sur notre échantillon à sa valeur « théorique » sous l’hypothèse $H_0$ que nous pourrons conclure au test. En résumé, la statistique de test est une fonction mathématique qui résume l’information sur notre échantillon que l’on souhaite tester. On choisit cette statistique de test pour pouvoir calculer sa loi sous $H_0$ . Plusieurs types de tests sont à notre disposition, nous en verrons un certain nombre dans la suite de cet article et dans ce dossier.

Nous avons désormais la loi de distribution de notre statistique sous $H_0$ . Nous allons pouvoir donc définir la région de rejet. La région de rejet correspond aux valeurs extrêmes de la distribution de notre statistique sous $H_0$ de sorte que la probabilité α que l’échantillon observé ait une valeur parmi celles-ci est très faible.

Il existe deux types de région de rejet :

Unilatérale : on souhaite savoir si le paramètre est trop grand ou si il est trop petit sans se soucier de l’autre côté
Bilatérale : on souhaite savoir si le paramètre est différent

Ainsi, les zones de rejet peuvent se représentées comme cela :

Concrètement, on obtient un intervalle de confiance où la statistique de test à 95% de chance de se trouver.

En résumé, pour faire un test statistique, voici les étapes à suivre :

Poser l’hypothèse $H_0$ (et $H_1$ )
Choix du risque α
Choix du type de test et de sa lateralité si besoin
Calcul de la statistique de test
Calcul de la région de rejet
Conclusion

Découvrez tout de suite les différents types de tests statistiques ici

Bienvenu dans la data

Tag Archives: risque de première espèce

Tests statistiques – Définition et principe

Les définitions d’un test statistique

Remarque : $H_0$ et $H_1$ ne jouent pas le même rôle. En effet, L’ensemble du raisonnement est fait sous $H_0$ . $H_1$ n’est choisi que par défaut si $H_0$ ne convient pas.

Remarque : α et β dépendent l’un de l’autre : la diminution de l’un provoque l’augmentation de l’autre à périmètre égal. Afin d’améliorer ces deux critères il faut augmenter la taille de l’échantillon.

Les définitions d’un test statistique

Remarque : et ne jouent pas le même rôle. En effet, L’ensemble du raisonnement est fait sous . n’est choisi que par défaut si ne convient pas.

Remarque : α et β dépendent l’un de l’autre : la diminution de l’un provoque l’augmentation de l’autre à périmètre égal. Afin d’améliorer ces deux critères il faut augmenter la taille de l’échantillon.

Remarque : $H_0$ et $H_1$ ne jouent pas le même rôle. En effet, L’ensemble du raisonnement est fait sous $H_0$ . $H_1$ n’est choisi que par défaut si $H_0$ ne convient pas.