- Formule
- Caractéristiques de la distribution normale
- Intervalles de confiance
- Applications de la distribution normale
- Exemple
- Exercice résolu
- Références
La distribution normale ou distribution gaussienne est la distribution de probabilité dans une variable continue, dans laquelle la fonction de densité de probabilité est décrite par une fonction exponentielle d'argument quadratique et négatif, qui donne lieu à une forme de cloche.
Le nom de distribution normale vient du fait que cette distribution est celle qui s'applique au plus grand nombre de situations où une variable aléatoire continue est impliquée dans un groupe ou une population donnée.
Figure 1. Distribution normale N (x; μ, σ) et sa densité de probabilité f (s; μ, σ). (Élaboration propre)
Les exemples où la distribution normale est appliquée sont: la taille des hommes ou des femmes, des variations dans la mesure d'une certaine grandeur physique ou dans des traits psychologiques ou sociologiques mesurables tels que le quotient intellectuel ou les habitudes de consommation d'un certain produit.
D'autre part, on l'appelle une distribution gaussienne ou cloche gaussienne, car c'est ce génie mathématique allemand qui est crédité de sa découverte pour l'utilisation qu'il lui a donnée pour décrire l'erreur statistique des mesures astronomiques en 1800.
Cependant, il est indiqué que cette distribution statistique a été précédemment publiée par un autre grand mathématicien d'origine française, comme Abraham de Moivre, en 1733.
Formule
La fonction de distribution normale dans la variable continue x, avec les paramètres μ et σ, est notée:
N (x; μ, σ)
et il est explicitement écrit comme ceci:
N (x; μ, σ) = ∫ -∞ x f (s; μ, σ) ds
où f (u; μ, σ) est la fonction de densité de probabilité:
f (s; μ, σ) = (1 / (σ√ (2π)) Exp (- s 2 / (2σ 2))
La constante qui multiplie la fonction exponentielle dans la fonction de densité de probabilité est appelée constante de normalisation, et elle a été choisie de telle manière que:
N (+ ∞, μ, σ) = 1
L'expression précédente garantit que la probabilité que la variable aléatoire x soit comprise entre -∞ et + ∞ est de 1, c'est-à-dire 100% de probabilité.
Le paramètre μ est la moyenne arithmétique de la variable aléatoire continue x et σ l'écart type ou la racine carrée de la variance de cette même variable. Dans le cas où μ = 0 et σ = 1, nous avons la distribution normale standard ou la distribution normale typique:
N (x; μ = 0, σ = 1)
Caractéristiques de la distribution normale
1- Si une variable statistique aléatoire suit une distribution normale de densité de probabilité f (s; μ, σ), la plupart des données sont regroupées autour de la valeur moyenne μ et sont dispersées autour d'elle de manière à ce qu'un peu plus de ⅔ des données sont comprises entre μ - σ et μ + σ.
2- L'écart type σ est toujours positif.
3- La forme de la fonction de densité f est similaire à celle d'une cloche, c'est pourquoi cette fonction est souvent appelée cloche gaussienne ou fonction gaussienne.
4- Dans une distribution gaussienne, la moyenne, la médiane et le mode coïncident.
5- Les points d'inflexion de la fonction de densité de probabilité sont précisément à μ - σ et μ + σ.
6- La fonction f est symétrique par rapport à un axe qui passe par sa valeur moyenne μ et a asymptotiquement zéro pour x ⟶ + ∞ et x ⟶ -∞.
7- Plus la valeur de σ est élevée, plus la dispersion, le bruit ou la distance des données autour de la valeur moyenne sont importants. En d'autres termes, plus σ est élevé, la forme de la cloche est plus ouverte. En revanche, σ petit indique que les dés sont proches de la moyenne et que la forme de la cloche est plus fermée ou pointue.
8- La fonction de distribution N (x; μ, σ) indique la probabilité que la variable aléatoire soit inférieure ou égale à x. Par exemple, sur la figure 1 (ci-dessus), la probabilité P que la variable x soit inférieure ou égale à 1,5 est de 84% et correspond à l'aire sous la fonction de densité de probabilité f (x; μ, σ) de -∞ à x.
Intervalles de confiance
9- Si les données suivent une distribution normale, alors 68,26% d'entre elles sont comprises entre μ - σ et μ + σ.
10 à 95,44% des données qui suivent une distribution normale sont comprises entre μ - 2σ et μ + 2σ.
11 à 99,74% des données qui suivent une distribution normale sont comprises entre μ - 3σ et μ + 3σ.
12- Si une variable aléatoire x suit une distribution N (x; μ, σ), alors la variable
z = (x - μ) / σ suit la distribution normale standard N (z; 0,1).
Changer la variable x en z est appelé standardisation ou typage et est très utile lors de l'application des tables de la distribution standard aux données qui suivent une distribution normale non standard.
Applications de la distribution normale
Pour appliquer la distribution normale, il est nécessaire de passer par le calcul de l'intégrale de la densité de probabilité, ce qui du point de vue analytique n'est pas facile et il n'y a pas toujours de programme informatique permettant son calcul numérique. Pour cela, on utilise des tableaux de valeurs normalisées ou standardisées, qui ne sont rien de plus que la distribution normale dans le cas μ = 0 et σ = 1.
Table de distribution normale normalisée (partie 1/2)
Table de distribution normale normalisée (partie 2/2)
Il est à noter que ces tableaux n'incluent pas de valeurs négatives. Cependant, en utilisant les propriétés de symétrie de la fonction de densité de probabilité gaussienne, les valeurs correspondantes peuvent être obtenues. L'exercice résolu ci-dessous indique l'utilisation du tableau dans ces cas.
Exemple
Supposons que vous ayez un ensemble de données aléatoires x qui suivent une distribution normale de moyenne 10 et d'écart type 2. On vous demande de trouver la probabilité que:
a) La variable aléatoire x est inférieure ou égale à 8.
b) Est inférieur ou égal à 10.
c) Que la variable x est inférieure à 12.
d) La probabilité qu'une valeur x soit comprise entre 8 et 12.
Solution:
a) Pour répondre à la première question, il vous suffit de calculer:
N (x; μ, σ)
Avec x = 8, μ = 10 et σ = 2. On se rend compte que c'est une intégrale qui n'a pas de solution analytique dans les fonctions élémentaires, mais la solution est exprimée en fonction de la fonction d'erreur erf (x).
D'autre part, il existe la possibilité de résoudre l'intégrale sous forme numérique, ce que font de nombreuses calculatrices, feuilles de calcul et programmes informatiques tels que GeoGebra. La figure suivante montre la solution numérique correspondant au premier cas:
Figure 2. Densité de probabilité f (x; μ, σ). La zone grisée représente P (x ≤ 8). (Élaboration propre)
et la réponse est que la probabilité que x soit inférieur à 8 est:
P (x ≤ 8) = N (x = 8; μ = 10, σ = 2) = 0,1587
b) Dans ce cas, nous essayons de trouver la probabilité que la variable aléatoire x soit inférieure à la moyenne, qui dans ce cas vaut 10. La réponse ne nécessite aucun calcul, car nous savons que la moitié des données sont inférieures moyenne et l’autre moitié au-dessus de la moyenne. Par conséquent, la réponse est:
P (x ≤ 10) = N (x = 10; μ = 10, σ = 2) = 0,5
c) Pour répondre à cette question, il faut calculer N (x = 12; μ = 10, σ = 2), ce qui peut être fait avec une calculatrice qui a des fonctions statistiques ou via un logiciel tel que GeoGebra:
Figure 3. Densité de probabilité f (x; μ, σ). La zone grisée représente P (x ≤ 12). (Élaboration propre)
La réponse à la partie c peut être vue dans la figure 3 et est:
P (x ≤ 12) = N (x = 12; μ = 10, σ = 2) = 0,8413.
d) Pour trouver la probabilité que la variable aléatoire x soit comprise entre 8 et 12, nous pouvons utiliser les résultats des parties a et c comme suit:
P (8 ≤ x ≤ 12) = P (x ≤ 12) - P (x ≤ 8) = 0,8413 - 0,1587 = 0,6826 = 68,26%.
Exercice résolu
Le prix moyen des actions d'une entreprise est de 25 $ avec un écart type de 4 $. Déterminez la probabilité que:
a) Une action a un coût inférieur à 20 $.
b) Cela a un coût supérieur à 30 $.
c) Le prix est compris entre 20 $ et 30 $.
Utilisez les tableaux de distribution normale standard pour trouver les réponses.
Solution:
Pour utiliser les tables, il faut passer à la variable z normalisée ou typée:
20 $ dans la variable normalisée est égal à z = (20 $ - 25 $) / 4 $ = -5/4 = -1,25 et
30 $ dans la variable normalisée est égal à z = (30 $ - 25 $) / 4 $ = +5/4 = +1,25.
a) 20 $ équivaut à -1,25 dans la variable normalisée, mais la table n'a pas de valeurs négatives, nous plaçons donc la valeur +1,25 qui donne la valeur de 0,8944.
Si 0,5 est soustrait de cette valeur, le résultat sera l'aire entre 0 et 1,25 qui, d'ailleurs, est identique (par symétrie) à l'aire entre -1,25 et 0. Le résultat de la soustraction est 0,8944 - 0,5 = 0,3944 qui est la zone entre -1,25 et 0.
Mais l'aire de -∞ à -1,25 est intéressante, qui sera 0,5 - 0,3944 = 0,1056. Il est donc conclu que la probabilité qu'une action soit inférieure à 20 $ est de 10,56%.
b) 30 $ dans la variable typée z est 1,25. Pour cette valeur, le nombre 0.8944 apparaît dans le tableau, ce qui correspond à la zone de -∞ à +1,25. L'aire entre +1,25 et + ∞ est (1 - 0,8944) = 0,1056. En d'autres termes, la probabilité qu'une action coûte plus de 30 $ est de 10,56%.
c) La probabilité qu'une action ait un coût entre 20 $ et 30 $ sera calculée comme suit:
100% -10,56% - 10,56% = 78,88%
Références
- Statistique et probabilité. Distribution normale. Récupéré de: projectdescartes.org
- Geogebra. Géogèbre classique, calcul des probabilités. Récupéré de geogebra.org
- MathWorks. Distribution gaussienne. Récupéré de: es.mathworks.com
- Mendenhall, W. 1981. Statistiques de gestion et d'économie. 3e. édition. Grupo Editorial Iberoamérica.
- Stat Trek. Enseignez-vous les statistiques. Distribution de Poisson. Récupéré de: stattrek.com,
- Triola, M. 2012. Statistiques élémentaires. 11ème. Éd. Pearson Education.
- Université de Vigo. Principales distributions continues. Récupéré de: anapg.webs.uvigo.es
- Wikipédia. Distribution normale. Récupéré de: es.wikipedia.org