- Définition
- Formules et équations
- - Kurtosis selon la présentation des données
- Données non groupées ou groupées en fréquences
- Données regroupées par intervalles
- Excès de kurtosis
- À quoi sert le kurtosis?
- Les salaires de 3 départements
- Les résultats d'un examen
- Exemple travaillé de kurtosis
- Solution
- Étape 1
- Étape 2
- Étape 3
- Références
Le kurtosis ou kurtosis est un paramètre statistique utilisé pour caractériser la distribution de probabilité d'une variable aléatoire, indiquant le degré de concentration des valeurs autour de la mesure centrale. Ceci est également connu sous le nom de «teneur maximale».
Le terme vient du grec «kurtos» qui signifie arqué, donc le kurtosis indique le degré de pointage ou d'aplatissement de la distribution, comme le montre la figure suivante:
Figure 1. Différents types de kurtosis. Source: F. Zapata.
Presque toutes les valeurs d'une variable aléatoire ont tendance à se regrouper autour d'une valeur centrale telle que la moyenne. Mais dans certaines distributions, les valeurs sont plus dispersées que dans d'autres, ce qui donne des courbes plus plates ou plus fines.
Définition
Le kurtosis est une valeur numérique typique de chaque distribution de fréquence, qui, selon la concentration des valeurs autour de la moyenne, sont classées en trois groupes:
- Leptokurtic: dans lequel les valeurs sont très regroupées autour de la moyenne, donc la distribution est assez pointue et élancée (figure 1, à gauche).
- Mesocúrtic: il a une concentration modérée de valeurs autour de la moyenne (figure 1 au centre).
- Platicúrtica: cette distribution a une forme plus large, puisque les valeurs ont tendance à être plus dispersées (figure 1 à droite).
Formules et équations
Le kurtosis peut avoir n'importe quelle valeur, sans limites. Son calcul est effectué en fonction de la manière dont les données sont livrées. La notation utilisée dans chaque cas est la suivante:
-Coefficient de kurtosis: g 2
-Arithmétique moyenne: X ou x avec barre
-Une i-ième valeur: x i
-Déviation standard: σ
-Le nombre de données: N
-La fréquence de la i-ème valeur: f i
-Marque de classe: mx i
Avec cette notation, nous présentons certaines des formules les plus utilisées pour trouver le kurtosis:
- Kurtosis selon la présentation des données
Données non groupées ou groupées en fréquences
Données regroupées par intervalles
Excès de kurtosis
Aussi appelé coefficient de ciblage de Fisher ou mesure de Fisher, il est utilisé pour comparer la distribution étudiée avec la distribution normale.
Lorsque le kurtosis en excès est de 0, nous sommes en présence d'une distribution normale ou cloche gaussienne. De cette façon, chaque fois que le kurtosis excédentaire d'une distribution est calculé, nous le comparons en fait à la distribution normale.
Pour les données non groupées et groupées, le coefficient de pointage de Fisher, noté K, est:
K = g 2 à 3
Maintenant, on peut montrer que l'aplatissement de la distribution normale est de 3, donc si le coefficient de pointage de Fisher est 0 ou proche de 0 et qu'il existe une distribution mésocructique. Si K> 0, la distribution est leptocurtique et si K <0 elle est platicúrtique.
À quoi sert le kurtosis?
Le kurtosis est une mesure de la variabilité utilisée pour caractériser la morphologie d'une distribution. De cette manière, des distributions symétriques avec la même moyenne et la même dispersion (données par l'écart type) peuvent être comparées.
Disposer de mesures de variabilité garantit la fiabilité des moyennes et aide à contrôler les variations de la distribution. À titre d'exemple, regardons ces deux situations.
Les salaires de 3 départements
Supposons que le graphique suivant montre les distributions salariales de 3 départements d'une même entreprise:
Figure 2. Trois distributions avec différents kurtosis illustrent des situations pratiques. (Préparé par Fanny Zapata)
La courbe A est la plus mince de toutes, et de sa forme, on peut déduire que la plupart des salaires de ce département sont très proches de la moyenne, donc la plupart des employés reçoivent une rémunération similaire.
De son côté, dans le département B, la courbe des salaires suit une distribution normale, puisque la courbe est mésocurtique, dans laquelle on suppose que les salaires ont été distribués aléatoirement.
Et enfin on a la courbe C qui est très plate, signe que dans ce département la fourchette salariale est beaucoup plus large que dans les autres.
Les résultats d'un examen
Supposons maintenant que les trois courbes de la figure 2 représentent les résultats d'un examen appliqué à trois groupes d'étudiants d'une même matière.
Le groupe dont les notations sont représentées par la courbe A leptokurtique est assez homogène, la majorité a obtenu une note moyenne ou proche.
Il est également possible que le résultat soit dû au fait que les questions du test présentent plus ou moins le même degré de difficulté.
En revanche, les résultats du groupe C indiquent une plus grande hétérogénéité dans le groupe, qui contient probablement des élèves moyens, des élèves plus favorisés et sûrement les mêmes moins attentifs.
Ou cela pourrait signifier que les questions du test présentaient des degrés de difficulté très différents.
La courbe B est mésocutique, ce qui indique que les résultats du test ont suivi une distribution normale. C'est généralement le cas le plus fréquent.
Exemple travaillé de kurtosis
Trouvez le coefficient de notation de Fisher pour les notes suivantes, obtenu lors d'un examen de physique à un groupe d'étudiants, avec une échelle de 1 à 10:
Solution
L'expression suivante sera utilisée pour les données non groupées, donnée dans les sections précédentes:
K = g 2 à 3
Cette valeur vous permet de connaître le type de distribution.
Pour calculer g 2, il convient de le faire de manière ordonnée, étape par étape, car plusieurs opérations arithmétiques doivent être résolues.
Étape 1
Tout d'abord, la moyenne des notes est calculée. Il existe N = 11 données.
Étape 2
L'écart type est trouvé, pour lequel cette équation est utilisée:
σ = 1,992
Ou vous pouvez également construire un tableau, qui est également requis pour l'étape suivante et dans lequel chaque terme des sommations qui seront nécessaires est écrit, en commençant par (x i - X), puis (x i - X) 2 puis (x i - X) 4:
Étape 3
Effectuez la somme indiquée au numérateur de la formule pour g 2. Pour cela, le résultat de la colonne de droite du tableau précédent est utilisé:
∑ (x i - X) 4 = 290,15
Donc:
g 2 = (1/11) x 290,15 / 1,992 4 = 1,675
Le coefficient de pointage de Fisher est:
K = g 2 - 3 = 1,675 - 3 = -1,325
Ce qui est intéressant, c'est le signe du résultat, qui, étant négatif, correspond à une distribution platicurique, qui peut être interprétée comme cela a été fait dans l'exemple précédent: il s'agit peut-être d'un cours hétérogène avec des étudiants de différents degrés d'intérêt ou les questions d'examen étaient de différents niveaux de difficulté.
L'utilisation d'un tableur tel qu'Excel facilite grandement la résolution de ces types de problèmes et offre également la possibilité de représenter graphiquement la distribution.
Références
- Levin, R. 1988. Statistiques pour les administrateurs. 2ème. Édition. Prentice Hall.
- Marco, F. Curtosis. Récupéré de: economipedia.com.
- Oliva, J. Asymétrie et kurtosis. Récupéré de: statisticaucv.files.wordpress.com.
- Spurr, W. 1982. Prise de décision en gestion. Limusa.
- Wikipédia. Kurtosis. Récupéré de: en.wikipedia.org.