- Exemples
- Classification des variables catégorielles
- Catégories nominales
- Ordinal catégorique
- Catégories binaires
- Statistiques avec variables catégorielles
- Représentation graphique des variables catégorielles
- Exercices résolus
- Exercice 1
- Exemple 2
- Exemple 3
- Références
La variable catégorielle est celle utilisée dans les statistiques pour attribuer une caractéristique ou une propriété non numérique ou qualitative à un objet, un individu, une entité, une condition ou une procédure. Il est possible de définir toutes sortes de variables catégorielles en fonction de chaque besoin.
Des exemples de variables catégorielles sont: la couleur, le sexe, le groupe sanguin, l'état matrimonial, le type de matériel, le mode de paiement ou le type de compte bancaire, et ils sont beaucoup utilisés quotidiennement.
Figure 1: La couleur est une variable catégorielle. Source: pixabay
Ce sont les variables ci-dessus, mais leurs valeurs possibles sont qualitatives, c'est-à-dire de qualité ou de caractéristique et non d'une mesure numérique. Par exemple, les valeurs possibles pour la variable sexe sont: male, h embra.
Lorsque cette variable est stockée dans un programme informatique, elle peut être déclarée comme une variable de texte et les seules valeurs acceptées seront celles déjà nommées: Homme, Femme.
Cependant, la même variable sexe peut être déclarée et stockée sous forme d'entier si Homme est attribué à 1 et Femme reçoit la valeur 2. C'est pour cette raison que les variables catégorielles sont parfois appelées un type énuméré.
La principale caractéristique des variables catégorielles est que contrairement à d'autres variables, telles que les variables continues et discrètes, il n'est pas possible de faire de l'arithmétique avec elles. Cependant, des statistiques peuvent être faites avec eux, comme on le verra plus loin.
Exemples
Notez les exemples suivants de variables catégorielles et leurs valeurs possibles:
- Group_Sanguíneo, Plage de valeurs: A, B, AB, O
- État civil, valeurs catégorielles: célibataire (A), marié (B), veuf (C), divorcé (D).
- Tipo_de_Material, Catégories ou valeurs: 1 = Bois, 2 = Métal, 3 = Plastique
-Forme_de_paiement, titres ou catégories: (1) Espèces, (2) Débit, (3) Virement, (4) Crédit
Dans les exemples précédents, un nombre a été associé à chaque catégorie de manière totalement arbitraire.
On pourrait alors penser que cette association numérique arbitraire la rend équivalente à une variable quantitative discrète, mais ce n'est pas le cas, car les opérations arithmétiques ne peuvent pas être effectuées avec ces nombres.
Pour illustrer l'idée, dans la variable Form_of_Payment, l'opération de somme n'a pas de sens:
(1) Espèces + (2) Le débit ne sera jamais égal (3) Transfert
Classification des variables catégorielles
Le classement est basé sur le fait qu'ils ont ou non une hiérarchie implicite ou si le nombre de résultats possibles est supérieur à deux ou deux.
Une variable catégorielle avec un seul résultat possible n'est pas une variable, c'est une constante catégorielle.
Catégories nominales
Lorsqu'ils ne peuvent pas être représentés par un numéro ou avoir un ordre. Par exemple, la variable: Type_of_Material, a des valeurs nominales (Bois, Métal, Plastique), elles n'ont pas de hiérarchie ou d'ordre, même lorsqu'un nombre arbitraire est attribué à chaque réponse ou catégorie.
Ordinal catégorique
Variable: Academic_performance
Valeurs nominales: haut, moyen, bas
Bien que les valeurs de cette variable ne soient pas numériques, elles ont un ordre ou une hiérarchie implicite.
Catégories binaires
Ce sont des variables nominales avec deux réponses possibles, par exemple:
-Variable: Réponse
-Valeurs nominales: True, False
Notez que la variable Response n'a pas de hiérarchie implicite et n'a que deux résultats possibles, il s'agit donc d'une variable catégorielle binaire.
Certains auteurs appellent ce type une variable binaire et ne le considèrent pas comme appartenant à des variables catégorielles restreintes à celles avec plus de trois catégories possibles.
Statistiques avec variables catégorielles
Les statistiques peuvent être effectuées avec des variables catégorielles, bien qu'elles ne soient pas des variables numériques ou quantitatives. Par exemple, pour connaître la tendance ou la valeur la plus probable d'une variable catégorielle, le mode est pris.
Le mode est, dans ce cas, le résultat ou la valeur la plus répétée d'une variable catégorielle. Pour les variables catégorielles, il n'est possible de calculer ni la moyenne ni la médiane.
La moyenne ne peut pas être calculée car vous ne pouvez pas faire d'arithmétique avec des variables catégorielles. La médiane ne l'est pas non plus, car les variables quantitatives ou catégorielles n'ont pas d'ordre ou de hiérarchie, il n'est donc pas possible de déterminer une valeur centrale.
Représentation graphique des variables catégorielles
Étant donné une certaine variable catégorielle, on peut trouver la fréquence ou le nombre de fois avec lequel un résultat de cette variable est répété. Si cela est fait pour chaque résultat, alors un graphique de la fréquence par rapport à chaque catégorie ou résultat peut être fait.
Voici quelques exemples de la façon dont les variables catégorielles peuvent être représentées graphiquement.
Exercices résolus
Exercice 1
Une entreprise a des enregistrements des données de 170 employés. L'une des variables présentes dans ces enregistrements est: Estado_Civil. Cette variable a quatre catégories ou valeurs possibles:
Célibataire (A), marié (B), veuf (C), divorcé (D).
Bien qu'il s'agisse d'une variable non numérique, il est possible de savoir combien d'enregistrements totaux sont dans une certaine catégorie et d'être représentés sous la forme d'un graphique à barres, comme le montre la figure suivante:
Figure 2. Représentation des résultats d'une variable catégorielle. Source: self made
Exemple 2
Un magasin de chaussures fait le suivi de ses ventes. Parmi les variables qui gèrent leurs enregistrements, il y a la couleur des chaussures pour chaque modèle. La variable:
Color_Shoe_Model_AW3
Il est de type catégorique et comporte cinq catégories ou valeurs possibles. Pour chaque catégorie de cette variable, le nombre de ventes est totalisé et leur pourcentage est établi. Les résultats sont présentés dans le graphique de la figure suivante:
Figure 3. Variable catégorielle Couleur _Shoe. Dans cette variable, le mode est blanc. Source: self made.
On peut dire alors que du modèle de chaussure AW3 qui est à la mode, celui qui est le plus vendu est le blanc, suivi de près par le noir.
On peut également dire qu'avec une probabilité de 70%, la prochaine chaussure vendue de ce modèle sera blanche ou noire.
Cette information peut être utile pour le magasin lors de la passation de nouvelles commandes, ou elle peut même appliquer des remises sur les couleurs les moins vendues en raison d'un inventaire excédentaire.
Exemple 3
Pour une certaine population de donneurs de sang, vous voulez représenter le nombre de personnes appartenant à un certain groupe sanguin. Une manière graphique de visualiser les résultats est au moyen d'un pictogramme, qui est en bas un tableau.
La première colonne représente la variable group_sanguíneo et ses résultats ou catégories possibles. La deuxième colonne a la représentation sous forme iconique ou picturale du nombre de personnes dans chaque catégorie. Dans notre exemple, une goutte rouge est utilisée comme icône, chacune représentant 10 personnes.
Figure 4. Pictogramme. Source: self made
Références
- Khan Academy. Analyse des données catégorielles. Récupéré de: khanacademy.org
- Formules d'univers. Variable qualitative. Récupéré de: univesoformulas.com
- Minitab. Qui sont des variables catégoriques, discrètes et continues. Récupéré de: support.minitab.com
- Tutoriel Excel. Caractérisation des variables. Récupéré de: help.xlslat.com.
- Wikipédia. Variable statistique. Récupéré de wikipedia.com
- Wikipédia. Variable catégorielle. Récupéré de wikipedia.com
- Wikipédia. Variable catégorielle. Récupéré de wikipedia.com