- Formules et équations
- Variables statistiques importantes
- Modèle et propriétés
- Principales propriétés de la distribution hypergéométrique
- Approximation utilisant la distribution binomiale
- Exemple 2
- Exercices résolus
- Exercice 1
- Solution
- Exercice 2
- Solution
- Exercice 3
- Solution pour
- Solution c
- Références
La distribution hypergéométrique est une fonction statistique discrète, appropriée pour calculer la probabilité dans des expériences randomisées avec deux résultats possibles. La condition requise pour l'appliquer est qu'il s'agit de petites populations, dans lesquelles les retraits ne sont pas remplacés et les probabilités ne sont pas constantes.
Par conséquent, lorsqu'un élément de la population est choisi pour connaître le résultat (vrai ou faux) d'une certaine caractéristique, ce même élément ne peut pas être choisi à nouveau.
Figure 1. Dans une population de boulons comme celle-ci, il y a sûrement des échantillons défectueux. Source: Pixabay.
Certes, l'élément suivant choisi a donc plus de chances d'obtenir un résultat vrai, si l'élément précédent avait un résultat négatif. Cela signifie que la probabilité varie à mesure que les éléments sont extraits de l'échantillon.
Les principales applications de la distribution hypergéométrique sont: le contrôle de la qualité dans les processus peu peuplés et le calcul des probabilités dans les jeux de hasard.
Quant à la fonction mathématique qui définit la distribution hypergéométrique, elle se compose de trois paramètres, qui sont:
- Nombre d'éléments de population (N)
- Taille de l'échantillon (m)
- Nombre d'événements dans l'ensemble de la population avec un résultat favorable (ou défavorable) de la caractéristique étudiée (n).
Formules et équations
La formule de la distribution hypergéométrique donne la probabilité P que x cas favorables d'une certaine caractéristique se produisent. La façon de l'écrire mathématiquement, sur la base des nombres combinatoires est:
Dans l'expression précédente, N, n et m sont des paramètres et x est la variable elle-même.
- La population totale est N.
-Le nombre de résultats positifs d'une certaine caractéristique binaire par rapport à la population totale est n.
-La quantité d'éléments dans l'échantillon est de m.
Dans ce cas, X est une variable aléatoire qui prend la valeur x et P (x) indique la probabilité d'occurrence de x cas favorables de la caractéristique étudiée.
Variables statistiques importantes
Les autres variables statistiques de la distribution hypergéométrique sont:
- Moyenne μ = m * n / N
- Variance σ ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1)
- Écart type σ qui est la racine carrée de la variance.
Modèle et propriétés
Pour arriver au modèle de la distribution hypergéométrique, nous partons de la probabilité d'obtenir x cas favorables dans un échantillon de taille m. Cet exemple contient des éléments conformes à la propriété étudiée et des éléments non conformes.
Rappelons que n représente le nombre de cas favorables dans la population totale de N éléments. Ensuite, la probabilité serait calculée comme ceci:
En exprimant ce qui précède sous la forme de nombres combinatoires, le modèle de distribution de probabilité suivant est atteint:
Principales propriétés de la distribution hypergéométrique
Ils sont les suivants:
- L'échantillon doit toujours être petit, même si la population est importante.
- Les éléments de l'échantillon sont extraits un par un, sans les réintégrer dans la population.
- La propriété à étudier est binaire, c'est-à-dire qu'elle ne peut prendre que deux valeurs: 1 ou 0, ou true ou false.
Dans chaque étape d'extraction d'élément, la probabilité change en fonction des résultats précédents.
Approximation utilisant la distribution binomiale
Une autre propriété de la distribution hypergéométrique est qu'elle peut être approximée par la distribution binomiale, notée Bi, tant que la population N est grande et au moins 10 fois plus grande que l'échantillon m. Dans ce cas, cela ressemblerait à ceci:
La probabilité que x = 3 vis de l'échantillon soient défectueuses est: P (500, 5, 60, 3) = 0,0129.
De son côté, la probabilité que x = 4 vis sur la soixantaine de l'échantillon soient défectueuses est: P (500, 5, 60; 4) = 0,0008.
Enfin, la probabilité que x = 5 vis de cet échantillon soient défectueuses est: P (500, 5, 60; 5) = 0.
Mais si vous voulez connaître la probabilité que dans cet échantillon il y ait plus de 3 vis défectueuses, vous devez alors obtenir la probabilité cumulée, en ajoutant:
Cet exemple est illustré dans la figure 2, obtenue en utilisant GeoGebra, un logiciel libre largement utilisé dans les écoles, instituts et universités.
Figure 2. Exemple de distribution hypergéométrique. Préparé par F. Zapata avec GeoGebra.
Exemple 2
Un deck de deck espagnol a 40 cartes, dont 10 ont de l'or et les 30 autres pas. Supposons que 7 cartes soient tirées au hasard dans ce deck, qui ne sont pas réincorporées dans le deck.
Si X est le nombre d'or présents dans les 7 cartes tirées, alors la probabilité que vous ayez x ors dans un tirage à 7 cartes est donnée par la distribution hypergéométrique P (40,10,7; x).
Voyons ceci comme ceci: pour calculer la probabilité d'avoir 4 ors dans un tirage de 7 cartes, nous utilisons la formule de la distribution hypergéométrique avec les valeurs suivantes:
Et le résultat est: 4,57% de probabilité.
Mais si vous voulez connaître la probabilité d'obtenir plus de 4 cartes, vous devez ajouter:
Exercices résolus
L'ensemble d'exercices suivant est destiné à illustrer et à assimiler les concepts qui ont été présentés dans cet article. Il est important que le lecteur essaie de les résoudre par lui-même, avant de regarder la solution.
Exercice 1
Une usine de préservatifs a découvert que sur 1 000 préservatifs produits par une certaine machine, 5 sont défectueux. Pour le contrôle qualité, 100 préservatifs sont prélevés au hasard et le lot est rejeté s'il y en a au moins un ou plusieurs défectueux. Répondre:
a) Quelle est la possibilité qu'un lot de 100 soit rejeté?
b) Ce critère de contrôle qualité est-il efficace?
Solution
Dans ce cas, de très grands nombres combinatoires apparaîtront. Le calcul est difficile, sauf si vous disposez d'un progiciel adapté.
Mais comme il s'agit d'une grande population et que l'échantillon est dix fois plus petit que la population totale, il est possible d'utiliser l'approximation de la distribution hypergéométrique par la distribution binomiale:
Dans l'expression ci-dessus, C (100, x) est un nombre combinatoire. Ensuite, la probabilité d'avoir plus d'un défectueux sera calculée comme ceci:
C'est une excellente approximation si on la compare à la valeur obtenue en appliquant la distribution hypergéométrique: 0,4102
On peut dire qu'avec une probabilité de 40%, un lot de 100 agents prophylactiques doit être jeté, ce qui n'est pas très efficace.
Mais, étant un peu moins exigeant dans le processus de contrôle de la qualité et ne rejetant le lot de 100 que s'il y a deux ou plusieurs défectueux, alors la probabilité de rejeter le lot tomberait à seulement 8%.
Exercice 2
Une machine à blocs en plastique fonctionne de telle manière que sur 10 pièces, une en ressorte déformée. Dans un échantillon de 5 pièces, quelle est la probabilité qu'une seule pièce soit défectueuse?
Solution
Population: N = 10
Nombre n de défectueux pour tout N: n = 1
Taille de l'échantillon: m = 5
Par conséquent, il y a une probabilité de 50% que dans un échantillon de 5, un bloc soit déformé.
Exercice 3
Lors d'une réunion de jeunes diplômés du secondaire, il y a 7 femmes et 6 messieurs. Parmi les filles, 4 étudient les sciences humaines et 3 les sciences. Dans le groupe de garçons, 1 étudie les sciences humaines et 5 les sciences. Calculez ce qui suit:
a) Choisir trois filles au hasard: quelle est la probabilité qu'elles étudient toutes les sciences humaines?
b) Si trois participants à la réunion d'amis sont choisis au hasard: quelle est la possibilité que trois d'entre eux, quel que soit leur sexe, étudient les sciences tous les trois, ou les sciences humaines également les trois?
c) Maintenant, sélectionnez deux amis au hasard et appelez x la variable aléatoire «nombre de ceux qui étudient les sciences humaines». Entre les deux choisis, déterminez la valeur moyenne ou attendue de x et la variance σ ^ 2.
Solution pour
Les valeurs à utiliser maintenant sont:
-Population: N = 14
-La quantité qui étudie les lettres est: n = 6 et le
-Taille de l'échantillon: m = 3.
-Nombre d'amis étudiant les sciences humaines: x
Selon cela, x = 3 signifie que les trois étudient les sciences humaines, mais x = 0 signifie qu'aucune n'étudie les sciences humaines. La probabilité que les trois étudient la même chose est donnée par la somme:
P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099
Ensuite, nous avons une probabilité de 21% que trois participants à la réunion, choisis au hasard, étudient la même chose.
Solution c
Ici, nous avons les valeurs suivantes:
N = 14 population totale d'amis, n = 6 nombre total dans la population étudiant les sciences humaines, la taille de l'échantillon est m = 2.
L'espoir c'est:
E (x) = m * (n / N) = 2 * (6/14) = 0,8572
Et la variance:
σ (x) ^ 2 = m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) =
= 2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13) = 0,4521
Références
- Distributions de probabilité discrètes. Récupéré de: biplot.usal.es
- Statistique et probabilité. Distribution hypergéométrique. Récupéré de: projectdescartes.org
- CDPYE-UGR. Distribution hypergéométrique. Récupéré de: ugr.es
- Geogebra. Géogèbre classique, calcul des probabilités. Récupéré de geogebra.org
- Essayez facile. Résolution des problèmes de distribution hypergéométrique. Récupéré de: probafacil.com
- Minitab. Distribution hypergéométrique. Récupéré de: support.minitab.com
- Université de Vigo. Principales distributions discrètes. Récupéré de: anapg.webs.uvigo.es
- Vitutor. Statistiques et combinatoire. Récupéré de: vitutor.net
- Weisstein, Eric W. Distribution hypergéométrique. Récupéré de: mathworld.wolfram.com
- Wikipédia. Distribution hypergéométrique. Récupéré de: es.wikipedia.com