- Comment calculer le coefficient de détermination?
- Cas illustratif
- Interprétation
- Exemples
- - Exemple 1
- Solution
- - Exemple 2
- Solution
- - Exemple 3
- Solution
- Comparaison d'ajustement
- Conclusions
- Références
Le coefficient de détermination est un nombre compris entre 0 et 1 qui représente la fraction de points (X, Y) qui suivent la droite d'ajustement de régression d'un ensemble de données à deux variables.
Il est également connu sous le nom de qualité de l'ajustement et est désigné par R 2. Pour le calculer, on prend le quotient entre la variance des données Ŷi estimées par le modèle de régression et la variance des données Yi correspondant à chaque Xi des données.
R 2 = Sŷ / Sy
Figure 1. Coefficient de corrélation pour quatre paires de données. Source: F. Zapata.
Si 100% des données sont sur la ligne de la fonction de régression, alors le coefficient de détermination sera 1.
Au contraire, si pour un ensemble de données et une certaine fonction d'ajustement le coefficient R 2 s'avère égal à 0,5, alors on peut dire que l'ajustement est à 50% satisfaisant ou bon.
De même, lorsque le modèle de régression donne des valeurs de R 2 inférieures à 0,5, cela indique que la fonction d'ajustement choisie ne s'adapte pas de manière satisfaisante aux données, il est donc nécessaire de rechercher une autre fonction d'ajustement.
Et lorsque la covariance ou le coefficient de corrélation tend vers zéro, alors les variables X et Y dans les données ne sont pas liées, et donc R 2 tendra également vers zéro.
Comment calculer le coefficient de détermination?
Dans la section précédente, il a été dit que le coefficient de détermination est calculé en trouvant le quotient entre les variances:
-Estimé par la fonction de régression de la variable Y
-Celle de la variable Yi correspondant à chacune des variables Xi des N paires de données.
Dit mathématiquement, cela ressemble à ceci:
R 2 = Sŷ / Sy
De cette formule, il s'ensuit que R 2 représente la proportion de variance expliquée par le modèle de régression. Alternativement, R 2 peut être calculé en utilisant la formule suivante, totalement équivalente à la précédente:
R 2 = 1 - (Sε / Sy)
Où Sε représente la variance des résidus εi = Ŷi - Yi, tandis que Sy est la variance de l'ensemble des valeurs Yi des données. Pour déterminer Ŷi, la fonction de régression est appliquée, ce qui signifie affirmer que Ŷi = f (Xi).
La variance de l'ensemble de données Yi, avec i de 1 à N est calculée de cette manière:
Sy =
Et puis procéder de la même manière pour Sŷ ou Sε.
Cas illustratif
Afin de montrer les détails de la façon dont le calcul du coefficient de détermination est effectué, nous prendrons l'ensemble suivant de quatre paires de données:
(X, Y): {(1, 1); (2,3); (3, 6) et (4, 7)}.
Un ajustement de régression linéaire est proposé pour cet ensemble de données, qui est obtenu en utilisant la méthode des moindres carrés:
f (x) = 2,1 x - 1
En appliquant cette fonction de réglage, les couples sont obtenus:
(X, Ŷ): {(1, 1,1); (2, 3,2); (3, 5.3) et (4, 7.4)}.
Ensuite, nous calculons la moyenne arithmétique pour X et Y:
Variance Sy
Sy = / (4-1) =
= = 7 583
Variance Sŷ
Sŷ = / (4-1) =
= = 7,35
Coefficient de détermination R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Interprétation
Le coefficient de détermination pour le cas illustratif considéré dans le segment précédent s'est avéré être de 0,98. En d'autres termes, l'ajustement linéaire via la fonction:
f (x) = 2,1x - 1
Il est fiable à 98% pour expliquer les données avec lesquelles il a été obtenu en utilisant la méthode des moindres carrés.
En plus du coefficient de détermination, il y a le coefficient de corrélation linéaire ou également connu sous le nom de coefficient de Pearson. Ce coefficient, noté r, est calculé par la relation suivante:
r = Sxy / (Sx Sy)
Ici, le numérateur représente la covariance entre les variables X et Y, tandis que le dénominateur est le produit de l'écart type de la variable X et de l'écart type de la variable Y.
Le coefficient de Pearson peut prendre des valeurs comprises entre -1 et +1. Lorsque ce coefficient tend vers +1, il existe une corrélation linéaire directe entre X et Y. S'il tend vers -1 à la place, il y a une corrélation linéaire, mais lorsque X augmente, Y diminue. Enfin, il est proche de 0 il n'y a pas de corrélation entre les deux variables.
Il convient de noter que le coefficient de détermination coïncide avec le carré du coefficient de Pearson, uniquement lorsque le premier a été calculé sur la base d'un ajustement linéaire, mais cette égalité n'est pas valable pour les autres ajustements non linéaires.
Exemples
- Exemple 1
Un groupe de lycéens a entrepris de déterminer une loi empirique pour la période d'un pendule en fonction de sa longueur. Pour atteindre cet objectif, ils effectuent une série de mesures dans lesquelles ils mesurent le temps d'une oscillation du pendule pour différentes longueurs en obtenant les valeurs suivantes:
Longueur (m) | Période (s) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
une | 1,93 |
1.3 | 2.19 |
1,6 | 2,66 |
1,9 | 2,77 |
3 | 3,62 |
Il est demandé de faire un nuage de points des données et d'effectuer un ajustement linéaire par régression. Montrez également l'équation de régression et son coefficient de détermination.
Solution
Figure 2. Graphique de solution pour l'exercice 1. Source: F. Zapata.
Un coefficient de détermination assez élevé (95%) peut être observé, on pourrait donc penser que l'ajustement linéaire est optimal. Cependant, si les points sont visualisés ensemble, ils semblent avoir tendance à se courber vers le bas. Ce détail n'est pas envisagé dans le modèle linéaire.
- Exemple 2
Pour les mêmes données dans l'exemple 1, créez un nuage de points des données. A cette occasion, contrairement à l'exemple 1, un ajustement de régression est demandé à l'aide d'une fonction potentielle.
Figure 3. Graphique de solution pour l'exercice 2. Source: F. Zapata.
Montrez également la fonction d'ajustement et son coefficient de détermination R 2.
Solution
La fonction potentielle est de la forme f (x) = Ax B, où A et B sont des constantes déterminées par la méthode des moindres carrés.
La figure précédente montre la fonction potentielle et ses paramètres, ainsi que le coefficient de détermination avec une valeur très élevée de 99%. Notez que les données suivent la courbure de la ligne de tendance.
- Exemple 3
En utilisant les mêmes données de l'exemple 1 et de l'exemple 2, effectuez un ajustement polynomial du deuxième degré. Afficher le graphique, le polynôme d'ajustement et le coefficient de détermination correspondant R 2.
Solution
Figure 4. Graphique de solution pour l'exercice 3. Source: F. Zapata.
Avec l'ajustement polynomial du deuxième degré, vous pouvez voir une ligne de tendance qui correspond bien à la courbure des données. De plus, le coefficient de détermination est supérieur à l'ajustement linéaire et inférieur à l'ajustement potentiel.
Comparaison d'ajustement
Parmi les trois ajustements illustrés, celui avec le coefficient de détermination le plus élevé est l'ajustement potentiel (exemple 2).
L'ajustement potentiel coïncide avec la théorie physique du pendule, qui, comme on le sait, établit que la période d'un pendule est proportionnelle à la racine carrée de sa longueur, la constante de proportionnalité étant 2π / √g où g est l'accélération de la gravité.
Ce type d'ajustement de potentiel a non seulement le coefficient de détermination le plus élevé, mais l'exposant et la constante de proportionnalité correspondent au modèle physique.
Conclusions
-L'ajustement de régression détermine les paramètres de la fonction qui vise à expliquer les données en utilisant la méthode des moindres carrés. Cette méthode consiste à minimiser la somme de la différence quadratique entre la valeur de réglage Y et la valeur Yi des données pour les valeurs Xi des données. Ceci détermine les paramètres de la fonction de réglage.
-Comme nous l'avons vu, la fonction d'ajustement la plus courante est la ligne, mais ce n'est pas la seule, car les ajustements peuvent aussi être polynomiaux, potentiels, exponentiels, logarithmiques et autres.
-Dans tous les cas, le coefficient de détermination dépend des données et du type d'ajustement et est une indication de la qualité de l'ajustement appliqué.
-Enfin, le coefficient de détermination indique le pourcentage de variabilité totale entre la valeur Y des données par rapport à la valeur Ŷ de l'ajustement pour le X donné.
Références
- González C. Statistiques générales. Récupéré de: tarwi.lamolina.edu.pe
- IACS. Institut aragonais des sciences de la santé. Récupéré de: ics-aragon.com
- Salazar C. et Castillo S. Principes de base de la statistique. (2018). Récupéré de: dspace.uce.edu.ec
- Superprof. Coefficient de détermination. Récupéré de: superprof.es
- USAC. Manuel de statistiques descriptives. (2011). Récupéré de: statistics.ingenieria.usac.edu.gt.
- Wikipédia. Coefficient de détermination. Récupéré de: es.wikipedia.com.