Le test de Tukey est une méthode qui vise à comparer des moyennes individuelles à partir d'une analyse de variance de plusieurs échantillons soumis à différents traitements.
Le test, présenté en 1949 par John.W. Tukey, nous permet de discerner si les résultats obtenus sont significativement différents ou non. Il est également connu sous le nom de test de différence honnêtement significatif de Tukey (test HSD de Tukey).
Figure 1. Le test de Tukey nous permet de discerner si les différences de résultats entre trois traitements différents ou plus appliqués à trois groupes ou plus ayant les mêmes caractéristiques, ont des valeurs moyennes significativement et honnêtement différentes.
Dans les expériences où trois traitements différents ou plus appliqués au même nombre d'échantillons sont comparés, il est nécessaire de discerner si les résultats sont significativement différents ou non.
Une expérience est dite équilibrée lorsque la taille de tous les échantillons statistiques est la même pour chaque traitement. Lorsque la taille des échantillons est différente pour chaque traitement, une expérience déséquilibrée est réalisée.
Parfois, il ne suffit pas avec une analyse de variance (ANOVA) de savoir si dans la comparaison de différents traitements (ou expériences) appliqués à plusieurs échantillons ils remplissent l'hypothèse nulle (Ho: «tous les traitements sont égaux») ou, au contraire, remplit l'hypothèse alternative (Ha: "au moins un des traitements est différent").
Le test de Tukey n'est pas unique, il existe de nombreux autres tests pour comparer les moyennes d'échantillons, mais c'est l'un des plus connus et appliqués.
Tableau et comparateur Tukey
Dans l'application de ce test, une valeur w appelée comparateur Tukey est calculée dont la définition est la suivante:
w = q √ (MSE / r)
Où le facteur q est obtenu à partir d'un tableau (tableau de Tukey), qui se compose de lignes de valeurs q pour un nombre différent de traitements ou d'expériences. Les colonnes indiquent la valeur du facteur q pour différents degrés de liberté. Habituellement, les tableaux disponibles ont une signification relative de 0,05 et 0,01.
Dans cette formule, dans la racine carrée apparaît le facteur MSE (Mean Square of Error) divisé par r, qui indique le nombre de répétitions. Le MSE est un nombre qui est normalement obtenu à partir d'une analyse des variances (ANOVA).
Lorsque la différence entre deux valeurs moyennes dépasse la valeur w (comparateur Tukey), alors on conclut qu'il s'agit de moyennes différentes, mais si la différence est inférieure au nombre de Tukey, alors il s'agit de deux échantillons avec une valeur moyenne statistiquement identique.
Le nombre w est également connu sous le nom de numéro HSD (Honestly Significant Difference).
Ce nombre comparatif unique peut être appliqué si le nombre d'échantillons appliqués pour le test de chaque traitement est le même dans chacun d'entre eux.
Expériences déséquilibrées
Lorsque, pour une raison quelconque, la taille des échantillons est différente dans chaque traitement à comparer, alors la procédure décrite ci-dessus diffère légèrement et est connue sous le nom de test Tukey-Kramer.
Maintenant, un numéro de comparateur w est obtenu pour chaque paire de traitements i, j:
w (i, j) = q √ (½ MSE / (ri + rj))
Dans cette formule, le facteur q est obtenu à partir du tableau de Tukey. Ce facteur q dépend du nombre de traitements et des degrés de liberté de l'erreur. r i est le nombre de répétitions dans le traitement i, tandis que r j est le nombre de répétitions dans le traitement j.
Exemple de cas
Un éleveur de lapins souhaite réaliser une étude statistique fiable qui lui indique laquelle des quatre marques d'aliments d'engraissement pour lapins est la plus efficace. Pour l'étude, il a formé quatre groupes avec six lapins d'un mois et demi qui avaient jusque-là les mêmes conditions d'alimentation.
Les raisons étaient que dans les groupes A1 et A4, les décès sont survenus pour des causes non imputables à la nourriture, car l'un des lapins a été mordu par un insecte et dans l'autre cas, la mort était certainement la cause d'une anomalie congénitale. Les groupes sont donc déséquilibrés et il faut alors appliquer le test Tukey-Kramer.
Exercice résolu
Afin de ne pas allonger trop longtemps les calculs, un cas d'expérience équilibré sera considéré comme un exercice résolu. Les éléments suivants seront considérés comme des données:
Dans ce cas, il existe quatre groupes correspondant à quatre traitements différents. Cependant, nous observons que tous les groupes ont le même nombre de données, il s'agit donc d'un cas équilibré.
Pour effectuer l'analyse ANOVA, l'outil qui est incorporé dans la feuille de calcul Libreoffice a été utilisé. D'autres feuilles de calcul telles qu'Excel intègrent cet outil pour l'analyse des données. Vous trouverez ci-dessous un tableau récapitulatif résultant de l'analyse de variance (ANOVA):
De l'analyse de la variance, nous avons également la valeur P, qui pour l'exemple est de 2,24E-6, bien en dessous du niveau de signification de 0,05, ce qui conduit directement à rejeter l'hypothèse nulle: tous les traitements sont égaux.
C'est-à-dire que parmi les traitements, certains ont des valeurs moyennes différentes, mais il est nécessaire de savoir quelles sont les différences significatives et honnêtes (HSD) du point de vue statistique en utilisant le test de Tukey.
Pour trouver le nombre wo, comme le nombre HSD est également connu, nous devons trouver le carré moyen de l'erreur MSE. A partir de l'analyse ANOVA, on obtient que la somme des carrés dans les groupes est SS = 0,2; et le nombre de degrés de liberté dans les groupes est df = 16 avec ces données, nous pouvons trouver MSE:
MSE = SS / df = 0,2 / 16 = 0,0125
Il est également nécessaire de trouver le facteur q de Tukey à l'aide du tableau. La colonne 4, qui correspond aux 4 groupes ou traitements à comparer, et la ligne 16 sont recherchées, car l'analyse ANOVA a donné 16 degrés de liberté au sein des groupes. Ceci nous conduit à une valeur de q égale à: q = 4,33 correspondant à 0,05 de significativité ou 95% de fiabilité. Enfin, la valeur de la "différence honnêtement significative" est trouvée:
w = HSD = q √ (MSE / r) = 4,33 √ (0,0125 / 5) = 0,2165
Pour savoir quels sont les groupes ou traitements honnêtement différents, vous devez connaître les valeurs moyennes de chaque traitement:
Il est également nécessaire de connaître les différences entre les valeurs moyennes des paires de traitements, qui sont présentées dans le tableau suivant:
On en conclut que les meilleurs traitements, en termes de maximisation du résultat, sont T1 ou T3, qui sont indifférents d'un point de vue statistique. Pour choisir entre T1 et T3, il faudrait rechercher d'autres facteurs en dehors de l'analyse présentée ici. Par exemple, prix, disponibilité, etc.
Références
- Cochran William et Cox Gertrude. 1974. Dessins expérimentaux. Battage. Mexique. Troisième réimpression. 661p.
- Snedecor, GW et Cochran, WG 1980. Méthodes statistiques. Septième éd. Iowa, The Iowa State University Press. 507p.
- Steel, RGD et Torrie, JH 1980. Principes et procédures de la statistique: une approche biométrique (2e éd.). McGraw-Hill, New York. 629p.
- Tukey, JW 1949. Comparaison des moyennes individuelles dans l'analyse de la variance. Biometrics, 5: 99-114.
- Wikipédia. Le test de Tukey. Récupéré de: en.wikipedia.com