Intervalles de confiance pour la différence de deux proportions de population

Tabla de Contenidos

Les intervalles de confiance (IC) sont utilisés dans les statistiques inférentielles comme outil pour estimer la valeur d’un paramètre de population. Ceux-ci fournissent une plus grande quantité d’informations sur la vraie valeur d’un paramètre que les estimateurs ponctuels, car ils représentent un intervalle de valeurs de largeur finie dans lequel nous avons un certain degré de confiance que la vraie valeur du paramètre se situera. Ce dernier est quelque chose que les estimateurs ponctuels ne fournissent pas.

Intervalles de confiance pour deux populations

Lorsque l’on s’intéresse à comparer deux populations différentes, on s’intéresse souvent à savoir si un certain paramètre de l’une d’elles est supérieur, inférieur ou égal au paramètre correspondant de l’autre. Par exemple, lorsque l’on compare les performances de deux moteurs électriques, on peut être intéressé à déterminer si le couple du moteur A est supérieur ou non à celui du moteur B. Dans ce cas, on compare deux moyennes de population.

Cependant, nous sommes souvent intéressés à comparer, non pas les valeurs moyennes d’un paramètre, mais la proportion d’une population qui satisfait ou non à une certaine condition. Dans ce cas, on veut établir un intervalle de confiance pour estimer la valeur de la différence entre deux proportions de population.

Inférences sur la différence de deux proportions de population P ₁ -P ₂

Il existe de nombreuses situations différentes dans lesquelles nous pouvons nous intéresser à la différence entre deux proportions de population. Comme nous l’avons mentionné précédemment, cette différence nous permet de comparer des proportions équivalentes dans deux populations différentes. Quelques exemples de problèmes de recherche nécessitant l’établissement d’un intervalle de confiance pour la différence entre deux proportions de population sont présentés ci-dessous :

Dans les essais cliniques d’un nouveau traitement médical, il est particulièrement important de comparer la proportion d’individus qui montrent une amélioration de leur état de santé dans la population ayant reçu le traitement avec la même proportion dans le groupe d’individus n’ayant reçu que le placebo.
Quand on veut comparer la proportion de femmes et d’hommes qui sont d’accord ou pas d’accord avec une certaine mesure gouvernementale.
En entreprise, nous sommes souvent intéressés à comparer la qualité du processus de fabrication dans deux lignes de production différentes. Dans ce cas, les proportions d’articles défectueux ou non conformes produits par les deux lignes de production dans une période de temps donnée peuvent être comparées.
Dans le domaine de la microbiologie, on peut être intéressé à comparer la proportion de colonies bactériennes qui survivent après avoir été traitées avec différents désinfectants chimiques.
Les spécialistes du marketing effectuent souvent des tests A/B pour déterminer quel contenu d’une page Web est le plus efficace pour convertir les prospects en acheteurs. Pour ce faire, la moitié des personnes qui accèdent au site Web voient du contenu (A) et l’autre moitié se voient montrer du contenu alternatif (B) pour ensuite comparer les proportions de visiteurs qui ont effectivement acheté le produit ou le service proposé. .

De la comparaison de P ₁ et P ₂ à la différence P ₁ – P ₂

Il existe bien d’autres exemples de situations dans lesquelles on peut être intéressé à comparer les proportions de deux populations différentes. Cette comparaison peut se faire de différentes manières. Par exemple, nous pouvons vouloir savoir si :

Les deux proportions sont égales (P ₁ = P ₂ )
La proportion 1 est supérieure à la proportion 2 (P ₁ > P ₂ )
La proportion 1 est inférieure à la proportion 2 (P ₁ < P ₂ )

Dans chacun de ces cas, ces déclarations peuvent être réécrites en termes de différence entre les proportions :

Si nous voulons savoir si P ₁ = P ₂ , cela revient à déterminer si P ₁ – P ₂ = 0
Si nous voulons savoir si P ₁ > P ₂ , cela revient à déterminer si P ₁ – P ₂ > 0
Si nous voulons savoir si P ₁ < P ₂ , cela revient à déterminer si P ₁ – P ₂ < 0

Par conséquent, toute comparaison entre les proportions de la population peut être résolue en trouvant un intervalle de confiance pour la différence entre les proportions de la population, puis en effectuant une analyse appropriée du résultat.

Mais comment ces intervalles de confiance sont-ils établis ?

Ceci est réalisé en analysant des échantillons de chaque population et en utilisant les outils de statistiques inférentielles. Cette procédure dépend si nous travaillons avec de grands ou de petits échantillons.

Intervalle de confiance Estimation de la différence de deux proportions de population à partir de grands échantillons (n ≥ 30)

L’intervalle de confiance pour la différence dans les proportions de la population peut être résolu comme une extension de l’intervalle de confiance pour une proportion binomiale dans une population. Dans le cas de proportions binomiales (c’est-à-dire que le résultat de l’expérience ou de l’observation est un succès ou un échec et P représente la probabilité de succès), la distribution de la proportion dans un grand échantillon ( p ) suit une distribution approximativement normale avec une moyenne P (la proportion de la population) et la variance P(1 – P)/n , tant que la probabilité de succès n’est ni trop élevée ni trop faible (c’est-à-dire pas trop proche de 1 ou 0, respectivement) .

Dans le cas de la différence entre deux proportions de population, P ₁ – P ₂ , on peut établir les bornes de l’intervalle de confiance à partir de deux échantillons indépendants de proportions p ₁ et p ₂ . Si ces échantillons remplissent les mêmes conditions que ci-dessus (échantillons n ₁ et n ₂ grands, et proportions p ₁ et p ₂ éloignées de 1 et 0) et suivent donc des distributions normales, la différence suivra également une distribution normale de moyenne P ₁ – P ₂ et variance p ₁ (1 – p ₁ )/n ₁ + p ₂(1 – p ₂ )/n ₂ .

Compte tenu de ces résultats, un intervalle de confiance pour la différence de deux proportions de population obtenues à partir de grands échantillons, avec un niveau de confiance de 100(1 – α) %, où α représente le niveau de signification, est donné par :

Intervalles de confiance pour la différence de deux proportions de population

Dans la formule ci-dessus, Z _α/2 correspond à la valeur de Z dans la distribution normale standard qui laisse une zone de α/2 à sa droite.

Intervalle de confiance pour la différence de deux proportions de population à partir de petits échantillons (n < 30)

Si la taille de l’échantillon est inférieure à 30, ou si l’une ou l’autre des proportions est très proche de 0 ou 1, votre distribution ne peut pas s’approcher correctement d’une distribution normale. Dans ce cas, la différence des deux proportions ne suivra pas non plus une distribution normale, c’est pourquoi la formule ci-dessus pour l’intervalle de confiance ne s’applique pas.

L’inférence sur la différence dans les proportions de la population basée sur de petits échantillons est considérablement complexe et dépasse le cadre de cet article.

Interprétation de l’intervalle de confiance pour la différence de deux proportions de population

Après avoir calculé l’intervalle de confiance pour la différence de deux proportions de population, le résultat obtenu doit être interprété. Trois résultats peuvent être donnés qui sont interprétés différemment.

Considérons tout cas dans lequel un intervalle de confiance est obtenu avec un niveau de confiance de 100(1 – α)% ou, simplement, un seuil de signification de α, dont les bornes inférieure et supérieure sont respectivement LI et LS. C’est-à-dire:

Selon le signe des limites obtenues, on peut arriver à des conclusions différentes concernant la différence entre les deux proportions de population :

Si les bornes inférieure et supérieure sont négatives, alors nous pouvons dire, avec un niveau de confiance de 100(1 – α)%, que la proportion dans la population 2 est supérieure à la proportion respective dans la population 1. Autrement dit, nous pouvons dire que P ₁ < P ₂ ou que P ₂ > P ₁ .
Si la limite inférieure est négative et la limite supérieure est positive, et donc que l’intervalle de confiance contient zéro, alors on peut dire, avec un niveau de confiance de 100(1 – α)%, qu’il n’y a pas de différence entre les deux. . C’est-à-dire qu’il est conclu que P ₁ = P ₂ .
Enfin, si les limites inférieure et supérieure sont positives, nous pouvons dire, avec un niveau de confiance de 100(1 – α)%, que la proportion de la population 1 est supérieure à la proportion respective de la population 2. Autrement dit, nous concluons que P1 > _P2 . _{_}

Exemple de calcul de l’intervalle de confiance pour deux proportions de population

déclaration

Supposons qu’une enquête soit menée auprès d’un échantillon aléatoire de 250 étudiants en génie mexicains pour savoir quelle proportion d’entre eux maîtrise le concept d’intervalles de confiance. Les résultats de l’enquête ont montré que 64,8% d’entre eux ne le dominent pas, tandis que les autres le font. D’autre part, la même enquête a été réalisée auprès d’un échantillon de 180 étudiants ingénieurs espagnols, auxquels 54 étudiants ont répondu qu’ils maîtrisaient la notion d’intervalles de confiance.

Existe-t-il une différence entre les proportions d’étudiants espagnols et mexicains maîtrisant le concept d’intervalles de confiance, au seuil de signification de 0,05 ?

Solution

Comme nous pouvons le voir à partir de la question, ce que nous voulons, c’est déterminer s’il y a ou non une différence entre les proportions de deux populations différentes. La proportion d’intérêt correspond à la proportion d’élèves qui maîtrisent la notion d’intervalle de confiance, de sorte que, dans ce cas, répondre affirmativement à l’enquête représente une réussite du point de vue de l’expérience binomiale.

Pour la population d’ étudiants mexicains, l’échantillon était de 250 étudiants, et ils indiquent que la proportion d’étudiants qui ne maîtrisent pas la matière en question est de 64,8 %. Mais ce n’est pas la proportion que nous souhaitons, car ne pas maîtriser le sujet est un échec. Cette proportion correspond donc au complément q . Compte tenu de cela, la proportion de réussites, p, pour l’échantillon d’étudiants mexicains est :

Par contre, dans le cas de l’échantillon d’étudiants espagnols, nous avons le nombre de réussites et la taille totale de l’échantillon, donc la proportion de réussites sera :

Ces résultats sont résumés dans le tableau suivant.

Étudiants mexicains	Étudiants espagnols
nMEX ₌ 250	nESP ₌ 180
pMEX = _0,352	p _ESP = 0,300

Comme nous pouvons le voir, les deux tailles d’échantillon sont considérablement supérieures à 30, elles sont donc considérées comme de grands échantillons. De plus, ni la proportion des étudiants mexicains ni celle des étudiants espagnols ne sont sensiblement proches de 0 ou 1. Enfin, malgré le fait que l’énoncé ne le précise pas, on peut supposer que les deux échantillons sont indépendants l’un de l’autre.

Dans ces conditions, nous pouvons dire que les proportions d’échantillon des deux populations et la différence des proportions d’échantillon suivront une distribution normale. Par conséquent, nous pouvons utiliser l’équation précédente pour déterminer l’intervalle de confiance, qui sera :

Notez que, pour établir l’intervalle de confiance, nous avons besoin de la valeur de Z pour la moitié du niveau de signification donné, qui dans ce cas est α = 0,05. Autrement dit, nous devons trouver Z _α/2 = Z _0,05/2 = Z _0,025 . Cette valeur peut être trouvée dans un tableau de distribution normale standard, à l’aide d’une application mobile de statistiques ou à l’aide d’un tableur tel qu’Excel pour Windows ou Numbers pour MacOS.

Dans ce cas, Z _0,025 = 1,959964. Ainsi, l’intervalle de confiance sera :

Como podemos observar, el intervalo de confianza así calculado contiene al cero, razón por la cual se concluye, con un nivel de confianza del 95%, que no hay una diferencia significativa entre las proporciones de estudiantes mexicanos y españoles que dominan el concepto de intervalos fiable.

Les références

Cetinkaya-Rundel, M. (2012, 13 mars). Cours 14 : Inférence d’échantillons grands et petits pour les proportions . Département des sciences statistiques de l’Université Duke. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf

del Rio, AQ (2019, 1er septembre). 7.8 Intervalle de confiance pour la différence de proportions. | Statistiques de base édulcorées . Réservez vers le bas. https://bookdown.org/aquintela/EBE/confidence-interval-for-the-difference-of-proportions-.html

Holmes, A., Illowsky, B. et Dean, S. (2017, 29 novembre). 10.4 Comparaison de deux proportions de population indépendantes – Statistiques d’introduction sur les entreprises . OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions

Icedo Félix, M. (2020, 7 mai). RPubs – Intervalles de confiance pour la différence de deux proportions de population . RPubs. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proportion-poblacional

Statologues. (sd). Intervalle de confiance pour la différence des proportions . https://statologos.com/diferencia-de-intervalo-de-fianza-en-proportiones/

-Publicité-

Intervalles de confiance pour la différence de deux proportions de population

Intervalles de confiance pour deux populations

Inférences sur la différence de deux proportions de population P 1 -P 2

De la comparaison de P 1 et P 2 à la différence P 1 – P 2

Intervalle de confiance Estimation de la différence de deux proportions de population à partir de grands échantillons (n ​​≥ 30)

Intervalle de confiance pour la différence de deux proportions de population à partir de petits échantillons (n ​​< 30)