Intervalos de confianza para la diferencia de dos proporciones poblacionales

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

Los intervalos de confianza (I.C.) se utilizan en la estadística inferencial como herramienta para estimar el valor de un parámetro poblacional. Estos proporcionan una mayor cantidad de información acerca del verdadero valor de un parámetro que los estimadores puntuales, ya que representan un intervalo de valores de amplitud finita dentro del cual tenemos un cierto grado de confianza de que se encontrará el valor real del parámetro. Esto último es algo que los estimadores puntuales no proporcionan.

Intervalos de confianza para dos poblaciones

Cuando estamos interesados en comparar dos poblaciones diferentes, muchas veces nos interesa saber si determinado parámetro de una de ellas es mayor, menor o igual al parámetro correspondiente de la otra. Por ejemplo, al comparar el desempeño de dos motores eléctricos, nos puede interesar determinar si el torque del motor A es mayor o no que el del motor B. En este caso, estamos comparando dos medias poblacionales.

Sin embargo, muchas veces nos interesa comparar, no los valores medios de un parámetro, sino la proporción de una población que cumple o no cumple con determinada condición. En este caso, lo que se quiere es establecer un intervalo de confianza para estimar el valor de la diferencia entre dos proporciones poblacionales.

Inferencias sobre la diferencia de dos proporciones poblacionales P1-P2

Existen muchas situaciones distintas en las que nos puede interesar la diferencia entre dos proporciones poblacionales. Como mencionamos antes, esta diferencia nos permite comparar proporciones equivalentes en dos poblaciones distintas. Algunos ejemplos de problemas de investigación que requieren establecer un intervalo de confianza para la diferencia entre dos proporciones poblacionales se presentan a continuación:

  • En las pruebas clínicas de un tratamiento médico nuevo, es de particular importancia comparar la proporción de individuos que muestran una mejoría en su condición médica en la población que recibió el tratamiento con la misma proporción en el grupo de individuos que solo recibió el placebo.
  • Cuando queremos comparar la proporción de mujeres y hombres que están de acuerdo o no con determinada medida gubernamental.
  • En el ámbito empresarial, muchas veces nos interesa comparar la calidad del proceso de manufactura en dos líneas de producción diferentes. En este caso, se pueden comparar las proporciones de artículos defectuosos o no conformes que producen ambas líneas de producción en un lapso determinado de tiempo.
  • En campo de la microbiología, nos puede interesar comparar la proporción de colonias bacterianas que sobreviven luego de ser tratadas con desinfectantes químicos distintos.
  • Los especialistas en mercadotecnia frecuentemente hacen pruebas A/B para determinar qué contenido en una página web es más efectivo para convertir prospectos en compradores. Para ello, a la mitad de las personas que acceden al sitio web se les muestra un contenido (A) y a la otra mitad se les muestra un contenido alternativo (B) para luego comparar las proporciones de visitantes que efectivamente compró el producto o servicio sugerido.

De la comparación de P1 y P2 a la diferencia P1 – P2

Existen muchos ejemplos más de situaciones en las que nos puede interesar comparar las proporciones de dos poblaciones diferentes. Esta comparación la podemos plantear de distintas maneras. Por ejemplo, podemos querer saber si:

  • Ambas proporciones son iguales (P1 = P2)
  • La proporción 1 es mayor que la proporción 2 (P1 > P2)
  • La proporción 1 es menor que la proporción 2 (P1 < P2)

En cualquier de estos casos, estos enunciados pueden reescribirse en términos de la diferencia entre las proporciones:

  • Si nos interesa averiguar si P1 = P2, esto es equivalente a determinar si P1 – P2 = 0
  • Si nos interesa averiguar si P1 > P2, esto es equivalente a determinar si P1 – P2 > 0
  • Si nos interesa averiguar si P1 < P2, esto es equivalente a determinar si P1 – P2 < 0

Por lo tanto, cualquier comparación entre proporciones poblacionales se puede resolver hallando un intervalo de confianza para la diferencia entre proporciones poblacionales y luego llevando a cabo un análisis adecuado del resultado.

Pero, ¿cómo se establecen estos intervalos de confianza?

Esto se logra analizando muestras de cada población y utilizando las herramientas de la estadística inferencial. Dicho procedimiento depende de si estamos trabajando con muestras grandes o pequeñas.

Estimación por Intervalo de Confianza de la diferencia de dos proporciones poblacionales a partir muestras grandes (n ≥ 30)

El intervalo de confianza para la diferencia de proporciones poblacionales se puede resolver como una extensión del intervalo de confianza para una proporción binomial en una población. En el caso de proporciones binomiales (es decir, el resultado del experimento o la observación es un éxito o un fracaso y P representa la probabilidad de éxito), la distribución de la proporción en una muestra grande (p) sigue una distribución aproximadamente normal con media P (la proporción poblacional) y varianza P(1 – P)/n , siempre y cuando la probabilidad de éxito no sea demasiado alta o demasiado baja (es decir, que no se acerque demasiado ni a 1 ni a 0, respectivamente).

En el caso de la diferencia entre dos proporciones poblacionales, P1 – P2, podemos establecer los límites del intervalo de confianza a partir de dos muestras independientes con proporciones p1 y p2. Si estas muestras cumplen con las mismas condiciones anteriores (muestras n1 y n2 grandes, y proporciones p1 y p2 alejadas de 1 y de 0) y, por lo tanto, siguen distribuciones normales, la diferencia también seguirá una distribución normal con media P1 – P2 y varianza p1(1 – p1)/n1 + p2(1 – p2)/n2.

Dados estos resultados, un intervalo de confianza para la diferencia de dos proporciones poblacionales obtenido a partir de muestras grandes, con un nivel de confianza del 100(1 – α)%, donde α representa el nivel de significancia, viene dado por:

Intervalos de confianza para la diferencia de dos proporciones poblacionales

En la fórmula anterior, Zα/2 corresponde al valor de Z en la distribución estándar normal que deja a su derecha un área de α/2.

Intervalo de Confianza para la diferencia de dos proporciones poblacionales a partir muestras pequeñas (n < 30)

Si alguna de las muestras tiene un tamaño menor que 30, o si cualquiera de las dos proporciones se acerca mucho a 0 o a 1, su distribución no se puede aproximar a una distribución normal adecuadamente. En este caso, la diferencia de las dos proporciones tampoco seguirá una distribución normal, razón por la que la fórmula anterior para el intervalo de confianza no aplica.

La inferencia sobre la diferencia de proporciones poblacionales en base a muestras pequeñas es considerablemente compleja, y escapa el alcance del presente artículo

Interpretación del intervalo de confianza para la diferencia de dos proporciones poblacionales

Luego de calcular el intervalo de confianza para la diferencia de dos proporciones poblacionales, se debe interpretar el resultado obtenido. Se pueden dar tres resultados que se interpretan de manera diferente.

Consideremos un caso cualquiera en el que se obtiene un intervalo de confianza con un nivel de confianza del 100(1 – α)% o, simplemente, un nivel de significancia de α, cuyos límites inferior y superior son LI y LS, respectivamente. Es decir:

Intervalos de confianza para la diferencia de dos proporciones poblacionales

Dependiendo del signo de los límites obtenidos, podemos llegar a distintas conclusiones respecto a la diferencia entre ambas proporciones poblacionales:

  • Si tanto el límite inferior como el superior son negativos, entonces podemos decir, con un nivel de confianza del 100(1 – α)%, que la proporción de la población 2 es mayor que la proporción respectiva de la población 1. Es decir, podemos decir que P1 < P2 o que P2 > P1.
  • Si el límite inferior es negativo y el superior es positivo y, por lo tanto, el intervalo de confianza contiene al cero, entonces podemos decir, con un nivel de confianza del 100(1 – α)%, que no hay diferencia entre las dos proporciones poblacionales. Es decir, se concluye que P1 = P2.
  • Finalmente, si tanto el límite inferior como el superior son positivos, entonces podemos decir, con un nivel de confianza del 100(1 – α)%, que la proporción de la población 1 es mayor que la proporción respectiva proporción de la población 2. Es decir, concluimos que P1 > P2.

Ejemplo del cálculo del intervalo de confianza para dos proporciones poblacionales

Enunciado

Supongamos que se realizó una encuesta a una muestra aleatoria de 250 estudiantes mexicanos de ingeniería para saber qué proporción de los mismos domina el concepto de intervalos de confianza. Los resultados de la encuesta, mostraron que el 64,8% de los mismos no la domina, mientras que el resto sí. Por otro lado, se llevó a cabo la misma encuesta a una muestra de 180 estudiantes españoles de ingeniería, a la que 54 estudiantes respondieron que sí dominaban el concepto de los intervalos de confianza.

¿Existirá una diferencia entre las proporciones de estudiantes españoles y mexicanos que dominan el concepto de intervalos de confianza, a un nivel de significancia de 0,05?

Solución

Como podemos observar a partir de la pregunta, lo que deseamos es determinar si existe o no diferencia entre las proporciones de dos poblacionales distintas. La proporción de interés consiste en la proporción de estudiantes que sí dominan el concepto de los intervalos de confianza, por lo que, en este caso, responder afirmativamente a la encuesta representa un éxito desde el punto de vista del experimento binomial.

Para la población de estudiantes mexicanos, la muestra fue de 250 estudiantes, y nos indican que la proporción de estudiantes que no domina el tema en cuestión es del 64,8%. Pero esta no es la proporción que deseamos, ya que no dominar el tema es un fracaso. Por lo tanto, esta proporción corresponde al complemento q. En vista de esto, la proporción de éxitos, p, para la muestra de estudiantes mexicanos es:

Intervalos de confianza para la diferencia de dos proporciones poblacionales

Por otro lado, en el caso de la muestra de estudiantes españoles, tenemos el número de éxitos y el tamaño total de la muestra, por lo que la proporción de éxitos será:

Intervalos de confianza para la diferencia de dos proporciones poblacionales

Estos resultados se presentan resumidos en la siguiente tabla.

Estudiantes MexicanosEstudiantes Españoles
nMEX = 250nESP = 180
pMEX = 0,352pESP = 0,300

Como podemos ver, ambos tamaños de muestra son considerablemente mayores que 30, por lo que se consideran muestras grandes. Además, ni la proporción para estudiantes mexicanos ni la de los estudiantes españoles se acerca considerablemente a 0 o a 1. Por últimos, a pesar de que el enunciado no lo específica, podemos asumir que ambas muestras son independientes una de la otra.

Bajo estas condiciones, podemos decir que tanto las proporciones muestrales de ambas poblaciones como la diferencia de proporciones muestrales seguirá una distribución normal. Por lo tanto, podemos utilizar la ecuación anterior para determinar el intervalo de confianza, el cual será:

Intervalos de confianza para la diferencia de dos proporciones poblacionales

Nótese que, para establecer el intervalo de confianza, necesitamos el valor de Z para la mitad del nivel de significancia proporcionado que en este caso es α = 0,05. Es decir, debemos hallar Zα/2 = Z0,05/2 = Z0,025. Este valor lo podemos encontrar en una tabla de distribución normal estándar, utilizando una aplicación móvil de estadística o utilizando alguna hoja de cálculo como Excel para Windows o Numbers para MacOS.

En este caso, Z0,025 = 1,959964. Así que, el intervalo de confianza será:

Intervalos de confianza para la diferencia de dos proporciones poblacionales
Intervalos de confianza para la diferencia de dos proporciones poblacionales
Intervalos de confianza para la diferencia de dos proporciones poblacionales

Como podemos observar, el intervalo de confianza así calculado contiene al cero, razón por la cual se concluye, con un nivel de confianza del 95%, que no hay una diferencia significativa entre las proporciones de estudiantes mexicanos y españoles que dominan el concepto de intervalos de confianza.

Referencias

Cetinkaya-Rundel, M. (2012, 13 marzo). Lecture 14: Large and small sample inference for proportions. Department of Statistical Science al Duke University. https://www2.stat.duke.edu/courses/Spring12/sta101.1/lec/lec14S.pdf

del Rio, A. Q. (2019, 1 septiembre). 7.8 Intervalo de confianza para la diferencia de proporciones. | Estadística Básica Edulcorada. Book Down. https://bookdown.org/aquintela/EBE/intervalo-de-confianza-para-la-diferencia-de-proporciones-.html

Holmes, A., Illowsky, B., & Dean, S. (2017, 29 noviembre). 10.4 Comparing Two Independent Population Proportions – Introductory Business Statistics. OpenStax. https://openstax.org/books/introductory-business-statistics/pages/10-4-comparing-two-independent-population-proportions

Icedo Félix, M. (2020, 7 mayo). RPubs – Intervalos de confianza de la diferencia de dos proporciones poblacionales. RPubs. https://rpubs.com/Melanie_Icedo/Asignacion-6_Intervalo-confianza-proporcion-poblacional

Statologos. (s. f.). Intervalo de confianza para la diferencia de proporciones. https://statologos.com/diferencia-de-intervalo-de-confianza-en-proporciones/

mm
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados