Tabla de Contenidos
La estadística descriptiva nos permite resumir un conjunto de datos en una pequeña cantidad de números o medidas que sirven para describir cómo están distribuidos esos datos. Existen distintas medidas que sirven para describir la tendencia central de los datos, su dispersión y la forma de las curvas de distribución, algunas de las cuales se encuentra en el resumen de cinco números.
¿Qué es el resumen de cinco números?
En función de lo anterior, se puede definir el resumen de cinco números como un conjunto de cinco medidas o estadísticas relacionadas con un conjunto de datos que permiten describir de una manera muy sencilla la amplitud del conjunto, su dispersión. También proporciona una medida de su tendencia central. Además, el resumen de cinco números también se puede representar de forma gráfica, lo cual facilita la visualización de estas características de un conjunto de datos, permitiendo a su vez compararlo fácilmente con otros conjuntos de datos relacionados.
¿Cuáles son los cinco números y qué significan?
El resumen de cinco números está compuesto por el valor mínimo, los tres cuartiles y el valor máximo de una serie de datos estadísticos. Los cuartiles son aquellos datos o valores que dividen al conjunto ordenado de todos los datos en cuatro subgrupos con igual número de elementos. Así, si contamos con un conjunto de 100 datos, los cuartiles son aquellos datos o valores que dividen at conjunto en 4 subconjuntos de 25 datos cada uno.
Los cuartiles se nombran según el orden en el que aparecen, de menor a mayor, como primer, segundo y tercer cuartil. Además, se representan por medio de la le letra Q mayúscula seguido del número que indica su posición ordinal. Por su definición, el segundo cuartil, Q2, también se le conoce como la mediana o punto medio de los datos. No se debe confundir con la media, que es el promedio aritmético de los datos.
Además de los tres cuartiles (Q1, Q2 y Q3), el resumen de cinco números también incluye al valor mínimo de los datos ordenados de menor a mayor, y el valor máximo. En otras palabras, los cinco números de este resumen son:
- Mínimo .– Es el primer valor de un conjunto de datos estadísticos ordenados de menor a mayor. Es el dato de menor valor.
- Q1 o primer cuartil .– Es aquel dato o valor que divide al conjunto de datos dejando el 25% (o la cuarta parte) de ellos por debajo y el otro 75% por encima.
- Q2 o segundo cuartil .– Es el dato o valor que divide al conjunto de datos en dos grupos iguales. Es decir, es el valor que deja el 50% de los datos tanto por debajo como por encima del mismo, por lo que representa también a la mediana o punto medio de los datos.
- Q3 o tercer cuartil .– Este es el dato o valor que deja al 75% o tres cuartas partes de los datos por debajo y el otro 25% por encima.
- Máximo .– Como su nombre lo indica, es el dato con mayor valor de toda la serie de datos. Es decir, se trata del último dato cuando estos son ordenados de menor a mayor.
Al interpretar el resumen de cinco números, la diferencia entre el valor mínimo y el máximo proporciona lo que se conoce como la amplitud de la serie de datos. Por otro lado, la diferencia entre el tercer y primer cuartil, denominado el Rango Intercuartílico (RIC), nos muestra qué tan dispersos están los datos, ya que indica el rango de valores que contiene al 50% de los datos centrales.
Por otro lado, el segundo cuartil o mediana es una medida de tendencia central que se puede utilizar para representar en un solo número, el valor de todos los datos de la serie. A pesar de que en muchas situaciones se suele utilizar la media como una medida de tendencia central, la mediana ofrece la ventaja de no ser sensible a valores extremos (demasiado altos o demasiado bajos).
Diagramas de cajas: la representación gráfica del resumen de cinco números
Una forma práctica de visualizar un resumen de cinco números es por medio de lo que se denomina un diagrama de caja o Box Plot. En este tipo de representaciones, el rango intercuartílico (RIC) se representa como un rectángulo o caja que se extiende desde Q1 hasta Q3, y que está dividido en dos por una línea perpendicular al eje de medida ubicada en Q2, es decir, en la mediana.
Finalmente, a cada lado de la caja se dibujan líneas paralelas al eje de medida que se extienden desde el mínimo hasta Q1 y desde Q3 hasta el máximo, siempre y cuando el mínimo y el máximo no estén a más de 1,5.RIC de distancia a la izquierda y derecha de Q1 y Q3, respectivamente. Estas líneas laterales son lo que se conoce como los bigotes de la caja. Si hay datos que quedan por fuera del rango demarcado por Q1 – 1,5.RIC y Q3 + 1,5.RIC, entonces los laterales (a veces llamados bigotes) se extienden hasta el dato más alejado de la caja que se encuentre dentro de dicho rango, y los demás se marcan como datos atípicos.
Ejemplo de la elaboración del resumen de cinco números para una serie de datos
A continuación, se presenta el procedimiento, paso a paso, para la elaboración de un resumen de cinco números a partir de un conjunto de datos estadísticos. Además, se explica cómo construir el diagrama de caja para la visualización de este resumen en forma gráfica.
Los datos corresponden al número de artículos vendidos en el departamento de damas de una tienda por departamentos durante un periodo de 10 semanas. Los resultados del estudio se presentan a continuación:
Lunes | Martes | Miércoles | Jueves | Viernes | Sábado | Domingo | |
Semana 1 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
Semana 2 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
Semana 3 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
Semana 4 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
Semana 5 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
Semana 6 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
Semana 7 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
Semana 8 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
Semana 9 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
Semana 10 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
Paso 1: Ordenar todos los datos de menor a mayor y asignarles un índice comenzando por 1.
El resultado de este paso se presenta a continuación:
Índice | Valor | Índice | Valor | Índice | Valor | Índice | Valor |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | 45 | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | 50 | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
11 | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 34 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
15 | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
20 | 152 | 41 | 158 | 62 | 166 | ||
21 | 152 | 42 | 158 | 63 | 167 |
Paso 2: Determinar los cuartiles Q1 y Q3
Para determinar los cuartiles Q1, Q2 y Q3, se comienza calculando un índice para el dato correspondiente a cada cuartil. La fórmula es la siguiente:
Donde N es el número total de datos. Este cálculo puede resultar entero o no, por lo que el procedimiento se divide en dos casos:
Caso 1: Resultado entero
Si el resultado es entero, entonces el respectivo cuartil será el valor del dato al que corresponda el índice. Por ejemplo, si el índice de Q1 da 10, esto quiere decir que Q1 será el valor del dato número 10 (149 en nuestro ejemplo).
Caso 2: Resultado decimal
Si el índice resulta un número decimal, entonces el cuartil no corresponderá exactamente a ninguno de los datos presentes en la serie. En este caso, se redondea el resultado hacia abajo y el cuartil se calcula a partir de este dato y el que le sigue, utilizando la siguiente fórmula:
Donde d representa la parte decimal del índice, xi es el dato con el índice redondeado hacia abajo, y xi+1 es el siguiente dato.
En el caso de nuestro ejemplo, este es el resultado del cálculo de los índices de los tres cuartiles:
En todos los casos el resultado fue un número decimal, así que ahora aplicamos la fórmula del caso 2 para determinar el valor de cada cuartil:
Paso 3: Identificar los cinco números
Ahora que tenemos los datos ordenados y además ya determinamos los valores de los tres cuartiles, el resumen de los cinco números es:
Mínimo: | 145 |
Q1: | 152 |
Q2 o Mediana: | 157 |
Q3: | 162,25 |
Máximo: | 170 |
Paso 4: Construir el diagrama de caja
Ya tenemos todo lo necesario para construir el diagrama de cajas a excepción del RIC. En base al resultado obtenido en el paso anterior, la diferencia entre Q3 y Q1 es:
Para determinar si existen datos atípicos, calculamos Q1 – 1,5 RIC y Q3 + 1,5 RIC y comparamos con el mínimo y el máximo:
Como podemos ver, no hay valores atípicamente pequeños ya que el mínimo, 140 es mayor que 136,625. Tampoco hay valores atípicamente altos ya que el máximo, 170, es menor que 177,625.
La siguiente figura muestra el resultado de construir el diagrama de caja correspondiente al ejemplo:
Referencias
Cómo reunir a un resumen de cinco números de una muestra estadística. (s. f.). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
McAdams, D. (2009, 4 marzo). Resumen de cinco números. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html
Serra, B. R. (2020, 22 noviembre). Mediana. Universo Formulas. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
Serra, B. R. (2021, 4 agosto). Cuartiles. Universo Formulas. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#ejemplo
Zentica Global. (s. f.). Brutalk – Cómo calcular el resumen de 5 números para sus datos en Python. Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/como-calcular-el-resumen-de-5-numeros-para-sus-datos-en-python-6047097da7d56