통계에서 다섯 숫자 요약은 무엇입니까?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

기술 통계를 사용하면 데이터가 어떻게 분포되어 있는지 설명하는 데 사용되는 소수의 숫자 또는 측정값으로 데이터 세트를 요약할 수 있습니다. 데이터의 중심 경향, 분산 및 분포 곡선의 모양을 설명하는 데 사용되는 다양한 척도가 있으며, 그 중 일부는 5개 숫자 요약에서 찾을 수 있습니다.

다섯 숫자 요약은 무엇입니까?

위의 내용을 바탕으로 5개 숫자의 요약은 집합의 진폭, 분산을 매우 간단한 방식으로 설명할 수 있는 데이터 집합과 관련된 5가지 측정 또는 통계 집합으로 정의할 수 있습니다. 또한 중심 경향의 척도를 제공합니다. 또한 5개 숫자로 된 요약도 그래픽으로 표시할 수 있어 데이터 세트의 이러한 특성을 쉽게 시각화하고 다른 관련 데이터 세트와 쉽게 비교할 수 있습니다.

5개의 숫자는 무엇이며 그 의미는 무엇입니까?

5개 숫자 요약은 일련의 통계 데이터의 최소값, 3사분위수 및 최대값으로 구성됩니다. 사분위수는 정렬된 모든 데이터 집합을 요소 수가 같은 4개의 하위 그룹으로 나누는 데이터 또는 값입니다 . 따라서 100개의 데이터 세트가 있는 경우 사분위수는 세트를 각각 25개의 데이터로 구성된 4개의 하위 집합으로 나누는 데이터 또는 값입니다.

사분위수는 1분위수, 2분위수, 3분위수와 같이 가장 낮은 것부터 가장 높은 것까지 나타나는 순서대로 이름이 지정됩니다. 또한 대문자 Q와 서수 위치를 나타내는 숫자로 표시됩니다. 정의에 따라 두 번째 사분위수인 Q2는 데이터의 중앙값 또는 중간점이라고도 합니다 . 데이터의 산술 평균인 평균과 혼동해서는 안 됩니다.

3개의 사분위수(Q1, Q2 및 Q3) 외에도 5개 숫자 요약에는 가장 작은 것에서 가장 큰 순서로 정렬된 데이터의 최소값과 최대값도 포함됩니다. 즉, 이 요약의 다섯 가지 숫자는 다음과 같습니다.

  • 최소값.– 최저값 에서 최고값으로 정렬된 통계 데이터 집합의 첫 번째 값입니다. 가장 낮은 값의 데이터입니다.
  • Q1 또는 1사분위수.– 데이터 세트를 나누는 데이터 또는 값으로, 그 중 25%(또는 1/4)는 아래에 나머지 75%는 위에 둡니다.
  • Q2 또는 두 번째 사분위수.– 데이터 세트를 두 개의 동일한 그룹으로 나누는 데이터 또는 값입니다. 즉, 데이터의 50%를 위아래 모두 남기는 값이므로 데이터의 중앙값 또는 중간점을 나타내기도 합니다.
  • 3분기 또는 3사분위수.– 아래 데이터의 75% 또는 3/4을 남기고 나머지 25%를 남기는 데이터 또는 값입니다.
  • 최대값.– 이름에서 알 수 있듯이 전체 데이터 계열 중 가장 높은 값을 가진 데이터입니다. 즉, 가장 낮은 것부터 높은 것으로 정렬할 때 마지막 데이터입니다.

5개의 숫자 요약을 해석할 때 최소값과 최대값의 차이는 데이터 계열의 너비로 알려진 값을 제공합니다. 한편, 사분위간 범위(RIC)라고 하는 제3사분위와 제1사분위의 차이는 중앙 데이터의 50%를 포함하는 값의 범위를 나타내므로 데이터가 얼마나 분산되어 있는지 보여줍니다.

반면에 두 번째 사분위수 또는 중앙값은 시리즈의 모든 데이터 값을 단일 숫자로 나타내는 데 사용할 수 있는 중심 경향의 척도입니다. 평균은 많은 상황에서 중심 경향의 척도로 자주 사용되지만 중앙값은 극단값(너무 높거나 너무 낮음)에 민감하지 않은 이점을 제공합니다.

박스 플롯: 5개 숫자 요약의 그래픽 표현

5개 숫자의 요약을 시각화하는 실용적인 방법은 박스 플롯 또는 박스 플롯 이라고 하는 것을 사용하는 것입니다 . 이러한 유형의 표현에서 사분위수 범위(IQR)는 Q1에서 Q3까지 확장되는 사각형 또는 상자로 표시되며 Q2, 즉 중앙값에 위치한 측정 축에 수직인 선으로 둘로 나뉩니다.

마지막으로 상자의 각 측면에는 최소값에서 Q1까지 그리고 Q3에서 최대값까지 연장되는 측정 축과 평행하게 그어집니다. 각각 Q1과 Q3의 오른쪽. 이 측면 라인은 상자의 수염으로 알려져 있습니다. Q1 – 1.5.RIC 및 Q3 + 1.5.RIC로 구분된 범위 밖에 있는 데이터가 있는 경우 측면(위스커라고도 함)은 해당 범위 내에서 상자에서 가장 먼 데이터까지 확장되고 나머지는 표시됩니다. 이상값으로.

일련의 데이터에 대한 5개 숫자 요약 준비의 예

다음으로 일련의 통계 데이터에서 5개 숫자의 요약을 정교화하기 위한 절차가 단계별로 제시됩니다. 또한 이 요약을 그래픽 형식으로 시각화하기 위해 상자 그림을 작성하는 방법을 설명합니다.

데이터는 10주 동안 백화점 여성복 매장에서 판매된 품목 수에 해당합니다. 연구 결과는 다음과 같습니다.

월요일 화요일 수요일 목요일 금요일 토요일 일요일
1주차 158 145 156 156 164 167 147
2주차 161 146 157 152 162 160 153
3 주차 152 150 157 155 164 166 152
4주차 150 149 153 162 169 162 149
5주차 157 152 154 155 168 161 155
6주차 157 145 160 164 164 168 149
7주차 160 152 151 152 168 163 145
8주차 157 152 155 156 162 169 155
9주차 160 148 157 150 164 170 154
10주차 158 146 163 158 165 169 150

1단계: 모든 데이터를 가장 작은 것부터 가장 큰 것까지 정렬하고 1부터 시작하는 인덱스를 할당합니다.

이 단계의 결과는 다음과 같습니다.

색인 가치 색인 가치 색인 가치 색인 가치
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
145 24 153 넷 다섯 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 오십 162
9 149 30 155 51 162
10 149 31 155 52 162
열하나 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
열 다섯 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
이십 152 41 158 62 166
이십 일 152 42 158 63 167

2단계: Q1 및 Q3 사분위수 결정

Q1, Q2 및 Q3 사분위수를 결정하기 위해 먼저 각 사분위수에 해당하는 데이터에 대한 인덱스를 계산합니다. 공식은 다음과 같습니다.

다섯 숫자 요약

다섯 숫자 요약

다섯 숫자 요약

여기서 N은 총 데이터 수입니다. 이 계산은 정수일 수도 있고 아닐 수도 있으므로 절차는 두 가지 경우로 나뉩니다.

사례 1: 정수 결과

결과가 정수이면 각 사분위수는 인덱스에 해당하는 데이터의 값이 됩니다. 예를 들어, Q1의 인덱스가 10이면 Q1은 데이터 번호 10(이 예에서는 149)의 값이 됩니다.

사례 2: 소수 결과

인덱스가 십진수이면 사분위수는 시리즈에 있는 데이터와 정확히 일치하지 않습니다. 이 경우 결과는 내림되고 사분위수는 다음 공식을 사용하여 이 데이터와 그 다음 데이터에서 계산됩니다.

다섯 숫자 요약

여기서 d는 인덱스의 소수 부분을 나타내고, x i 는 인덱스를 내림한 데이터이고, x i+1 은 다음 데이터 포인트입니다.

이 예의 경우 세 사분위수의 지수를 계산한 결과입니다.

다섯 숫자 요약

다섯 숫자 요약

다섯 숫자 요약

모든 경우에 결과는 십진수이므로 이제 사례 2의 공식을 적용하여 각 사분위수의 값을 결정합니다.

다섯 숫자 요약

다섯 숫자 요약

다섯 숫자 요약

3단계: 5개의 숫자 식별

이제 데이터를 정렬했고 세 사분위수의 값도 결정했으므로 다섯 숫자의 요약은 다음과 같습니다.

최저한의: 145
질문 1: 152
2분기 또는 중앙값: 157
질문 3: 162.25
최고: 170

4단계: 상자 그림 구성

RIC를 제외하고 boxplot을 만드는 데 필요한 모든 것이 이미 있습니다. 이전 단계에서 얻은 결과를 기반으로 Q3과 Q1의 차이는 다음과 같습니다.

다섯 숫자 요약

이상값이 있는지 확인하기 위해 Q1 – 1.5 IQR 및 Q3 + 1.5 IQR을 계산하고 최소값 및 최대값과 비교합니다.

다섯 숫자 요약

다섯 숫자 요약

보시다시피 최소값 140이 136,625보다 크기 때문에 이상값이 없습니다. 최대값인 170이 177,625보다 작기 때문에 이상값도 없습니다.

다음 그림은 예제에 해당하는 박스 플롯을 빌드한 결과를 보여줍니다.

다섯 숫자 요약

참조

통계 샘플의 5개 숫자 요약을 구성하는 방법 . (일차). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009년 3월 4일). 다섯 숫자의 요약. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020년 11월 22일). 중앙값 . 우주 공식. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021년 8월 4일). 사분위수 . 우주 공식. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

젠티카 글로벌. (일차). Brutalk – Python에서 데이터에 대한 5개 숫자 요약을 계산하는 방법 . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

Israel Parada (Licentiate,Professor ULA)
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados