Какво представлява обобщението на петте числа в статистиката?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

Описателната статистика ни позволява да обобщим набор от данни в малък брой числа или мерки, които служат за описание на това как се разпределят тези данни. Има различни мерки, които служат за описание на централната тенденция на данните, тяхната дисперсия и формата на кривите на разпределение, някои от които се намират в резюмето с пет числа.

Какво е обобщението на петте числа?

Въз основа на горното, обобщението от пет числа може да се дефинира като набор от пет мерки или статистики, свързани с набор от данни, които позволяват да се опише по много прост начин амплитудата на набора, неговата дисперсия. Той също така осигурява мярка за неговата централна тенденция. В допълнение, резюмето от пет числа може да бъде представено и графично, което улеснява визуализирането на тези характеристики на набор от данни, като същевременно позволява лесното му сравнение с други свързани набори от данни.

Кои са петте числа и какво означават?

Обобщението от пет числа се състои от минималната стойност, трите квартила и максималната стойност на поредица от статистически данни. Квартилите са онези данни или стойности, които разделят подредения набор от всички данни на четири подгрупи с еднакъв брой елементи . По този начин, ако имаме набор от 100 данни, квартилите са онези данни или стойности, които разделят набора на 4 подгрупи от по 25 данни всяка.

Квартилите са наименувани в реда, в който се появяват, от най-ниския до най-високия, като например първия, втория и третия квартил. Освен това те са представени с главната буква Q, последвана от числото, което показва тяхната поредна позиция. По своята дефиниция вторият квартил, Q2, е известен също като медиана или средна точка на данните . Не трябва да се бърка със средната стойност, която е средноаритметичното на данните.

В допълнение към трите квартила (Q1, Q2 и Q3), обобщението от пет числа включва също минималната стойност на данните, подредени от най-малката към най-голямата, и максималната стойност. С други думи, петте числа в това резюме са:

  • Минимум. – Това е първата стойност от набор от статистически данни, подредени от най-ниската към най-високата. Това са данните с най-ниска стойност.
  • Q1 или първи квартил.– Тези данни или стойност разделят набора от данни, оставяйки 25% (или една четвърт) от тях отдолу, а останалите 75% отгоре.
  • Q2 или втори квартил.– Данните или стойността разделят набора от данни на две равни групи. Тоест, това е стойността, която оставя 50% от данните както под, така и над нея, така че тя също така представлява медианата или средната точка на данните.
  • Q3 или трети квартил.– Това са данните или стойността, която оставя 75% или три четвърти от данните по-долу и останалите 25% отгоре.
  • Максимум.– Както подсказва името му, това са данните с най-висока стойност от цялата поредица от данни. Тоест, това са последните данни, когато са подредени от най-ниското към най-високото.

При интерпретиране на резюмето от пет числа, разликата между минималната и максималната стойност осигурява това, което е известно като ширина на серията данни. От друга страна, разликата между третия и първия квартил, наречена Интерквартилен диапазон (RIC), ни показва колко разпръснати са данните, тъй като показва диапазона от стойности, който съдържа 50% от централните данни.

От друга страна, вторият квартил или медианата е мярка за централна тенденция, която може да се използва за представяне на стойността на всички данни в серията в едно число. Въпреки че средната стойност често се използва като мярка за централна тенденция в много ситуации, медианата предлага предимството да не е чувствителна към екстремни стойности (твърде високи или твърде ниски).

Графики в кутия: графичното представяне на обобщението на петте числа

Един практичен начин за визуализиране на обобщение от пет числа е с помощта на това, което се нарича графика в кутия или Box Plot . При този тип представяне интерквартилният диапазон (IQR) е представен като правоъгълник или кутия, която се простира от Q1 до Q3 и е разделена на две от линия, перпендикулярна на оста на измерване, разположена в Q2, тоест в медианата.

И накрая, от всяка страна на кутията се начертават линии, успоредни на оста на измерване, които се простират от минимума до Q1 и от Q3 до максимума, стига минимумът и максимумът да не са повече от 1,5.RIC разстояние вляво и вдясно от Q1 и Q3, съответно. Тези странични линии са това, което е известно като мустаците на кутията. Ако има данни извън диапазона, демаркиран от Q1 – 1.5.RIC и Q3 + 1.5.RIC, тогава страните (понякога наричани мустаци) се простират до данните, които са най-отдалечени от кутията, която е вътре в този диапазон, а останалите са маркирани като извънредни стойности.

Пример за изготвяне на резюме от пет числа за поредица от данни

След това стъпка по стъпка е представена процедурата за изготвяне на резюме от пет числа от набор от статистически данни. Освен това се обяснява как да се изгради графиката на кутията за визуализация на това резюме в графична форма.

Данните съответстват на броя продадени артикули в дамския отдел на универсален магазин за период от 10 седмици. Резултатите от проучването са представени по-долу:

понеделник вторник сряда четвъртък петък Събота неделя
Седмица 1 158 145 156 156 164 167 147
седмица 2 161 146 157 152 162 160 153
Седмица 3 152 150 157 155 164 166 152
седмица 4 150 149 153 162 169 162 149
седмица 5 157 152 154 155 168 161 155
седмица 6 157 145 160 164 164 168 149
седмица 7 160 152 151 152 168 163 145
седмица 8 157 152 155 156 162 169 155
седмица 9 160 148 157 150 164 170 154
седмица 10 158 146 163 158 165 169 150

Стъпка 1: Сортирайте всички данни от най-малките до най-големите и им присвоете индекс, започващ с 1.

Резултатът от тази стъпка е представен по-долу:

Индекс Заслужава си Индекс Заслужава си Индекс Заслужава си Индекс Заслужава си
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Четири пет 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 петдесет 162
9 149 30 155 51 162
10 149 31 155 52 162
единадесет 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
петнадесет 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
двадесет 152 41 158 62 166
двадесет и едно 152 42 158 63 167

Стъпка 2: Определете квартилите Q1 и Q3

За да определим квартилите Q1, Q2 и Q3, започваме с изчисляване на индекс за данните, съответстващи на всеки квартил. Формулата е следната:

Обобщение на пет числа

Обобщение на пет числа

Обобщение на пет числа

Където N е общият брой данни. Това изчисление може да бъде цяло число или не, така че процедурата е разделена на два случая:

Случай 1: Целочислен резултат

Ако резултатът е цяло число, тогава съответният квартил ще бъде стойността на данните, на които съответства индексът. Например, ако индексът на Q1 дава 10, това означава, че Q1 ще бъде стойността на данните номер 10 (149 в нашия пример).

Случай 2: Десетичен резултат

Ако индексът е десетично число, тогава квартилът няма да съответства точно на никоя от данните, налични в серията. В този случай резултатът се закръгля надолу и квартилът се изчислява от тези данни и тези, които ги следват, като се използва следната формула:

Обобщение на пет числа

Където d представлява десетичната част на индекса, x i са данните със закръглен надолу индекс, а x i+1 е следващата точка от данни.

В случая с нашия пример това е резултатът от изчисляването на индексите на трите квартила:

Обобщение на пет числа

Обобщение на пет числа

Обобщение на пет числа

Във всички случаи резултатът беше десетично число, така че сега прилагаме формулата от случай 2, за да определим стойността на всеки квартил:

Обобщение на пет числа

Обобщение на пет числа

Обобщение на пет числа

Стъпка 3: Идентифицирайте петте числа

Сега, след като имаме подредени данните и също така сме определили стойностите на трите квартила, обобщението на петте числа е:

минимум: 145
Q1: 152
Q2 или медиана: 157
Q3: 162,25
Максимум: 170

Стъпка 4: Конструирайте боксплота

Вече разполагаме с всичко необходимо за изграждане на боксплота с изключение на RIC. Въз основа на резултата, получен в предишната стъпка, разликата между Q3 и Q1 е:

Обобщение на пет числа

За да определим дали има отклонения, изчисляваме Q1 – 1,5 IQR и Q3 + 1,5 IQR и сравняваме с минимума и максимума:

Обобщение на пет числа

Обобщение на пет числа

Както виждаме, няма извънредни стойности, тъй като минимумът, 140, е по-голям от 136 625. Също така няма отклонения, тъй като максимумът, 170, е по-малък от 177 625.

Следващата фигура показва резултата от изграждането на квадратната графика, съответстваща на примера:

Обобщение на пет числа

Препратки

Как да съставим резюме от пет числа на статистическа извадка . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

Макадамс, Д. (2009, 4 март). Обобщение на пет числа. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020 г., 22 ноември). медиана _ Формули на Вселената. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021 г., 4 август). квартили . Формули на Вселената. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk – Как да изчислите резюмето от 5 числа за вашите данни в Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

Israel Parada (Licentiate,Professor ULA)
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados