Tabla de Contenidos
Описателната статистика ни позволява да обобщим набор от данни в малък брой числа или мерки, които служат за описание на това как се разпределят тези данни. Има различни мерки, които служат за описание на централната тенденция на данните, тяхната дисперсия и формата на кривите на разпределение, някои от които се намират в резюмето с пет числа.
Какво е обобщението на петте числа?
Въз основа на горното, обобщението от пет числа може да се дефинира като набор от пет мерки или статистики, свързани с набор от данни, които позволяват да се опише по много прост начин амплитудата на набора, неговата дисперсия. Той също така осигурява мярка за неговата централна тенденция. В допълнение, резюмето от пет числа може да бъде представено и графично, което улеснява визуализирането на тези характеристики на набор от данни, като същевременно позволява лесното му сравнение с други свързани набори от данни.
Кои са петте числа и какво означават?
Обобщението от пет числа се състои от минималната стойност, трите квартила и максималната стойност на поредица от статистически данни. Квартилите са онези данни или стойности, които разделят подредения набор от всички данни на четири подгрупи с еднакъв брой елементи . По този начин, ако имаме набор от 100 данни, квартилите са онези данни или стойности, които разделят набора на 4 подгрупи от по 25 данни всяка.
Квартилите са наименувани в реда, в който се появяват, от най-ниския до най-високия, като например първия, втория и третия квартил. Освен това те са представени с главната буква Q, последвана от числото, което показва тяхната поредна позиция. По своята дефиниция вторият квартил, Q2, е известен също като медиана или средна точка на данните . Не трябва да се бърка със средната стойност, която е средноаритметичното на данните.
В допълнение към трите квартила (Q1, Q2 и Q3), обобщението от пет числа включва също минималната стойност на данните, подредени от най-малката към най-голямата, и максималната стойност. С други думи, петте числа в това резюме са:
- Минимум. – Това е първата стойност от набор от статистически данни, подредени от най-ниската към най-високата. Това са данните с най-ниска стойност.
- Q1 или първи квартил.– Тези данни или стойност разделят набора от данни, оставяйки 25% (или една четвърт) от тях отдолу, а останалите 75% отгоре.
- Q2 или втори квартил.– Данните или стойността разделят набора от данни на две равни групи. Тоест, това е стойността, която оставя 50% от данните както под, така и над нея, така че тя също така представлява медианата или средната точка на данните.
- Q3 или трети квартил.– Това са данните или стойността, която оставя 75% или три четвърти от данните по-долу и останалите 25% отгоре.
- Максимум.– Както подсказва името му, това са данните с най-висока стойност от цялата поредица от данни. Тоест, това са последните данни, когато са подредени от най-ниското към най-високото.
При интерпретиране на резюмето от пет числа, разликата между минималната и максималната стойност осигурява това, което е известно като ширина на серията данни. От друга страна, разликата между третия и първия квартил, наречена Интерквартилен диапазон (RIC), ни показва колко разпръснати са данните, тъй като показва диапазона от стойности, който съдържа 50% от централните данни.
От друга страна, вторият квартил или медианата е мярка за централна тенденция, която може да се използва за представяне на стойността на всички данни в серията в едно число. Въпреки че средната стойност често се използва като мярка за централна тенденция в много ситуации, медианата предлага предимството да не е чувствителна към екстремни стойности (твърде високи или твърде ниски).
Графики в кутия: графичното представяне на обобщението на петте числа
Един практичен начин за визуализиране на обобщение от пет числа е с помощта на това, което се нарича графика в кутия или Box Plot . При този тип представяне интерквартилният диапазон (IQR) е представен като правоъгълник или кутия, която се простира от Q1 до Q3 и е разделена на две от линия, перпендикулярна на оста на измерване, разположена в Q2, тоест в медианата.
И накрая, от всяка страна на кутията се начертават линии, успоредни на оста на измерване, които се простират от минимума до Q1 и от Q3 до максимума, стига минимумът и максимумът да не са повече от 1,5.RIC разстояние вляво и вдясно от Q1 и Q3, съответно. Тези странични линии са това, което е известно като мустаците на кутията. Ако има данни извън диапазона, демаркиран от Q1 – 1.5.RIC и Q3 + 1.5.RIC, тогава страните (понякога наричани мустаци) се простират до данните, които са най-отдалечени от кутията, която е вътре в този диапазон, а останалите са маркирани като извънредни стойности.
Пример за изготвяне на резюме от пет числа за поредица от данни
След това стъпка по стъпка е представена процедурата за изготвяне на резюме от пет числа от набор от статистически данни. Освен това се обяснява как да се изгради графиката на кутията за визуализация на това резюме в графична форма.
Данните съответстват на броя продадени артикули в дамския отдел на универсален магазин за период от 10 седмици. Резултатите от проучването са представени по-долу:
понеделник | вторник | сряда | четвъртък | петък | Събота | неделя | |
Седмица 1 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
седмица 2 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
Седмица 3 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
седмица 4 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
седмица 5 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
седмица 6 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
седмица 7 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
седмица 8 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
седмица 9 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
седмица 10 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
Стъпка 1: Сортирайте всички данни от най-малките до най-големите и им присвоете индекс, започващ с 1.
Резултатът от тази стъпка е представен по-долу:
Индекс | Заслужава си | Индекс | Заслужава си | Индекс | Заслужава си | Индекс | Заслужава си |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | Четири пет | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | петдесет | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
единадесет | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 3. 4 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
петнадесет | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
двадесет | 152 | 41 | 158 | 62 | 166 | ||
двадесет и едно | 152 | 42 | 158 | 63 | 167 |
Стъпка 2: Определете квартилите Q1 и Q3
За да определим квартилите Q1, Q2 и Q3, започваме с изчисляване на индекс за данните, съответстващи на всеки квартил. Формулата е следната:
Където N е общият брой данни. Това изчисление може да бъде цяло число или не, така че процедурата е разделена на два случая:
Случай 1: Целочислен резултат
Ако резултатът е цяло число, тогава съответният квартил ще бъде стойността на данните, на които съответства индексът. Например, ако индексът на Q1 дава 10, това означава, че Q1 ще бъде стойността на данните номер 10 (149 в нашия пример).
Случай 2: Десетичен резултат
Ако индексът е десетично число, тогава квартилът няма да съответства точно на никоя от данните, налични в серията. В този случай резултатът се закръгля надолу и квартилът се изчислява от тези данни и тези, които ги следват, като се използва следната формула:
Където d представлява десетичната част на индекса, x i са данните със закръглен надолу индекс, а x i+1 е следващата точка от данни.
В случая с нашия пример това е резултатът от изчисляването на индексите на трите квартила:
Във всички случаи резултатът беше десетично число, така че сега прилагаме формулата от случай 2, за да определим стойността на всеки квартил:
Стъпка 3: Идентифицирайте петте числа
Сега, след като имаме подредени данните и също така сме определили стойностите на трите квартила, обобщението на петте числа е:
минимум: | 145 |
Q1: | 152 |
Q2 или медиана: | 157 |
Q3: | 162,25 |
Максимум: | 170 |
Стъпка 4: Конструирайте боксплота
Вече разполагаме с всичко необходимо за изграждане на боксплота с изключение на RIC. Въз основа на резултата, получен в предишната стъпка, разликата между Q3 и Q1 е:
За да определим дали има отклонения, изчисляваме Q1 – 1,5 IQR и Q3 + 1,5 IQR и сравняваме с минимума и максимума:
Както виждаме, няма извънредни стойности, тъй като минимумът, 140, е по-голям от 136 625. Също така няма отклонения, тъй като максимумът, 170, е по-малък от 177 625.
Следващата фигура показва резултата от изграждането на квадратната графика, съответстваща на примера:
Препратки
Как да съставим резюме от пет числа на статистическа извадка . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
Макадамс, Д. (2009, 4 март). Обобщение на пет числа. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html
Serra, BR (2020 г., 22 ноември). медиана _ Формули на Вселената. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
Serra, BR (2021 г., 4 август). квартили . Формули на Вселената. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example
Zentica Global. (nd). Brutalk – Как да изчислите резюмето от 5 числа за вашите данни в Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56