Tabla de Contenidos
Beskrivande statistik gör att vi kan sammanfatta en datamängd i ett litet antal siffror eller mått som tjänar till att beskriva hur denna data är fördelad. Det finns olika mått som tjänar till att beskriva uppgifternas centrala tendens, dess spridning och formen på fördelningskurvorna, av vilka några återfinns i femnummersammanfattningen.
Vad är sammanfattningen med fem siffror?
Baserat på ovanstående kan sammanfattningen av fem siffror definieras som en uppsättning av fem mått eller statistik relaterad till en datauppsättning som gör det möjligt att på ett mycket enkelt sätt beskriva uppsättningens amplitud, dess spridning. Det ger också ett mått på dess centrala tendens. Dessutom kan den femsiffriga sammanfattningen också representeras grafiskt, vilket gör det enkelt att visualisera dessa egenskaper hos en datamängd, samtidigt som den enkelt kan jämföras med andra relaterade datamängder.
Vilka är de fem siffrorna och vad betyder de?
Sammanfattningen med fem siffror består av minimivärdet, de tre kvartilerna och maximivärdet för en serie statistiska data. Kvartiler är de data eller värden som delar upp den ordnade uppsättningen av all data i fyra undergrupper med samma antal element . Således, om vi har en uppsättning av 100 data, är kvartilerna de data eller värden som delar upp uppsättningen i 4 delmängder med 25 data vardera.
Kvartilerna är namngivna i den ordning de visas, från lägsta till högsta, såsom första, andra och tredje kvartilen. Dessutom representeras de av den stora bokstaven Q följt av siffran som anger deras ordningsposition. Enligt definitionen är den andra kvartilen, Q2, också känd som median eller mittpunkt för data . Det ska inte förväxlas med medelvärdet, som är det aritmetiska medelvärdet av data.
Förutom de tre kvartilerna (Q1, Q2 och Q3) innehåller femnummersammanfattningen även minimivärdet för data, sorterat från minsta till största, och det maximala värdet. Med andra ord, de fem siffrorna i denna sammanfattning är:
- Minimum.– Det är det första värdet av en uppsättning statistiska data sorterad från lägsta till högsta. Det är den lägsta värdedatan.
- Q1 eller första kvartilen.– Det är den datan eller värdet som delar upp datamängden och lämnar 25 % (eller en fjärdedel) av dem under och de andra 75 % över.
- Q2 eller andra kvartilen.– Det är data eller värde som delar upp datamängden i två lika stora grupper. Det vill säga att det är värdet som lämnar 50 % av datan både under och ovanför det, så det representerar också medianen eller mittpunkten av datan.
- Q3 eller tredje kvartilen.– Detta är data eller värde som lämnar 75 % eller tre fjärdedelar av data nedan och de övriga 25 % över.
- Maximum.– Som namnet indikerar är det data med det högsta värdet av hela dataserien. Det vill säga, det är de sista uppgifterna när de är ordnade från lägsta till högsta.
När man tolkar sammanfattningen med fem siffror ger skillnaden mellan minimi- och maximivärdet vad som kallas bredden på dataserien. Å andra sidan visar skillnaden mellan den tredje och första kvartilen, kallad Interquartile Range (RIC), hur spridd data är, eftersom den indikerar värdeintervallet som innehåller 50% av centrala data.
Å andra sidan är den andra kvartilen eller medianen ett mått på central tendens som kan användas för att representera värdet av alla data i serien i ett enda tal. Även om medelvärdet ofta används som ett mått på central tendens i många situationer, erbjuder medianen fördelen av att inte vara känslig för extrema värden (för höga eller för låga).
Boxplots: den grafiska representationen av femnummersammanfattningen
Ett praktiskt sätt att visualisera en sammanfattning av fem siffror är med hjälp av det som kallas en boxplot eller Box Plot . I denna typ av representation representeras det interkvartila området (IQR) som en rektangel eller ruta som sträcker sig från Q1 till Q3, och delas i två av en linje vinkelrät mot mätaxeln i Q2, det vill säga i medianen.
Slutligen, på varje sida av rutan dras linjer parallellt med mätaxeln som sträcker sig från minimum till Q1 och från Q3 till maximum, så länge som minimum och maximum inte är mer än 1,5.RIC av avstånd till vänster och höger om Q1 respektive Q3. Dessa laterala linjer är så kallade morrhår i lådan. Om det finns data utanför intervallet som avgränsas av Q1 – 1.5.RIC och Q3 + 1.5.RIC, så sträcker sig sidorna (ibland kallade morrhår) till data längst bort från rutan som är inuti det intervallet, och resten är markerade som extremvärden.
Exempel på förberedelse av sammanfattningen av fem siffror för en serie data
Därefter presenteras proceduren, steg för steg, för utarbetandet av en sammanfattning av fem siffror från en uppsättning statistiska data. Dessutom förklarar den hur man bygger boxplotten för visualisering av denna sammanfattning i grafisk form.
Uppgifterna motsvarar antalet sålda varor på damavdelningen i ett varuhus under en 10-veckorsperiod. Resultaten av studien presenteras nedan:
måndag | tisdag | onsdag | torsdag | fredag | lördag | söndag | |
Vecka 1 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
vecka 2 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
Vecka 3 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
vecka 4 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
vecka 5 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
vecka 6 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
vecka 7 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
vecka 8 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
vecka 9 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
vecka 10 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
Steg 1: Sortera alla data från minsta till största och tilldela dem ett index som börjar med 1.
Resultatet av detta steg presenteras nedan:
Index | Värde | Index | Värde | Index | Värde | Index | Värde |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | Fyra fem | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | femtio | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
elva | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 3. 4 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
femton | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
tjugo | 152 | 41 | 158 | 62 | 166 | ||
tjugoett | 152 | 42 | 158 | 63 | 167 |
Steg 2: Bestäm kvartilerna för Q1 och Q3
För att bestämma Q1, Q2 och Q3 kvartilerna börjar vi med att beräkna ett index för de data som motsvarar varje kvartil. Formeln är följande:
Där N är det totala antalet data. Denna beräkning kan vara heltal eller inte, så proceduren är uppdelad i två fall:
Fall 1: Heltalsresultat
Om resultatet är heltal, kommer respektive kvartil att vara värdet på de data som indexet motsvarar. Till exempel, om indexet för Q1 ger 10, betyder det att Q1 kommer att vara värdet på data nummer 10 (149 i vårt exempel).
Fall 2: Decimalresultat
Om indexet är ett decimaltal, kommer kvartilen inte exakt att motsvara någon av data som finns i serien. I det här fallet avrundas resultatet nedåt och kvartilen beräknas från dessa data och den som följer den, med hjälp av följande formel:
Där d representerar decimaldelen av indexet, x i är data med index avrundat nedåt, och x i+1 är nästa datapunkt.
I fallet med vårt exempel är detta resultatet av att beräkna indexen för de tre kvartilerna:
I alla fall var resultatet ett decimaltal, så nu tillämpar vi formeln från fall 2 för att bestämma värdet på varje kvartil:
Steg 3: Identifiera de fem siffrorna
Nu när vi har ordnat data och vi också har bestämt värdena för de tre kvartilerna, är sammanfattningen av de fem talen:
Minimum: | 145 |
Q1: | 152 |
Q2 eller median: | 157 |
Q3: | 162,25 |
Maximal: | 170 |
Steg 4: Konstruera boxplotten
Vi har redan allt som behövs för att bygga boxplotten förutom RIC. Baserat på resultatet som erhölls i föregående steg är skillnaden mellan Q3 och Q1:
För att avgöra om det finns extremvärden, beräknar vi Q1 – 1,5 IQR och Q3 + 1,5 IQR och jämför med minimum och maximum:
Som vi kan se finns det inga extremvärden eftersom minimum, 140, är större än 136 625. Det finns heller inga extremvärden eftersom maxvärdet, 170, är mindre än 177 625.
Följande figur visar resultatet av att bygga boxplotten som motsvarar exemplet:
Referenser
Hur man sammanställer en femsiffrig sammanfattning av ett statistiskt urval . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
McAdams, D. (2009, 4 mars). Sammanfattning av fem nummer. Livet är en berättelse Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html
Serra, BR (2020, 22 november). median . Universums formler. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
Serra, BR (2021, 4 augusti). kvartiler . Universums formler. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example
Zentica Global. (nd). Brutalk – Hur man beräknar sammanfattningen med 5 siffror för dina data i Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56