Vad är femnummersammanfattningen i statistik?

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.


Beskrivande statistik gör att vi kan sammanfatta en datamängd i ett litet antal siffror eller mått som tjänar till att beskriva hur denna data är fördelad. Det finns olika mått som tjänar till att beskriva uppgifternas centrala tendens, dess spridning och formen på fördelningskurvorna, av vilka några återfinns i femnummersammanfattningen.

Vad är sammanfattningen med fem siffror?

Baserat på ovanstående kan sammanfattningen av fem siffror definieras som en uppsättning av fem mått eller statistik relaterad till en datauppsättning som gör det möjligt att på ett mycket enkelt sätt beskriva uppsättningens amplitud, dess spridning. Det ger också ett mått på dess centrala tendens. Dessutom kan den femsiffriga sammanfattningen också representeras grafiskt, vilket gör det enkelt att visualisera dessa egenskaper hos en datamängd, samtidigt som den enkelt kan jämföras med andra relaterade datamängder.

Vilka är de fem siffrorna och vad betyder de?

Sammanfattningen med fem siffror består av minimivärdet, de tre kvartilerna och maximivärdet för en serie statistiska data. Kvartiler är de data eller värden som delar upp den ordnade uppsättningen av all data i fyra undergrupper med samma antal element . Således, om vi har en uppsättning av 100 data, är kvartilerna de data eller värden som delar upp uppsättningen i 4 delmängder med 25 data vardera.

Kvartilerna är namngivna i den ordning de visas, från lägsta till högsta, såsom första, andra och tredje kvartilen. Dessutom representeras de av den stora bokstaven Q följt av siffran som anger deras ordningsposition. Enligt definitionen är den andra kvartilen, Q2, också känd som median eller mittpunkt för data . Det ska inte förväxlas med medelvärdet, som är det aritmetiska medelvärdet av data.

Förutom de tre kvartilerna (Q1, Q2 och Q3) innehåller femnummersammanfattningen även minimivärdet för data, sorterat från minsta till största, och det maximala värdet. Med andra ord, de fem siffrorna i denna sammanfattning är:

  • Minimum.– Det är det första värdet av en uppsättning statistiska data sorterad från lägsta till högsta. Det är den lägsta värdedatan.
  • Q1 eller första kvartilen.– Det är den datan eller värdet som delar upp datamängden och lämnar 25 % (eller en fjärdedel) av dem under och de andra 75 % över.
  • Q2 eller andra kvartilen.– Det är data eller värde som delar upp datamängden i två lika stora grupper. Det vill säga att det är värdet som lämnar 50 % av datan både under och ovanför det, så det representerar också medianen eller mittpunkten av datan.
  • Q3 eller tredje kvartilen.– Detta är data eller värde som lämnar 75 % eller tre fjärdedelar av data nedan och de övriga 25 % över.
  • Maximum.– Som namnet indikerar är det data med det högsta värdet av hela dataserien. Det vill säga, det är de sista uppgifterna när de är ordnade från lägsta till högsta.

När man tolkar sammanfattningen med fem siffror ger skillnaden mellan minimi- och maximivärdet vad som kallas bredden på dataserien. Å andra sidan visar skillnaden mellan den tredje och första kvartilen, kallad Interquartile Range (RIC), hur spridd data är, eftersom den indikerar värdeintervallet som innehåller 50% av centrala data.

Å andra sidan är den andra kvartilen eller medianen ett mått på central tendens som kan användas för att representera värdet av alla data i serien i ett enda tal. Även om medelvärdet ofta används som ett mått på central tendens i många situationer, erbjuder medianen fördelen av att inte vara känslig för extrema värden (för höga eller för låga).

Boxplots: den grafiska representationen av femnummersammanfattningen

Ett praktiskt sätt att visualisera en sammanfattning av fem siffror är med hjälp av det som kallas en boxplot eller Box Plot . I denna typ av representation representeras det interkvartila området (IQR) som en rektangel eller ruta som sträcker sig från Q1 till Q3, och delas i två av en linje vinkelrät mot mätaxeln i Q2, det vill säga i medianen.

Slutligen, på varje sida av rutan dras linjer parallellt med mätaxeln som sträcker sig från minimum till Q1 och från Q3 till maximum, så länge som minimum och maximum inte är mer än 1,5.RIC av avstånd till vänster och höger om Q1 respektive Q3. Dessa laterala linjer är så kallade morrhår i lådan. Om det finns data utanför intervallet som avgränsas av Q1 – 1.5.RIC och Q3 + 1.5.RIC, så sträcker sig sidorna (ibland kallade morrhår) till data längst bort från rutan som är inuti det intervallet, och resten är markerade som extremvärden.

Exempel på förberedelse av sammanfattningen av fem siffror för en serie data

Därefter presenteras proceduren, steg för steg, för utarbetandet av en sammanfattning av fem siffror från en uppsättning statistiska data. Dessutom förklarar den hur man bygger boxplotten för visualisering av denna sammanfattning i grafisk form.

Uppgifterna motsvarar antalet sålda varor på damavdelningen i ett varuhus under en 10-veckorsperiod. Resultaten av studien presenteras nedan:

måndag tisdag onsdag torsdag fredag lördag söndag
Vecka 1 158 145 156 156 164 167 147
vecka 2 161 146 157 152 162 160 153
Vecka 3 152 150 157 155 164 166 152
vecka 4 150 149 153 162 169 162 149
vecka 5 157 152 154 155 168 161 155
vecka 6 157 145 160 164 164 168 149
vecka 7 160 152 151 152 168 163 145
vecka 8 157 152 155 156 162 169 155
vecka 9 160 148 157 150 164 170 154
vecka 10 158 146 163 158 165 169 150

Steg 1: Sortera alla data från minsta till största och tilldela dem ett index som börjar med 1.

Resultatet av detta steg presenteras nedan:

Index Värde Index Värde Index Värde Index Värde
1 145 22 152 43 158 64 168
2 145 23 153 44 160 65 168
3 145 24 153 Fyra fem 160 66 168
4 146 25 154 46 160 67 169
5 146 26 154 47 160 68 169
6 147 27 155 48 161 69 169
7 148 28 155 49 161 70 170
8 149 29 155 femtio 162
9 149 30 155 51 162
10 149 31 155 52 162
elva 150 32 156 53 162
12 150 33 156 54 163
13 150 3. 4 156 55 163
14 150 35 157 56 164
femton 151 36 157 57 164
16 152 37 157 58 164
17 152 38 157 59 164
18 152 39 157 60 164
19 152 40 157 61 165
tjugo 152 41 158 62 166
tjugoett 152 42 158 63 167

Steg 2: Bestäm kvartilerna för Q1 och Q3

För att bestämma Q1, Q2 och Q3 kvartilerna börjar vi med att beräkna ett index för de data som motsvarar varje kvartil. Formeln är följande:

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Där N är det totala antalet data. Denna beräkning kan vara heltal eller inte, så proceduren är uppdelad i två fall:

Fall 1: Heltalsresultat

Om resultatet är heltal, kommer respektive kvartil att vara värdet på de data som indexet motsvarar. Till exempel, om indexet för Q1 ger 10, betyder det att Q1 kommer att vara värdet på data nummer 10 (149 i vårt exempel).

Fall 2: Decimalresultat

Om indexet är ett decimaltal, kommer kvartilen inte exakt att motsvara någon av data som finns i serien. I det här fallet avrundas resultatet nedåt och kvartilen beräknas från dessa data och den som följer den, med hjälp av följande formel:

Fem nummer Sammanfattning

Där d representerar decimaldelen av indexet, x i är data med index avrundat nedåt, och x i+1 är nästa datapunkt.

I fallet med vårt exempel är detta resultatet av att beräkna indexen för de tre kvartilerna:

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Fem nummer Sammanfattning

I alla fall var resultatet ett decimaltal, så nu tillämpar vi formeln från fall 2 för att bestämma värdet på varje kvartil:

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Steg 3: Identifiera de fem siffrorna

Nu när vi har ordnat data och vi också har bestämt värdena för de tre kvartilerna, är sammanfattningen av de fem talen:

Minimum: 145
Q1: 152
Q2 eller median: 157
Q3: 162,25
Maximal: 170

Steg 4: Konstruera boxplotten

Vi har redan allt som behövs för att bygga boxplotten förutom RIC. Baserat på resultatet som erhölls i föregående steg är skillnaden mellan Q3 och Q1:

Fem nummer Sammanfattning

För att avgöra om det finns extremvärden, beräknar vi Q1 – 1,5 IQR och Q3 + 1,5 IQR och jämför med minimum och maximum:

Fem nummer Sammanfattning

Fem nummer Sammanfattning

Som vi kan se finns det inga extremvärden eftersom minimum, 140, är ​​större än 136 625. Det finns heller inga extremvärden eftersom maxvärdet, 170, är ​​mindre än 177 625.

Följande figur visar resultatet av att bygga boxplotten som motsvarar exemplet:

Fem nummer Sammanfattning

Referenser

Hur man sammanställer en femsiffrig sammanfattning av ett statistiskt urval . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4 mars). Sammanfattning av fem nummer. Livet är en berättelse Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, BR (2020, 22 november). median . Universums formler. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, BR (2021, 4 augusti). kvartiler . Universums formler. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example

Zentica Global. (nd). Brutalk – Hur man beräknar sammanfattningen med 5 siffror för dina data i Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56

-Annons-

Israel Parada (Licentiate,Professor ULA)
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados