Tabla de Contenidos
Statistica descriptivă ne permite să rezumam un set de date într-un număr mic de numere sau măsuri care servesc la descrierea modului în care sunt distribuite acele date. Există diferite măsuri care servesc pentru a descrie tendința centrală a datelor, dispersia lor și forma curbelor de distribuție, dintre care unele se găsesc în rezumatul cu cinci numere.
Care este rezumatul cu cinci numere?
Pe baza celor de mai sus, rezumatul de cinci numere poate fi definit ca un set de cinci masuri sau statistici legate de un set de date care permit descrierea intr-un mod foarte simplu a amplitudinii multimii, dispersiei acestuia. De asemenea, oferă o măsură a tendinței sale centrale. În plus, rezumatul cu cinci numere poate fi reprezentat și grafic, ceea ce face ușoară vizualizarea acestor caracteristici ale unui set de date, permițând în același timp să fie ușor comparat cu alte seturi de date aferente.
Care sunt cele cinci numere și ce înseamnă ele?
Rezumatul de cinci cifre este alcătuit din valoarea minimă, cele trei quartile și valoarea maximă a unei serii de date statistice. Quartilele sunt acele date sau valori care împart setul ordonat al tuturor datelor în patru subgrupe cu același număr de elemente . Astfel, dacă avem un set de 100 de date, quartilele sunt acele date sau valori care împart setul în 4 subseturi a câte 25 de date fiecare.
Quartilele sunt denumite în ordinea în care apar, de la cel mai mic la cel mai mare, cum ar fi primul, al doilea și al treilea quartile. În plus, ele sunt reprezentate de litera majusculă Q urmată de numărul care indică poziția lor ordinală. Prin definiția sa, a doua cuartilă, Q2, este cunoscută și ca mediana sau punctul de mijloc al datelor . Nu trebuie confundat cu media, care este media aritmetică a datelor.
Pe lângă cele trei quartile (Q1, Q2 și Q3), rezumatul cu cinci numere include și valoarea minimă a datelor, ordonată de la cel mai mic la cel mai mare și valoarea maximă. Cu alte cuvinte, cele cinci numere din acest rezumat sunt:
- Minimum.– Este prima valoare a unui set de date statistice ordonate de la cel mai mic la cel mai mare. Sunt datele cu cea mai mică valoare.
- Q1 sau primul quartile.– Este acea dată sau valoare care împarte setul de date, lăsând 25% (sau un sfert) dintre ele mai jos și celelalte 75% deasupra.
- Q2 sau a doua cuartilă.– Este datele sau valoarea care împarte setul de date în două grupuri egale. Adică este valoarea care lasă 50% din date atât sub cât și deasupra acesteia, deci reprezintă și mediana sau punctul de mijloc al datelor.
- Q3 sau a treia quartila.– Acestea sunt datele sau valoarea care lasă 75% sau trei sferturi din datele de mai jos și celelalte 25% mai sus.
- Maximum.– După cum indică numele, este datele cu cea mai mare valoare din întreaga serie de date. Adică sunt ultimele date când sunt ordonate de la cel mai mic la cel mai mare.
La interpretarea rezumatului cu cinci numere, diferența dintre valoarea minimă și cea maximă oferă ceea ce este cunoscut sub numele de lățimea seriei de date. Pe de altă parte, diferența dintre al treilea și primul quartile, numit Interquartile Range (RIC), ne arată cât de dispersate sunt datele, deoarece indică intervalul de valori care conține 50% din datele centrale.
Pe de altă parte, a doua cuartilă sau mediana este o măsură a tendinței centrale care poate fi utilizată pentru a reprezenta valoarea tuturor datelor din serie într-un singur număr. Deși media este adesea folosită ca măsură a tendinței centrale în multe situații, mediana oferă avantajul de a nu fi sensibilă la valorile extreme (prea mari sau prea scăzute).
Box plots: reprezentarea grafică a rezumatului cu cinci numere
O modalitate practică de a vizualiza un rezumat de cinci numere este prin intermediul a ceea ce se numește box plot sau Box Plot . În acest tip de reprezentare, intervalul intercuartil (IQR) este reprezentat ca un dreptunghi sau cutie care se întinde de la Q1 la Q3, și este împărțit în două printr-o linie perpendiculară pe axa de măsurare situată în Q2, adică în mediană.
În sfârșit, pe fiecare parte a casetei sunt trasate linii paralele cu axa de măsurare care se extind de la minim la Q1 și de la Q3 la maxim, atâta timp cât minimul și maximul nu sunt mai mari de 1,5.RIC de distanță la stânga și dreapta Q1 și, respectiv, Q3. Aceste linii laterale sunt ceea ce sunt cunoscute sub numele de mustățile cutiei. Dacă există date în afara intervalului delimitat de Q1 – 1.5.RIC și Q3 + 1.5.RIC, atunci părțile laterale (uneori numite mustăți) se extind până la datele cele mai îndepărtate de caseta care se află în interiorul acelui interval, iar restul sunt marcate ca valori aberante.
Exemplu de pregătire a rezumatului de cinci numere pentru o serie de date
În continuare, este prezentată, pas cu pas, procedura pentru elaborarea unui rezumat de cinci numere dintr-un set de date statistice. În plus, explică cum să construiți diagrama cu casete pentru vizualizarea acestui rezumat în formă grafică.
Datele corespund numărului de articole vândute în departamentul de femei al unui magazin universal pe o perioadă de 10 săptămâni. Rezultatele studiului sunt prezentate mai jos:
luni | marţi | miercuri | joi | vineri | sâmbătă | duminică | |
Saptamana 1 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
saptamana 2 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
Săptămâna 3 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
saptamana 4 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
saptamana 5 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
saptamana 6 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
saptamana 7 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
saptamana 8 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
saptamana 9 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
saptamana 10 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
Pasul 1: Sortați toate datele de la cel mai mic la cel mai mare și atribuiți-le un index care începe cu 1.
Rezultatul acestui pas este prezentat mai jos:
Index | In valoare de | Index | In valoare de | Index | In valoare de | Index | In valoare de |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | Patru cinci | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | cincizeci | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
unsprezece | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 3. 4 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
cincisprezece | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
douăzeci | 152 | 41 | 158 | 62 | 166 | ||
douăzeci și unu | 152 | 42 | 158 | 63 | 167 |
Pasul 2: Determinați quartilele Q1 și Q3
Pentru a determina quartilele Q1, Q2 și Q3, începem prin a calcula un indice pentru datele corespunzătoare fiecărui cuartil. Formula este următoarea:
Unde N este numărul total de date. Acest calcul poate fi întreg sau nu, deci procedura este împărțită în două cazuri:
Cazul 1: rezultat întreg
Dacă rezultatul este întreg, atunci quartila respectivă va fi valoarea datelor cărora le corespunde indicele. De exemplu, dacă indicele lui Q1 dă 10, aceasta înseamnă că Q1 va fi valoarea datelor cu numărul 10 (149 în exemplul nostru).
Cazul 2: rezultat zecimal
Dacă indicele este un număr zecimal, atunci quartila nu va corespunde exact cu niciuna dintre datele prezente în serie. În acest caz, rezultatul se rotunjește în jos și se calculează quartila din aceste date și cele care îi urmează, folosind următoarea formulă:
Unde d reprezintă partea zecimală a indexului, x i este datele cu indicele rotunjit în jos, iar x i+1 este următorul punct de date.
În cazul exemplului nostru, acesta este rezultatul calculării indicilor celor trei quartile:
În toate cazurile, rezultatul a fost un număr zecimal, așa că acum aplicăm formula din cazul 2 pentru a determina valoarea fiecărui cuartil:
Pasul 3: Identificați cele cinci numere
Acum că avem datele ordonate și am determinat și valorile celor trei quartile, rezumatul celor cinci numere este:
Minim: | 145 |
Î1: | 152 |
Q2 sau mediană: | 157 |
Q3: | 162,25 |
Maxim: | 170 |
Pasul 4: Construiți boxplot
Avem deja tot ce este necesar pentru a construi boxplot-ul, cu excepția RIC-ului. Pe baza rezultatului obținut în pasul anterior, diferența dintre Q3 și Q1 este:
Pentru a determina dacă există valori aberante, calculăm Q1 – 1,5 IQR și Q3 + 1,5 IQR și comparăm cu minim și maxim:
După cum putem vedea, nu există valori aberante, deoarece minimul, 140, este mai mare de 136.625. De asemenea, nu există valori aberante, deoarece maximul, 170, este mai mic de 177.625.
Următoarea figură arată rezultatul construirii diagramei cu casete corespunzător exemplului:
Referințe
Cum să asamblați un rezumat de cinci cifre al unui eșantion statistic . (nd). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
McAdams, D. (2009, 4 martie). Rezumat de cinci numere. Viața este o poveste Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html
Serra, BR (22 noiembrie 2020). mediană . Formulele Universului. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
Serra, BR (2021, 4 august). quartile . Formulele Universului. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example
Zentica Global. (nd). Brutalk – Cum se calculează rezumatul cu 5 numere pentru datele tale în Python . Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56