Tabla de Contenidos
În statistica descriptivă există o serie de măsuri care ne permit să observăm diferite aspecte generale ale datelor unei populații. Unele sunt folosite pentru a măsura tendința centrală a datelor, în timp ce altele caută să dea o idee despre variabilitatea sau dispersia datelor, adică modul în care datele sunt distribuite în jurul acestei tendințe centrale.
Două măsuri importante ale variabilității sau dispersiei sunt varianța și abaterea standard. Aceste două măsuri sunt strâns legate între ele, cu toate acestea, există două versiuni ale varianței și două versiuni corespunzătoare ale abaterii standard, și anume populația și eșantionul.
Populație vs. eșantion de rezumate statistice
Este de remarcat un fapt de mare importanță și anume că, în statistică, există în general două versiuni ale fiecăreia dintre măsurile care sintetizează comportamentul unei serii de date și care sunt utilizate în contexte diferite.
Pentru început, trebuie să facem distincția între datele dintr-o populație (sau date despre populație) și datele dintr-un subset al acelei populații, numit eșantion. Deși datele privind populația și datele eșantionului nu se pot distinge din punct de vedere matematic, conceptual sunt foarte diferite.
recensămintele populației
Datele privind populația sunt date obținute printr-un recensământ statistic, adică măsurarea sau analiza fiecărui element sau individ care alcătuiește o populație (atâta timp cât este finită, desigur). Când calculăm măsuri de tendință centrală sau dispersie pentru datele populației, obținem măsuri care rezumă comportamentul general al populației, pe care îi numim parametrii populației și care sunt valori fixe pentru o populație (adică o populație are o singură medie). , un mod, o abatere standard etc. la un moment dat). În acest caz, folosim statistici descriptive .
Prelevarea de probe
Pe de altă parte, în multe situații diferite, efectuăm un proces de eșantionare pentru a analiza doar unele elemente ale populației, obținând astfel date de eșantion. În aceste cazuri, putem folosi și instrumentele statisticii descriptive pentru a observa comportamentul general al acestor date, cu toate acestea, nu facem de fapt statistici descriptive asupra populației, ci doar pe eșantion.
Rezumatele numerice ale eșantionului nu sunt parametri, ci se numesc statistici (deși unii le numesc și statistici). Spre deosebire de parametri, statisticile variază de la un eșantion la altul , chiar dacă eșantioanele sunt extrase din aceeași populație. Acest lucru se datorează faptului că, la selectarea unui subset al populației, există multe combinații posibile de elemente care pot alcătui eșantionul. Din acest motiv, în general, eșantioanele sunt alcătuite din diferiți subiecți, indivizi sau elemente, dând naștere la diferite statistici.
Obiectivul final al calculării acestor statistici pe eșantion este acela de a le putea folosi ca estimatori ai parametrilor populației respectivi. Acest proces de deducere sau estimare a comportamentului datelor populației din datele eșantionului este responsabilă pentru statisticile inferențiale . Acest lucru face ca variațiile populației și ale eșantionului și abaterile standard să fie esențial diferite.
Dar ce sunt exact varianța și abaterea standard?
Care este varianța?
Varianta este o măsură a dispersiei față de media unui set de date. Este definită ca media abaterilor pătrate ale tuturor datelor de la medie. Fiind o medie a diferențelor pătrate, este întotdeauna o cantitate pozitivă.
Care este abaterea standard?
Pe de altă parte, abaterea standard este pur și simplu rădăcina pătrată pozitivă a varianței. De asemenea, măsoară dispersia în jurul mediei, doar că o face în termeni de aceleași unități ale datelor și ale mediei. Acest lucru face mai ușor de înțeles și interpretat decât variația.
Deoarece abaterea standard este calculată ca rădăcină pătrată a varianței, nu are sens să vorbim despre populație și abaterea standard a eșantionului fără a vorbi despre populație și varianța eșantionului.
Cele mai importante diferențe dintre aceste măsuri comune de dispersie în jurul mediei vor fi descrise în detaliu în secțiunile următoare.
Diferența 1: Abaterile și variațiile standard ale populației și ale eșantionului sunt reprezentate prin simboluri diferite
Prima diferență de luat în considerare atunci când se compară varianța populației și eșantionului și abaterea standard a populației și eșantionului este simbolul utilizat pentru a le reprezenta. În statistici, rezumatele numerice sau parametrii populației sunt de obicei reprezentați cu litere grecești , în timp ce versiunile eșantion sau statistice sunt reprezentate de litere echivalente ale alfabetului latin .
În acest sens, varianța și abaterea standard a populației sunt ambele asociate cu litera greacă minusculă sigma, în timp ce versiunile eșantionului sunt reprezentate de litera s . Adică , varianța populației este σ 2 și abaterea standard a populației este σ , în timp ce varianța eșantionului este reprezentată de s 2 și abaterea standard a eșantionului este reprezentată de s .
Diferența 2: Sunt calculate prin intermediul diferitelor formule
Atât populația, cât și abaterea standard a eșantionului sunt calculate ca rădăcină pătrată pozitivă a varianței respective, adică:
Cu toate acestea, variațiile populației și ale eșantionului sunt calculate folosind formule ușor diferite. În cazul varianței populației, aceasta este calculată ca media abaterilor pătrate ale fiecărei date în raport cu media populației. Adică, se calculează prin una dintre următoarele expresii echivalente:
Unde x i reprezintă valoarea fiecărui element de date din populație, μ reprezintă media populației și N este dimensiunea populației. Prin urmare, abaterea standard a populației este calculată astfel:
În schimb, în loc să se împartă la numărul de puncte de date, n , așa cum ar fi de așteptat, varianța eșantionului este calculată împărțind suma abaterilor pătrate de la media eșantionului la n – 1 . Cu alte cuvinte, varianța eșantionului se calculează astfel:
Unde x i reprezintă valoarea fiecărui element de date din eșantion, x̄ reprezintă media eșantionului și n este dimensiunea eșantionului. Având în vedere cele de mai sus, abaterea standard a eșantionului se calculează astfel:
Justificare pentru împărțirea la n – 1 în loc de n
O întrebare frecventă care apare atunci când se compară abaterile standard ale populației și ale eșantionului este de ce se împarte la n – 1 și nu la n ? Motivul este foarte simplu.
După cum sa menționat anterior, calculul unor statistici precum abaterea standard a eșantionului urmărește stabilirea unor estimatori cât mai apropiați de parametrii populației respectivi. Aceasta înseamnă că abaterea standard a eșantionului trebuie calculată în așa fel încât rezultatul să fie cât mai aproape de abaterea standard a populației.
Acest lucru ar sugera că ar trebui să fie calculate cu formule echivalente, dar nu este întotdeauna cazul. Problema este că abaterea standard a eșantionului măsoară răspândirea în jurul mediei eșantionului, nu media populației. Deși media eșantionului este o statistică care este utilizată ca estimator al mediei populației, nu este exact egală cu aceasta. Acest lucru face ca valorile individuale din fiecare eșantion să fie mai aproape de media eșantionului (care este, de fapt, măsura tendinței centrale pentru acele date) decât de media populației. Datorită,
Pentru a corecta această discrepanță, o unitate este scăzută din numitor pentru a face abaterea standard a eșantionului mai mare și, prin urmare, mai aproape de abaterea standard a populației.
Diferența 3: rareori sunt la fel
Indiferent de corecțiile care pot fi făcute abaterii standard ale eșantionului, aceasta este rareori egală cu abaterea standard a populației. Acest lucru se datorează faptului că, în cadrul unei populații, datele pot varia în mod aleatoriu, astfel încât eșantioane diferite vor avea ca rezultat abateri standard diferite ale eșantionului. De fapt, există o întreagă distribuție a valorilor posibile ale abaterilor standard ale eșantionului în funcție de dimensiunea eșantionului.
Diferența 4: Abaterea standard a eșantionului poate fi întotdeauna cunoscută sau determinată, în timp ce abaterea standard a populației nu este aproape niciodată cunoscută cu certitudine.
O altă diferență importantă între aceste două măsuri de dispersie este că deviația standard a populației (și într-adevăr orice parametru al populației) este rareori cunoscută. Acest lucru se datorează, în unele cazuri, unor limitări tehnice sau economice, deoarece este foarte costisitor și, în plus, este puțin probabil să poată măsura absolut toate datele unei populații. În alte cazuri, determinarea parametrilor populației este pur și simplu imposibilă, fie pentru că populația este infinită, fie pur și simplu pentru că nu avem acces la toate elementele care o compun.
Cu alte cuvinte, aproape niciodată nu cunoaștem toate N valorile lui x i dintr-o populație, ceea ce face imposibilă calcularea mediei populației, a varianței și, prin extensie, a abaterii standard. Cel mai bine putem ajunge să știm este o estimare punctuală a unui parametru, cum ar fi abaterea standard, sau un interval de valori în care avem un anumit nivel de încredere că se află abaterea standard sau alt parametru al populației.
În cazul eșantioanelor, pe de altă parte, cunoaștem toate datele, astfel încât putem calcula întotdeauna abaterea standard a oricărui eșantion, indiferent de dimensiunea acestuia.
Rezumatul diferențelor dintre populație și abaterile standard ale eșantionului
Următorul tabel rezumă diferențele dintre abaterea standard a populației și abaterea standard a eșantionului discutate în secțiunile precedente:
Caracteristică | Abaterea standard a populației | Deviația standard a eșantionului |
Simbol | σ | da |
Este calculat pentru | date privind populația | date mostre |
Ramura de statistică în care este utilizată | Statisticile descriptive | statistici deduse |
Tipul de măsură | Parametru | Statistic |
Formulă | Împărțiți la N, mărimea populației | Împărțiți la n – 1, unde n este dimensiunea eșantionului |
Variabilitate | Este fix pentru o populație dată la un moment dat | Variază de la un eșantion la altul, indiferent dacă eșantioanele sunt de aceeași dimensiune și sunt extrase din aceeași populație |
Certitudine în valoarea sa | Este în general necunoscut. Este disponibilă doar o estimare a acesteia. | Este cunoscut pentru fiecare probă |
Referințe
Centre de învățare comunitare. (nd). Abaterea standard . http://www.cca.org.mx/cca/cursos/estadistica/html/m11/desviacion_estandar.htm
Levy Sarfin, R. (sf). Care este diferența dintre eșantion și abaterea standard a populației ? Vocea. https://pyme.lavoztx.com/what-is-the-difference-entre-la-sample-and-the-standard-deviation-of-the-population-5641.html
MateMobile. (2021, 1 ianuarie). Varianta și abaterea standard, exemple și exerciții . https://matemovil.com/varianza-y-desviacion-estandar-ejemplos-y-ejercicios/
Molina, M. (27 ianuarie 2016). De ce să rezervi unul? Estimarea parametrilor populaţiei . Anestezia. https://anestesiar.org/2016/por-que-sobra-uno-estimando-parametros-de-la-poblacion/
Serra, BR (26 octombrie 2020). Abatere tipică sau standard . Formulele Universului. https://www.universoformulas.com/estadistica/descriptiva/desviacion-típica/