A sokaság és a minta szórása közötti különbségek

Tabla de Contenidos

A leíró statisztikában egy sor olyan intézkedés létezik, amelyek lehetővé teszik egy populáció adatainak különböző általános szempontjainak megfigyelését. Egyesek az adatok központi tendenciájának mérésére szolgálnak, míg mások az adatok változékonyságáról vagy szóródásáról, vagyis arról, hogyan oszlanak meg az adatok a központi tendencia körül.

A variabilitás vagy szóródás két fontos mérőszáma a variancia és a szórás. Ez a két mérőszám szorosan összefügg egymással, azonban a variancia két változata és a szórásnak két megfelelő változata létezik, a sokaság és a minta.

Népesség vs. Statisztikai összefoglalók minta

Érdemes megjegyezni egy nagyon fontos tényt, vagyis azt, hogy a statisztikában általában minden mérőszámnak két-két változata létezik, amelyek összefoglalják egy adatsor viselkedését, és amelyeket különböző kontextusban használnak.

Először is különbséget kell tennünk a sokaságból származó adatok (vagy populációs adatok) és a sokaság egy részhalmazából, az úgynevezett mintából származó adatok között. Bár a populációs adatok és a mintaadatok matematikailag megkülönböztethetetlenek, fogalmilag nagyon különböznek egymástól.

népszámlálások

A népesedési adatok statisztikai összeírással nyert adatok, vagyis a populációt alkotó minden egyes elem vagy egyed mérése vagy elemzése (természetesen mindaddig, amíg véges). Amikor a népességadatok központi tendenciájának vagy szórásának mértékét számítjuk ki, akkor a populáció általános viselkedését összegző mérőszámokat kapunk, amelyeket populációs paramétereknek nevezünk , és amelyek egy populáció fix értékei (vagyis egy populációnak csak egy átlaga van). , egy mód, egy szórás stb. adott időpontban). Ebben az esetben leíró statisztikákat használunk .

Mintavétel

Másrészt sok különböző helyzetben végzünk mintavételi eljárást, hogy a sokaságnak csak egyes elemeit elemezzük, így nyerünk mintaadatokat. Ezekben az esetekben a leíró statisztika eszközeivel is megfigyelhetjük ezen adatok általános viselkedését, de valójában nem a sokaságról készítünk leíró statisztikát, csak a mintán.

A minta numerikus összefoglalói nem paraméterek, hanem statisztikának nevezik (bár egyesek statisztikának is nevezik). A paraméterekkel ellentétben a statisztikák mintánként változnak , még akkor is, ha a mintákat ugyanabból a sokaságból vették. Ennek az az oka, hogy a sokaság egy részhalmazának kiválasztásakor számos lehetséges elemkombináció lehetséges, amelyek a mintát alkothatják. Emiatt általában a minták különböző alanyokból, személyekből vagy elemekből állnak, ami eltérő statisztikákat eredményez.

E statisztikák mintán történő kiszámításának végső célja az, hogy ezeket a megfelelő sokaságparaméterek becsléseiként lehessen használni. A populációs adatok viselkedésének mintaadatokból történő levezetésének vagy becslésének folyamata az, amiért a következtetési statisztika felelős . Ezáltal a sokaság és a minta szórása és szórása alapvetően különbözik.

De mi is pontosan a variancia és a szórás?

Mi az eltérés?

A variancia az adathalmaz átlagától való diszperzió mértéke. Ez az összes adat átlagtól való négyzetes eltérésének átlaga. Mivel a különbségek négyzetes átlaga, ez mindig pozitív mennyiség.

Mi a szórás?

Másrészt a szórás egyszerűen a variancia pozitív négyzetgyöke. Az átlag körüli diszperziót is méri, csak az adatok és az átlag azonos egységeiben teszi ezt. Így könnyebben érthető és értelmezhető, mint az eltérés.

Mivel a szórást a variancia négyzetgyökeként számítjuk ki, nincs értelme a sokaságról és a minta szórásáról beszélni anélkül, hogy ne beszélnénk a sokaságról és a minta varianciájáról.

Az átlag körüli diszperzió ezen általános mérőszámai közötti legfontosabb különbségeket a következő szakaszokban részletesen ismertetjük.

1. különbség: A populáció és a minta szórását és szórását különböző szimbólumok jelölik

Az első különbség, amelyet figyelembe kell venni a sokaság és a minta variancia, valamint a sokaság és a minta szórásának összehasonlításakor, az ezek ábrázolására használt szimbólum. A statisztikában a populáció számszerű összegzéseit vagy paramétereit általában görög betűkkel ábrázolják , míg a minta- vagy statisztikai változatokat a latin ábécé megfelelő betűivel jelölik .

Ebben az értelemben a variancia és a sokaság szórása egyaránt a kisbetűs görög szigmához kapcsolódik, míg a mintaváltozatokat az s betű képviseli . Vagyis a sokaság szórása σ ² és a sokaság szórása σ , míg a minta variancia s ² , a minta szórása pedig s .

2. különbség: Különböző képletek segítségével számítják ki

Mind a sokaság, mind a minta szórása a megfelelő variancia pozitív négyzetgyökeként kerül kiszámításra, azaz:

A sokaság és a minta szórása közötti különbségek

A sokaság és a minta eltéréseit azonban kissé eltérő képletekkel számítják ki. A sokaság variancia esetében ezt az egyes adatok négyzetes eltéréseinek átlagaként számítjuk ki a sokaság átlagához képest. Vagyis a következő egyenértékű kifejezések egyikével számítják ki:

Ahol x _i a sokaság egyes adatelemeinek értékét jelöli, μ a sokaság átlagát, N pedig a sokaság méretét. Ezért a sokaság szórását a következőképpen számítjuk ki:

Ehelyett az n adatpontok számával való elosztása helyett, ahogy az várható lenne, a minta variancia kiszámítása úgy történik, hogy a minta átlagától való eltérések négyzetes összegét elosztjuk n – 1-gyel . Más szavakkal, a minta variancia kiszámítása a következőképpen történik:

Ahol x _i a minta egyes adatelemeinek értékét jelöli, x̄ a minta átlagát, n pedig a minta méretét. A fentiekre tekintettel a minta szórását a következőképpen számítjuk ki:

Indoklás n helyett n – 1-gyel való osztáshoz

Gyakori kérdés a sokaság és a minta szórásának összehasonlításakor, hogy miért osztunk n – 1- gyel és miért nem n-nel ? Az ok nagyon egyszerű.

Amint azt korábban említettük, a statisztikák, például a minta szórásának kiszámítása olyan becsléseket kíván létrehozni, amelyek a lehető legközelebb állnak az adott sokaság paramétereihez. Ez azt jelenti, hogy a minta szórását úgy kell kiszámítani, hogy az eredmény a lehető legközelebb legyen a sokaság szórásához.

Ez azt sugallná, hogy ezeket egyenértékű képletekkel kell kiszámítani, de ez nem mindig van így. A probléma az, hogy a minta szórása a mintaátlag körüli szórást méri, nem a sokaság átlagát. Bár a mintaátlag egy statisztika, amelyet a sokaság átlagának becslésére használnak, nem pontosan egyenlő vele. Ez azt eredményezi, hogy az egyes minták egyéni értékei közelebb állnak a minta átlagához (ami tulajdonképpen az adatok központi tendenciájának mértéke), mint a sokaság átlagához. Esedékes,

Ennek az eltérésnek a kijavításához egy egységet levonunk a nevezőből, hogy a minta szórása nagyobb legyen, és így közelebb kerüljön a sokaság szórásához.

3. különbség: ritkán azonosak

A minta szórásának korrekcióitól függetlenül az ritkán egyezik meg a sokaság szórásával. Ennek az az oka, hogy egy sokaságon belül az adatok véletlenszerűen változhatnak, így a különböző minták eltérő minta szórását eredményezik. Valójában a minta szórásának lehetséges értékeinek teljes eloszlása van a minta méretétől függően.

4. különbség: A minta szórása mindig ismert vagy meghatározható, míg a sokaság szórása szinte soha nem ismert biztosan.

Egy másik fontos különbség a szóródás e két mértéke között az, hogy a populáció szórása (és valójában bármely populációs paraméter) ritkán ismert. Ez bizonyos esetekben technikai vagy gazdasági korlátokra vezethető vissza, mivel nagyon drága, ráadásul nem valószínű, hogy egy populáció abszolút összes adatát mérni lehet vele. Más esetekben a populációs paraméterek meghatározása egyszerűen lehetetlen, vagy azért, mert a sokaság végtelen, vagy egyszerűen azért, mert nem férünk hozzá az azt alkotó összes elemhez.

Más szóval, szinte soha nem ismerjük x _i összes N értékét egy populációban, ami lehetetlenné teszi a sokaság átlagának, a variancia és a szórásának kiszámítását. A legjobb, amit megtudhatunk, egy paraméter pontbecslése, például a szórás, vagy egy olyan értékintervallum, amelyen belül bizonyos mértékű bizonyossággal rendelkezünk a szórás vagy más populációs paraméterek felől.

A minták esetében viszont ismerjük az összes adatot, így mindig ki tudjuk számítani bármely minta szórását, bármilyen nagyságú is legyen.