A regressziós egyenes meredeksége és a korrelációs együttható

Artículo revisado y aprobado por nuestro equipo editorial, siguiendo los criterios de redacción y edición de YuBrain.

A kvantitatív adatok sorozatának statisztikai elemzésekor gyakran szembesülünk páros adatokkal vagy rendezett párokkal. Ezek két különböző változó adatainak felelnek meg, amelyek általában ugyanattól az egyéntől származnak, és ezért kapcsolódnak egymáshoz. Ekkor olyan adatokról van szó, amelyeket nem külön-külön, hanem mindig együtt kell figyelembe venni, mint például egy adott személy magassága és súlya, vagy egy autó tömege és maximális sebessége.

Ha párosítottunk adatokat, a statisztika lehetőséget ad annak megállapítására, hogy van-e kapcsolat e változók között. Ez különösen gyakori a különböző tudományokban, különösen akkor, ha megfigyelhető, hogy az egyik változó viselkedése befolyásolja vagy meghatározza a másik viselkedését. Ezen összefüggések megállapításához a statisztika kétféle eszközt biztosít számunkra: két vagy több változó közötti korrelációs vizsgálatokat és a párosított adatok különböző matematikai modellekhez való igazítását regressziós eljárással.

Lineárisan viselkedő adatokra lineáris regressziós együttható, r számítható, amely azt méri, hogy az adatok milyen lineárisan viselkednek. Másrészt az adatokhoz legjobban illeszkedő egyenes matematikai egyenlete lineáris regresszióval is megkapható. Amikor ezt megtesszük, megkapjuk a regressziós együtthatókat az egyenes metszéspontja és meredeksége formájában.

Ha sok példát nézünk a lineáris regressziós együtthatók és a lineáris regresszióval kapott egyenes meredekségének számításaira, gyorsan észrevesszük, hogy kapcsolat van a két érték között. Különösképpen megjegyezzük, hogy amikor a meredekség negatív, a regressziós együttható is negatív; ha pozitív, akkor az együttható is pozitív, ha pedig a meredekség nulla, akkor a regressziós együttható is.

A regressziós egyenes meredeksége és a korrelációs együttható

A következő részekben megvizsgáljuk, miért történik ez, és mi a valódi kapcsolat e két statisztikai érték között, amelyek szinte mindig kéz a kézben járnak.

Korreláció és regresszió a statisztikában és a tudományban

A korrelációs vizsgálatok egy sor statisztikai adatot szolgáltatnak, például korrelációs és meghatározási együtthatók, amelyek lehetővé teszik két vagy több változó korrelációjának megállapítását. Más szóval, lehetővé teszik annak megállapítását, hogy egy (általában kvantitatív) valószínűségi változó variabilitásának mekkora része magyarázható egy másik valószínűségi változó variabilitásával, ahelyett, hogy saját véletlenszerű variációival magyaráznánk. Ez azt jelenti, hogy lehetővé teszik annak megállapítását, hogy egy vagy több változó variációja mennyire magyarázza egy másik variációját.

Megjegyzendő, hogy a korrelációs vizsgálatok csak két vagy több változó közötti összefüggést látják, de nem adnak közvetlen bizonyítékot az ok-okozatra (vagyis nem teszik lehetővé annak megállapítását, hogy a két változó közül melyik okozza a másik változó változását). ).

Másrészt, ha tudjuk (korrelációs vizsgálaton keresztül) vagy megérzéseink szerint két változó valamilyen módon korrelál, általában egy olyan matematikai modell felállítására törekszünk, amely lehetővé teszi, hogy az egyik változó általános viselkedését a másik függvényeként ábrázoljuk. , lehetővé téve így az egyik változó értékének előrejelzését a másik értéke alapján. Ez egy regressziós folyamatnak köszönhető, amelyen keresztül egy matematikai modell együtthatóit számítják ki, amelyek minimalizálják a megfigyelt adatok (a rendezett párok vagy párosított adatok) és a modell által előrejelzett értékek közötti különbségeket.

Lineáris korreláció és Pearson-féle korrelációs együttható

A korreláció legegyszerűbb esete a lineáris korreláció. Ez akkor fordul elő, ha két mennyiségi változó között lineáris kapcsolat van oly módon, hogy az egyik növekedése esetén a másik vagy mindig azonos arányban nő, vagy mindig ugyanolyan arányban csökken.

A lineáris korrelációs vizsgálatok az adatsorok lineáris korrelációs együtthatójának kiszámításán alapulnak. Számos különböző lineáris korrelációs együttható számítható ki, amelyek közül a leggyakoribbak:

  • Pearson-féle lineáris korrelációs együttható
  • Spearman-féle lineáris korreláció
  • Kendall-féle korreláció

A három közül a legegyszerűbb és egyben a legelterjedtebb a Pearson lineáris korrelációs együttható. Ez akkor használható, ha a párosított adatok megfelelnek a következő feltételeknek:

  • A változók közötti kapcsolat lineáris.
  • Mindkét változó mennyiségi.
  • Mindkét változó normális eloszlást követ (bár egyes szerzők azt állítják, hogy a Pearson-féle korreláció akkor is használható, ha a változók nem illeszkednek tökéletesen a Gauss-haranghoz).
  • A függő változónak vett változó (amelyet az Y tengelyen ábrázolunk) varianciája állandó a független változó (az X tengelyen lévő) különböző értékeire.

Ha ezek a feltételek teljesülnek, kiszámíthatjuk a Pearson-korrelációs együtthatót, hogy meghatározzuk, mennyire jó a lineáris korreláció a két változó között.

Ha ismerjük mindkét változó (s 2 x ys 2 y ) és a kovariancia (Cov x,y os xy ) szórását, akkor a következő képlettel számíthatjuk ki a sokaság (ρ xy ) Pearson-együtthatóját:

A regressziós egyenes meredeksége és a korrelációs együttható

A legelterjedtebb viszont, hogy nem ismerjük a sokaság összes adatát, csak egy mintával rendelkezünk. Ebben az esetben kiszámíthatjuk a minta Pearson korrelációs együtthatóját, amely a sokaság becslése. Kiszámítása a következő képlettel történik:

A regressziós egyenes meredeksége és a korrelációs együttható

Ahol r a korrelációs együttható, x̅ az x változó mintaátlaga, y̅ az y változó mintaátlaga, és x i és y i a két változó mindegyikének egyedi értéke .

Legkisebb négyzetek lineáris regressziós illesztése

A lineáris regresszió az a folyamat, amikor egy páros adatsort egy egyeneshez illesztünk. Ez magában foglalja annak az egyenesnek a matematikai egyenletét, amely a legjobban illeszkedik az adatsorhoz, és ezért minimalizálja az összes pont és az egyenes közötti átlagos távolságot, ha mindkettő egy derékszögű koordinátarendszerben van ábrázolva.

A lineáris regressziót szinte mindig a legkisebb négyzetek módszerével hajtják végre, és ennek eredményeként megkapjuk az egyenest meghatározó két paramétert, nevezetesen az Y tengellyel való vágást és a meredekséget.

Függetlenül attól, hogy egy adatsor lineárisan viselkedik-e vagy sem, mindig meg lehet kapni a rá legjobban illeszkedő egyenes egyenletét. Ha egy olyan változót tekintünk , amelyet függetlennek veszünk, X, és egy másikat, amelyet függő változónak veszünk, Y, akkor az egyenes egyenlete a következő:

A regressziós egyenes meredeksége és a korrelációs együttható

Ebben az egyenletben az a és b együtthatók a lineáris regressziós együtthatók, és rendre az Y metszéspontját és az egyenes meredekségét jelentik. Könnyen kimutatható, hogy a modell előrejelzési hibájának négyzetét (a valódi érték és a modell által becsült érték különbségét) minimalizáló együtthatók a következők:

A regressziós egyenes meredeksége és a korrelációs együttható

A lineáris regressziós egyenes b meredeksége és az r korrelációs együttható közötti kapcsolat

Most, hogy tisztábbak vagyunk azzal kapcsolatban, hogy mi az a és b lineáris regressziós együttható, és mi az r Pearson lineáris korrelációs együttható , készen állunk megérteni, miért és hogyan kapcsolódik a b meredekség r- hez .

Valójában a fenti b egyenlet és a Pearson-együttható definíciójának kombinációja a két statisztika közötti matematikai összefüggést eredményezi egy adatminta esetén:

A regressziós egyenes meredeksége és a korrelációs együttható

Amint látható, mivel az s x és s y minta szórása definíció szerint pozitív (mivel a szórások pozitív négyzetgyöke), arányuk szükségszerűen pozitív lesz. Emiatt a b meredekség előjelét a korrelációs együttható előjele, r határozza meg , és fordítva.

Ezen túlmenően, mivel a meredekség r és a két szórás fent említett hányadosa szorzataként van kifejezve, azokban az esetekben, amikor a két változó nem mutat összefüggést (vagyis ha igazoljuk, hogy r = 0 ) , akkor az adatokra lineáris regresszióval illesztett egyenes meredeksége is nulla lesz, amint azt korábban megfigyeltük.

Ennek nagyon sok értelme van, hiszen ha az összes többi tényező, amely a függő változót befolyásolja, ha nincs korreláció közte és a független változó között, akkor várhatóan megváltozik a független változó (vagyis x-ben). ) nem fog nem okoz megfigyelhető változást az elsőben (azaz y-ben). Következésképpen, ahogy balról jobbra haladunk a grafikonon, nem fogunk semmiféle növekedést vagy csökkenést megfigyelni az y-értékekben, és az általunk megfigyelt eltérések kizárólag az adott változó véletlenszerű természetéből fakadnak.

A Pearson-féle együttható és a meredekség kapcsolata népességadatok esetén

A mintaadatokkal kapcsolatban elmondottak ugyanúgy érvényesek egy sokaság összes adatának birtokában. Csak az változik, hogy a statisztika ( a, b és r ) helyett a sokaság esetében a paraméterek jelenlétében állunk.

A statisztikákban megszokott módon a paramétereket általában ugyanazokkal a betűkkel jelölik, mint a statisztikákat, csak a görög ábécé betűit használva. Emiatt az összes populációs adatra illesztett vonal levágását és meredekségét az α és β betűk jelölik (a és b helyett ) , a Pearson-együttható pedig a ρ betűvel ( helyett ). r ), míg a sokaság szórását az s betű jelöli ( s helyett ).

Így a meredekség és a lineáris korrelációs együttható közötti összefüggést a populációra a következőképpen adja meg:

A regressziós egyenes meredeksége és a korrelációs együttható

Hivatkozások

Carollo Limeres, MC (2012). EGYSZERŰ LINEÁRIS REGRESSZIÓ . Santiago de Compostelai Egyetem. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf

LesKanaris. (nd). Mit jelent a párosított adat a statisztikákban? – Tippek – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html

Martinez Vara De Rey, CC (sf). Adatelemzés a pszichológiában II – Pearson-féle lineáris korrelációs együttható . Sevilla Egyetem. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf

Rodrigo, JA (2016, június). Lineáris korreláció és egyszerű lineáris regresszió . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Santos Cuervo, L. (2000). Regresszió és korreláció . eldobja. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm

Szuperprof. (2020. május 25.). Mi a regressziós egyenes? | Szuperprof . Didaktikai anyag – Szuperprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html

Ucha, AP (2021, február 19.). Lineáris korrelációs együttható . Economipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html

Israel Parada (Licentiate,Professor ULA)
Israel Parada (Licentiate,Professor ULA)
(Licenciado en Química) - AUTOR. Profesor universitario de Química. Divulgador científico.

Artículos relacionados