Tabla de Contenidos
Når vi statistisk analyserer rækker af kvantitative data, står vi ofte med parrede data eller ordnede par. Disse svarer til data for to forskellige variabler, der generelt kommer fra samme individ, og som derfor er forbundet med hinanden. Der er så tale om data, der ikke betragtes særskilt, men altid skal betragtes samlet, såsom højden og vægten af en bestemt person, eller vægten og maksimalhastigheden på en bil.
Når vi har parret data, giver statistik os mulighed for at fastslå, om der er en sammenhæng mellem disse variable. Dette er særligt almindeligt i de forskellige videnskaber, især når det observeres, at en variabels adfærd synes at påvirke eller bestemme adfærden hos en anden. Når vi etablerer disse sammenhænge, giver statistik os to forskellige typer værktøjer: korrelationsstudier mellem to eller flere variable og tilpasning af parrede data til forskellige matematiske modeller gennem en regressionsproces.
For data, der opfører sig lineært, kan en lineær regressionskoefficient, r , beregnes, der måler, hvor lineært dataene opfører sig. På den anden side kan den matematiske ligning af den rette linje, der passer bedst til dataene, også opnås gennem lineær regression. Når vi gør dette, får vi regressionskoefficienterne i form af skæringen af linjen og dens hældning.
Hvis vi ser på mange eksempler på beregninger af lineære regressionskoefficienter og af hældningen af linjen opnået ved lineær regression, vil vi hurtigt bemærke, at der er en sammenhæng mellem begge værdier. Vi vil især bemærke, at når hældningen er negativ, er regressionskoefficienten også negativ; når den er positiv, er koefficienten også positiv, og når hældningen er nul, så er regressionskoefficienten det også.
I de følgende afsnit vil vi udforske, hvorfor dette sker, og hvad er det reelle forhold mellem disse to statistiske værdier, der næsten altid går hånd i hånd.
Korrelation og regression i statistik og videnskab
Korrelationsstudier giver en række statistikker såsom korrelations- og bestemmelseskoefficienter, der gør det muligt at fastslå, hvor korrelerede to eller flere variabler er med hinanden. Med andre ord giver de os mulighed for at fastslå, hvilken andel af variabiliteten af en stokastisk variabel (normalt kvantitativ) der kan forklares ud fra variabiliteten af en anden stokastisk variabel, i stedet for at blive forklaret ud fra dens egne stokastiske variationer. Det betyder, at de gør det muligt at fastslå, hvor godt variationen af en eller flere variabler forklarer variationen af en anden.
Det skal bemærkes, at korrelationsstudier kun ser, at korrelationen mellem to eller flere variabler, men de giver ikke direkte bevis for årsag og virkning (det vil sige, at de ikke tillader at fastslå, hvilken af de to variabler, der forårsager variationen af den anden. ).
På den anden side, når vi ved (gennem en korrelationsundersøgelse) eller intuit, at to variable er korrelerede på en eller anden måde, søger vi generelt at etablere en matematisk model, der tillader os at repræsentere den generelle adfærd af en variabel som en funktion af den anden. , hvilket gør det muligt at forudsige værdien af en af variablerne baseret på værdien af den anden. Dette opnås takket være en regressionsproces, hvorigennem koefficienterne for en matematisk model, der minimerer forskellene mellem de observerede data (de ordnede par eller parrede data) og de værdier, der forudsiges af modellen, beregnes.
Lineær korrelation og Pearsons korrelationskoefficient
Det enkleste tilfælde af korrelation er lineær korrelation. Dette sker, når der er en lineær sammenhæng mellem to kvantitative variable på en sådan måde, at når den ene af dem stiger, den anden enten altid stiger i samme forhold eller altid falder i samme forhold.
Lineære korrelationsstudier er baseret på beregning af den lineære korrelationskoefficient for dataserien. Der er flere forskellige lineære korrelationskoefficienter, der kan beregnes, hvoraf de mest almindelige er:
- Pearsons lineære korrelationskoefficient
- Spearmans lineære korrelation
- Kendalls sammenhæng
Af de tre er den enkleste og også den mest udbredte Pearson lineære korrelationskoefficient. Dette kan bruges, når de parrede data opfylder følgende betingelser:
- Forholdet mellem variablerne er lineært.
- Begge variabler er kvantitative.
- Begge variabler følger en normalfordeling (selvom nogle forfattere hævder, at Pearsons korrelation kan bruges, selvom variablerne ikke passer perfekt til en gaussisk klokke).
- Variansen af den variabel, der tages som den afhængige variabel (den vi repræsenterer på Y-aksen) er konstant for de forskellige værdier af den uafhængige variabel (den på X-aksen).
Hvis disse betingelser er opfyldt, kan vi beregne Pearson-korrelationskoefficienten for at bestemme, hvor god den lineære korrelation er mellem begge variable.
Hvis vi kender variansen af begge variable (s 2 x ys 2 y ) og kovariansen (Cov x, y os xy ), kan vi beregne Pearson-koefficienten for populationen (ρ xy ) ved hjælp af følgende formel:
På den anden side er det mest almindelige, at vi ikke kender alle befolkningens data, men kun har en stikprøve. I dette tilfælde kan vi beregne stikprøven Pearson korrelationskoefficient, som er en estimator af populationen. Det beregnes ved hjælp af følgende formel:
Hvor r er korrelationskoefficienten, x̅ er stikprøvegennemsnittet for variablen x, y̅ er stikprøvemiddelværdien af variablen y, og x i og y i er de individuelle værdier af hver af de to variable.
Mindste kvadraters lineær regression Fit
Lineær regression er processen med at tilpasse en parret dataserie til en lige linje. Det indebærer at opnå den matematiske ligning for den linje, der passer bedst til dataserien, og derfor minimerer den gennemsnitlige afstand mellem alle punkterne og linjen, når begge er repræsenteret i et kartesisk koordinatsystem.
Lineær regression udføres næsten altid ved hjælp af mindste kvadraters metode, og resultatet er opnåelsen af de to parametre, der definerer en linje, nemlig snittet med Y-aksen og hældningen.
Uanset om en dataserie opfører sig lineært eller ej, er det altid muligt at få den ligning for den linje, der passer bedst til den. Hvis vi betragter en variabel , som vi tager som uafhængig, X, og en anden, som vi tager som en afhængig variabel, Y, er linjens ligning givet ved:
I denne ligning er koefficienterne a og b de lineære regressionskoefficienter og repræsenterer henholdsvis Y-skæringspunktet og linjens hældning. Det kan let vises, at de koefficienter, der minimerer kvadratet af modelforudsigelsesfejlen (forskellen mellem den sande værdi og den værdi, som modellen estimerer), er givet ved:
Forholdet mellem hældningen af den lineære regressionslinje, b, og korrelationskoefficienten, r
Nu hvor vi er mere klare over, hvad de lineære regressionskoefficienter a og b er , og hvad Pearsons lineære korrelationskoefficient r er , er vi klar til at forstå, hvorfor og hvordan hældningen b er relateret til r .
Faktisk resulterer kombinationen af den foregående ligning for b og definitionen af Pearson-koefficienten i det matematiske forhold mellem disse to statistikker, for tilfældet med en stikprøve af data:
Som det kan ses, da prøvestandardafvigelserne s x og s y per definition er positive (da de er den positive kvadratrod af de respektive varianser), vil deres kvotient nødvendigvis være positiv. Af denne grund bestemmes hældningens fortegnet, b , af fortegnet for korrelationskoefficienten r , og omvendt.
Da hældningen desuden er udtrykt som produktet mellem r og den førnævnte kvotient mellem de to standardafvigelser, i de tilfælde, hvor de to variable ikke viser nogen korrelation (det vil sige, når det er verificeret, at r = 0 ) , så vil hældningen af linjen tilpasset ved lineær regression til dataene også være nul, som vi observerede tidligere.
Dette giver meget mening, da hvis alle de andre faktorer, der påvirker den afhængige variabel holder, hvis der ikke er nogen sammenhæng mellem den og den uafhængige variabel, kan det forventes, at en ændring i den uafhængige (det vil sige i x ) vil ikke vil producere nogen observerbar ændring i den første (dvs. i y). Som følge heraf, når vi bevæger os fra venstre mod højre langs grafen, vil vi ikke observere nogen stigning eller fald i y-værdierne, og enhver variation, som vi observerer, skyldes udelukkende den tilfældige karakter af denne variabel.
Forholdet mellem Pearsons koefficient og hældning i tilfælde af befolkningsdata
Det, der lige er blevet sagt i forhold til stikprøvedataene, gælder på samme måde i tilfælde af at have alle data fra en population. Det eneste, der ændrer sig, er, at i stedet for statistik ( a, b og r ), er vi i populationens tilfælde i nærvær af parametre.
Som det er almindeligt i statistik, er parametre normalt repræsenteret med de samme bogstaver som statistik, kun ved hjælp af bogstaverne i det græske alfabet. Af denne grund er afskæringen og hældningen af linjen, der er tilpasset alle populationsdata, repræsenteret med bogstaverne α og β (i stedet for a og b ) , og Pearson-koefficienten er repræsenteret med bogstavet ρ (i stedet for ). r ), mens populationens standardafvigelser er repræsenteret med bogstavet s (i stedet for s ).
Således er forholdet mellem hældningen og den lineære korrelationskoefficient for populationen givet ved:
Referencer
Carollo Limeres, MC (2012). ENKEL LINEÆR REGRESSION . Universitetet i Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
LesKanaris. (nd). Hvad er parrede data i statistik? – Tips – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC (sf). Dataanalyse i psykologi II – Pearsons lineære korrelationskoefficient . Sevilla Universitet. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
Rodrigo, JA (2016, juni). Lineær korrelation og simpel lineær regression . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
Santos Cuervo, L. (2000). Regression og korrelation . kasserer. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
Superprof. (2020, 25. maj). Hvad er regressionslinjen? | Superprof . Didaktisk materiale – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html
Ucha, AP (2021, 19. februar). Lineær korrelationskoefficient . Økonomipedia. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html