Tabla de Contenidos
Bei der statistischen Analyse von Reihen quantitativer Daten sind wir oft mit gepaarten Daten oder geordneten Paaren konfrontiert. Diese entsprechen Daten zweier unterschiedlicher Variablen, die im Allgemeinen von derselben Person stammen und daher miteinander verknüpft sind. Es handelt sich dann um Daten, die nicht separat betrachtet werden, sondern immer zusammen betrachtet werden müssen, etwa die Größe und das Gewicht einer bestimmten Person oder das Gewicht und die Höchstgeschwindigkeit eines Autos.
Wenn wir Daten gepaart haben, geben uns Statistiken die Möglichkeit festzustellen, ob zwischen diesen Variablen ein Zusammenhang besteht. Dies ist besonders häufig in den verschiedenen Wissenschaften der Fall, insbesondere wenn beobachtet wird, dass das Verhalten einer Variablen das Verhalten einer anderen zu beeinflussen oder zu bestimmen scheint. Bei der Herstellung dieser Beziehungen bietet uns die Statistik zwei verschiedene Arten von Werkzeugen: Korrelationsstudien zwischen zwei oder mehr Variablen und die Anpassung gepaarter Daten an verschiedene mathematische Modelle durch einen Regressionsprozess.
Für Daten, die sich linear verhalten, kann ein linearer Regressionskoeffizient r berechnet werden, der misst, wie linear sich die Daten verhalten. Andererseits kann die mathematische Gleichung der geraden Linie, die am besten zu den Daten passt, auch durch lineare Regression erhalten werden. Dabei erhalten wir die Regressionskoeffizienten in Form des Schnittpunktes der Geraden und ihrer Steigung.
Wenn wir uns viele Beispiele für Berechnungen linearer Regressionskoeffizienten und der durch lineare Regression erhaltenen Steigung der Geraden ansehen, werden wir schnell feststellen, dass zwischen beiden Werten ein Zusammenhang besteht. Insbesondere werden wir feststellen, dass immer dann, wenn die Steigung negativ ist, auch der Regressionskoeffizient negativ ist; wenn er positiv ist, ist auch der Koeffizient positiv, und wenn die Steigung Null ist, ist es auch der Regressionskoeffizient.
In den folgenden Abschnitten werden wir untersuchen, warum dies geschieht und was die wirkliche Beziehung zwischen diesen beiden statistischen Werten ist, die fast immer Hand in Hand gehen.
Korrelation und Regression in Statistik und Wissenschaft
Korrelationsstudien liefern eine Reihe von Statistiken wie Korrelations- und Bestimmungskoeffizienten, die es ermöglichen festzustellen, wie zwei oder mehr Variablen miteinander korrelieren. Mit anderen Worten, sie ermöglichen es uns festzustellen, welcher Anteil der Variabilität einer Zufallsvariablen (normalerweise quantitativ) durch die Variabilität einer anderen Zufallsvariablen erklärt werden kann, anstatt durch ihre eigenen zufälligen Variationen erklärt zu werden. Das bedeutet, dass sie es ermöglichen festzustellen, wie gut die Variation einer oder mehrerer Variablen die Variation einer anderen erklärt.
Es sollte beachtet werden, dass Korrelationsstudien nur die Korrelation zwischen zwei oder mehr Variablen sehen, aber sie liefern keine direkten Beweise für Ursache und Wirkung (d.h. sie erlauben nicht festzustellen, welche der beiden Variablen die Variation der anderen verursacht ).
Wenn wir andererseits (durch eine Korrelationsstudie) wissen oder erahnen, dass zwei Variablen auf irgendeine Weise korreliert sind, versuchen wir im Allgemeinen, ein mathematisches Modell zu erstellen, das es uns ermöglicht, das allgemeine Verhalten einer Variablen als Funktion der anderen darzustellen , was es ermöglicht, den Wert einer der Variablen basierend auf dem Wert der anderen vorherzusagen. Dies wird dank eines Regressionsprozesses erreicht, durch den die Koeffizienten eines mathematischen Modells berechnet werden, die die Unterschiede zwischen den beobachteten Daten (den geordneten Paaren oder gepaarten Daten) und den vom Modell vorhergesagten Werten minimieren.
Lineare Korrelation und Korrelationskoeffizient nach Pearson
Der einfachste Fall der Korrelation ist die lineare Korrelation. Dies tritt auf, wenn zwischen zwei quantitativen Variablen ein linearer Zusammenhang besteht, so dass, wenn eine von ihnen zunimmt, die andere entweder immer im gleichen Verhältnis zunimmt oder immer im gleichen Verhältnis abnimmt.
Lineare Korrelationsstudien basieren auf der Berechnung des linearen Korrelationskoeffizienten für die Datenreihen. Es gibt mehrere verschiedene lineare Korrelationskoeffizienten, die berechnet werden können, von denen die häufigsten sind:
- Linearer Korrelationskoeffizient nach Pearson
- Lineare Korrelation nach Spearman
- Kendalls Korrelation
Der einfachste und auch am weitesten verbreitete der drei ist der lineare Korrelationskoeffizient von Pearson. Dies kann verwendet werden, wenn die gepaarten Daten die folgenden Bedingungen erfüllen:
- Die Beziehung zwischen den Variablen ist linear.
- Beide Variablen sind quantitativ.
- Beide Variablen folgen einer Normalverteilung (obwohl einige Autoren argumentieren, dass die Pearson-Korrelation verwendet werden kann, selbst wenn die Variablen nicht perfekt zu einer Gaußschen Glocke passen).
- Die Varianz der Variablen, die als abhängige Variable genommen wird (die wir auf der Y-Achse darstellen), ist für die verschiedenen Werte der unabhängigen Variablen (die auf der X-Achse) konstant.
Wenn diese Bedingungen erfüllt sind, können wir den Pearson-Korrelationskoeffizienten berechnen, um festzustellen, wie gut die lineare Korrelation zwischen beiden Variablen ist.
Wenn wir die Varianzen beider Variablen (s 2 x ys 2 y ) und die Kovarianz (Cov x,y os xy ) kennen, können wir den Pearson-Koeffizienten für die Grundgesamtheit (ρ xy ) mit der folgenden Formel berechnen:
Am häufigsten ist hingegen, dass wir nicht alle Daten der Bevölkerung kennen, sondern nur eine Stichprobe haben. In diesem Fall können wir den Stichproben-Pearson-Korrelationskoeffizienten berechnen, der ein Schätzer der Grundgesamtheit ist. Sie wird nach folgender Formel berechnet:
Dabei ist r der Korrelationskoeffizient, x̅ ist der Stichprobenmittelwert der Variablen x, y̅ ist der Stichprobenmittelwert der Variablen y und x i und y i sind die Einzelwerte jeder der beiden Variablen.
Least Squares Linear Regression Fit
Bei der linearen Regression wird eine gepaarte Datenreihe an eine gerade Linie angepasst. Es impliziert, die mathematische Gleichung der Linie zu erhalten, die am besten zu der Datenreihe passt und daher den durchschnittlichen Abstand zwischen allen Punkten und der Linie minimiert, wenn beide in einem kartesischen Koordinatensystem dargestellt werden.
Die lineare Regression wird fast immer nach der Methode der kleinsten Quadrate durchgeführt und das Ergebnis ist das Erhalten der beiden Parameter, die eine Linie definieren, nämlich der Schnitt mit der Y-Achse und die Steigung.
Unabhängig davon, ob sich eine Datenreihe linear verhält oder nicht, ist es immer möglich, die Gleichung der Linie zu erhalten, die am besten zu ihr passt. Wenn wir eine Variable betrachten , die wir als unabhängig nehmen, X, und eine andere, die wir als abhängige Variable, Y, nehmen, ist die Gleichung der Linie gegeben durch:
In dieser Gleichung sind die Koeffizienten a und b die Koeffizienten der linearen Regression und repräsentieren jeweils den Y-Abschnitt und die Steigung der Linie. Es kann leicht gezeigt werden, dass die Koeffizienten, die das Quadrat des Modellvorhersagefehlers (die Differenz zwischen dem wahren Wert und dem vom Modell geschätzten Wert) minimieren, gegeben sind durch:
Die Beziehung zwischen der Steigung der linearen Regressionslinie, b, und dem Korrelationskoeffizienten, r
Jetzt, da wir uns klarer darüber sind, was die linearen Regressionskoeffizienten a und b sind und was der lineare Korrelationskoeffizient r nach Pearson ist , können wir verstehen, warum und wie die Steigung b mit r zusammenhängt .
Tatsächlich ergibt die Kombination der vorherigen Gleichung für b und der Definition des Pearson-Koeffizienten die mathematische Beziehung zwischen diesen beiden Statistiken für den Fall einer Datenstichprobe:
Da die Stichproben -Standardabweichungen s x und sy per Definition positiv sind (da sie die positive Quadratwurzel der jeweiligen Varianzen sind), ist ihr Quotient notwendigerweise positiv. Aus diesem Grund wird das Vorzeichen der Steigung b durch das Vorzeichen des Korrelationskoeffizienten r bestimmt und umgekehrt.
Da außerdem die Steigung als Produkt zwischen r und dem oben genannten Quotienten zwischen den beiden Standardabweichungen ausgedrückt wird, gilt in den Fällen, in denen die beiden Variablen keine Korrelation aufweisen (d. h. wenn verifiziert ist, dass r = 0 ist ) , dann ist die Steigung der Linie, die durch lineare Regression an die Daten angepasst wurde, ebenfalls null, wie wir zuvor beobachtet haben.
Dies ist sehr sinnvoll, da, wenn alle anderen Faktoren, die die abhängige Variable beeinflussen, zutreffen, keine Korrelation zwischen ihr und der unabhängigen Variablen besteht, zu erwarten ist, dass eine Änderung der unabhängigen (d.h. in x ) wird keine beobachtbare Änderung im ersten (dh in y) erzeugen. Wenn wir uns entlang des Diagramms von links nach rechts bewegen, werden wir folglich keine Zunahme oder Abnahme der y-Werte beobachten, und jede Variation, die wir beobachten, ist ausschließlich auf die zufällige Natur dieser Variablen zurückzuführen.
Zusammenhang zwischen Pearson-Koeffizient und Steigung bei Bevölkerungsdaten
Was gerade in Bezug auf die Stichprobendaten gesagt wurde, gilt in gleicher Weise für den Fall, dass alle Daten einer Grundgesamtheit vorliegen. Das Einzige, was sich ändert, ist, dass wir bei der Grundgesamtheit anstelle von Statistiken ( a, b und r ) Parameter haben.
Wie in der Statistik üblich, werden Parameter in der Regel mit denselben Buchstaben dargestellt wie Statistiken, nur mit den Buchstaben des griechischen Alphabets. Aus diesem Grund werden der Cutoff und die Steigung der an alle Populationsdaten angepassten Linie durch die Buchstaben α und β (anstelle von a und b ) und der Pearson-Koeffizient durch den Buchstaben ρ (anstelle von .r ) dargestellt. während Populationsstandardabweichungen durch den Buchstaben s (anstelle von s ) dargestellt werden.
Somit ist die Beziehung zwischen der Steigung und dem linearen Korrelationskoeffizienten für die Grundgesamtheit gegeben durch:
Verweise
Carollo Limeres, MC (2012). EINFACHE LINEARE REGRESSION . Universität Santiago de Compostela. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
LesKanaris. (nd). Was sind gepaarte Daten in Statistiken? – Tipps – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC (sf). Datenanalyse in der Psychologie II – Linearer Korrelationskoeffizient nach Pearson . Universität Sevilla. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
Rodrigo, JA (2016, Juni). Lineare Korrelation und einfache lineare Regression . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
Santos Cuervo, L. (2000). Regression und Korrelation . verwirft. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
Superprof. (2020, 25. Mai). Was ist die Regressionsgerade? | Superprof . Didaktisches Material – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regression.html
Ucha, AP (2021, 19. Februar). Linearer Korrelationskoeffizient . Wirtschaftspädie. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html