Tabla de Contenidos
일련의 양적 데이터를 통계적으로 분석할 때 쌍 데이터 또는 순서 쌍을 자주 접하게 됩니다. 이들은 일반적으로 동일한 개인에서 나오므로 서로 연결된 두 가지 다른 변수의 데이터에 해당합니다. 그렇다면 특정 개인의 키와 몸무게, 자동차의 무게와 최고 속도 등은 따로따로 고려하지 않고 항상 함께 고려해야 하는 데이터의 문제다.
쌍을 이룬 데이터가 있을 때 통계는 이러한 변수 사이에 관계가 있는지 여부를 설정할 수 있는 가능성을 제공합니다 . 이것은 특히 한 변수의 동작이 다른 변수의 동작에 영향을 미치거나 결정하는 것으로 관찰되는 경우 특히 다른 과학에서 일반적입니다. 이러한 관계를 설정할 때 통계는 두 가지 유형의 도구를 제공합니다. 두 개 이상의 변수 간의 상관 관계 연구와 회귀 프로세스를 통해 쌍을 이룬 데이터를 다른 수학적 모델로 조정하는 것입니다.
선형적으로 동작하는 데이터의 경우 데이터가 얼마나 선형적으로 동작하는지 측정하는 선형 회귀 계수 r을 계산할 수 있습니다. 한편, 데이터에 가장 적합한 직선의 수학 방정식도 선형 회귀를 통해 얻을 수 있습니다. 이렇게 하면 선과 기울기의 절편 형태로 회귀 계수를 얻습니다.
선형 회귀 계수와 선형 회귀로 얻은 선의 기울기 계산에 대한 많은 예를 살펴보면 두 값 사이에 관계가 있음을 금방 알 수 있습니다. 특히 기울기가 음수 일 때마다 회귀 계수도 음수라는 점에 유의하십시오. 양수이면 계수도 양수이고 기울기가 0이면 회귀 계수도 0입니다.
다음 섹션에서는 왜 이런 일이 발생하고 거의 항상 함께 가는 이 두 통계 값 사이의 실제 관계가 무엇인지 탐구할 것입니다.
통계 및 과학의 상관 관계 및 회귀
상관관계 연구는 상관관계 및 결정 계수와 같은 일련의 통계를 제공하여 두 개 이상의 변수가 서로 얼마나 상관관계가 있는지 설정할 수 있습니다. 즉, 임의 변수(보통 정량적)의 가변성이 자체 임의 변동의 관점에서 설명되는 대신 다른 임의 변수의 가변성의 관점에서 설명될 수 있는 비율을 설정할 수 있습니다. 이는 하나 이상의 변수의 변동이 다른 변수의 변동을 얼마나 잘 설명하는지 설정할 수 있음을 의미합니다.
상관관계 연구는 둘 이상의 변수 사이의 상관관계만 볼 수 있지만 원인과 결과에 대한 직접적인 증거는 제공하지 않습니다(즉, 두 변수 중 어느 것이 다른 변수의 변동을 유발하는지 설정하는 것을 허용하지 않음). ).
반면에 상관관계 연구를 통해 두 변수가 어떤 식으로든 상관관계가 있다는 것을 알거나 직관할 때 일반적으로 한 변수의 일반적인 동작을 다른 변수의 함수로 나타낼 수 있는 수학적 모델을 설정하려고 합니다. , 따라서 다른 변수의 값을 기반으로 변수 중 하나의 값을 예측할 수 있습니다. 이것은 관찰된 데이터(순서 쌍 또는 쌍 데이터)와 모델에 의해 예측된 값 사이의 차이를 최소화하는 수학적 모델의 계수가 계산되는 회귀 프로세스 덕분에 달성됩니다.
선형 상관 및 Pearson 상관 계수
상관 관계의 가장 단순한 경우는 선형 상관 관계입니다. 이것은 두 양적 변수 사이에 하나가 증가할 때 다른 하나가 항상 같은 비율로 증가하거나 항상 같은 비율로 감소하는 방식으로 선형 관계가 있을 때 발생합니다.
선형 상관 연구는 데이터 계열에 대한 선형 상관 계수 계산을 기반으로 합니다. 계산할 수 있는 여러 가지 선형 상관 계수가 있으며 가장 일반적인 것은 다음과 같습니다.
- Pearson의 선형 상관 계수
- Spearman의 선형 상관
- Kendall의 상관관계
세 가지 중에서 가장 단순하면서도 가장 널리 사용되는 것은 Pearson 선형 상관 계수입니다. 페어링된 데이터가 다음 조건을 충족하는 경우 사용할 수 있습니다.
- 변수 간의 관계는 선형입니다.
- 두 변수 모두 정량적입니다.
- 두 변수 모두 정규 분포를 따릅니다(일부 저자는 변수가 가우시안 벨에 완벽하게 맞지 않더라도 Pearson의 상관 관계를 사용할 수 있다고 주장하지만).
- 종속 변수 (Y축에 표시되는 변수)로 간주되는 변수 의 분산은 독립 변수(X축에 있는 변수)의 다른 값에 대해 일정합니다.
이러한 조건이 충족되면 Pearson 상관 계수를 계산하여 두 변수 간의 선형 상관 관계가 얼마나 좋은지 확인할 수 있습니다.
두 변수(s 2 x ys 2 y )와 공분산(Cov x,y os xy ) 의 분산을 알고 있는 경우 다음 공식을 사용하여 모집단(ρ xy )에 대한 Pearson 계수를 계산할 수 있습니다.
반면에 가장 흔한 것은 모집단의 모든 데이터를 알지 못하고 표본만 가지고 있다는 것입니다. 이 경우 모집단의 추정치인 표본 Pearson 상관 계수를 계산할 수 있습니다. 다음 공식을 사용하여 계산됩니다.
여기서 r 은 상관계수, x̅는 변수 x 의 표본평균, y̅는 변수 y의 표본평균, xi와 yi 는 두 변수 각각의 개별 값이다.
최소 제곱 선형 회귀 적합
선형 회귀는 한 쌍의 데이터 계열을 직선에 맞추는 과정입니다. 여기에는 데이터 계열에 가장 잘 맞는 선의 수학 방정식을 얻는 것이 포함되므로 직교 좌표계에서 모두 표시될 때 모든 점과 선 사이의 평균 거리를 최소화합니다.
선형 회귀는 거의 항상 최소 제곱법으로 수행되며 결과는 선을 정의하는 두 매개변수, 즉 Y축 절단과 기울기를 얻습니다.
데이터 계열이 선형적으로 동작하는지 여부에 관계없이 항상 가장 적합한 선의 방정식을 얻을 수 있습니다. 독립 변수 X와 종속 변수 Y로 간주하는 변수를 고려하면 직선의 방정식은 다음과 같이 제공됩니다.
이 방정식에서 계수 a 와 b 는 선형 회귀 계수이며 각각 Y 절편과 선의 기울기를 나타냅니다. 모델 예측 오차의 제곱(참값과 모델이 추정한 값의 차이)을 최소화하는 계수는 다음과 같이 쉽게 나타낼 수 있습니다.
선형회귀선의 기울기 b와 상관계수 r의 관계
이제 우리는 선형 회귀 계수 a 와 b 가 무엇인지 그리고 Pearson 선형 상관 계수 r 이 무엇인지에 대해 더 명확해 졌으므로 기울기 b가 r 과 왜 그리고 어떻게 관련 되는지 이해할 준비가 되었습니다 .
실제로 b 에 대한 위의 방정식 과 Pearson 계수의 정의를 조합하면 데이터 샘플의 경우 이 두 통계 간의 수학적 관계가 생성됩니다.
알 수 있는 바와 같이, 샘플 표준 편차 s x 및 sy 는 정의상 양수이므로(각 분산의 양의 제곱근이므로) 이들의 몫은 반드시 양수가 됩니다. 이러한 이유로 기울기의 부호 b 는 상관 계수 r 의 부호에 의해 결정되며 그 반대도 마찬가지입니다.
또한 기울기는 r 과 앞서 언급한 두 표준편차의 몫의 곱으로 나타내므로, 두 변수가 상관관계를 나타내지 않는 경우(즉, r=0임을 확인한 경우 ) , 그러면 이전에 관찰한 것처럼 선형 회귀에 의해 데이터에 맞춰진 선의 기울기도 0이 됩니다.
종속 변수에 영향을 미치는 다른 모든 요인이 유지되고 종속 변수와 독립 변수 사이에 상관 관계가 없다면 독립 변수(즉, x )는 첫 번째(즉, y)에서 관찰 가능한 변화를 일으키지 않습니다. 결과적으로 그래프를 따라 왼쪽에서 오른쪽으로 이동할 때 y 값의 증가 또는 감소를 관찰할 수 없으며 관찰되는 변동은 전적으로 해당 변수의 무작위 특성 때문입니다.
모집단 자료의 경우 피어슨 계수와 기울기의 관계
표본 데이터와 관련하여 방금 말한 내용은 모집단의 모든 데이터를 가지고 있는 경우에도 동일하게 적용됩니다. 유일한 변경 사항은 모집단의 경우 통계( a, b 및 r ) 대신 매개변수가 있다는 것입니다.
통계에서 흔히 볼 수 있듯이 매개변수는 일반적으로 그리스 알파벳 문자만 사용하여 통계와 동일한 문자로 표시됩니다. 이러한 이유로 모든 모집단 데이터에 맞는 선의 컷오프 및 기울기는 문자 α 및 β(a 및 b 대신 ) 로 표시되고 Pearson 계수는 문자 ρ( r 대신)로 표시됩니다 . 모집단 표준 편차는 문자 s( s 대신 )로 표시됩니다.
따라서 모집단에 대한 기울기와 선형 상관 계수 간의 관계는 다음과 같습니다.
참조
카롤로 리메레스, MC (2012). 단순 선형 회귀 산티아고 데 콤포스텔라 대학. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
LesKanaris. (일차). 통계에서 페어링된 데이터란 무엇입니까? – 팁 – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC(sf). 심리학 II의 데이터 분석 – Pearson의 선형 상관 계수 . 세비야 대학. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
로드리고, JA (2016, 6월). 선형 상관관계 및 단순 선형 회귀 . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
산토스 쿠에르보, L. (2000). 회귀 및 상관 관계 . 버린다. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
슈퍼프로프 (2020년 5월 25일). 회귀선이란 무엇입니까? | 슈퍼프로프 . 교훈 자료 – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html
Ucha, AP (2021년 2월 19일). 선형 상관 계수 . 이코노미피디아. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html