Tabla de Contenidos
Lors de l’analyse statistique de séries de données quantitatives, nous sommes souvent confrontés à des données appariées ou des paires ordonnées. Celles-ci correspondent à des données de deux variables différentes, provenant généralement du même individu et qui, par conséquent, sont liées l’une à l’autre. Il s’agit alors de données qui ne sont pas considérées séparément, mais doivent toujours être considérées ensemble, comme la taille et le poids d’un individu particulier, ou le poids et la vitesse maximale d’une voiture.
Lorsque nous disposons de données appariées, les statistiques nous offrent la possibilité d’établir s’il existe une relation entre ces variables. Ceci est particulièrement fréquent dans les différentes sciences, surtout lorsqu’on observe que le comportement d’une variable semble affecter ou déterminer le comportement d’une autre. Lors de l’établissement de ces relations, les statistiques nous fournissent deux types d’outils différents : des études de corrélation entre deux variables ou plus et l’ajustement de données appariées à différents modèles mathématiques par un processus de régression.
Pour les données qui se comportent de manière linéaire, un coefficient de régression linéaire, r , peut être calculé pour mesurer le comportement linéaire des données. D’autre part, l’équation mathématique de la droite qui correspond le mieux aux données peut également être obtenue par régression linéaire. Lorsque nous faisons cela, nous obtenons les coefficients de régression sous la forme de l’ordonnée à l’origine de la ligne et de sa pente.
Si nous regardons de nombreux exemples de calculs de coefficients de régression linéaire et de la pente de la droite obtenue par régression linéaire, nous remarquerons rapidement qu’il existe une relation entre les deux valeurs. En particulier, on notera que chaque fois que la pente est négative, le coefficient de régression est également négatif ; lorsqu’il est positif, le coefficient est également positif et lorsque la pente est nulle, le coefficient de régression l’est également.
Dans les sections suivantes, nous explorerons pourquoi cela se produit et quelle est la véritable relation entre ces deux valeurs statistiques qui vont presque toujours de pair.
Corrélation et régression en statistique et science
Les études de corrélation fournissent une série de statistiques telles que les coefficients de corrélation et de détermination, qui permettent d’établir dans quelle mesure deux ou plusieurs variables sont corrélées entre elles. En d’autres termes, ils permettent d’établir quelle proportion de la variabilité d’une variable aléatoire (généralement quantitative) peut être expliquée par la variabilité d’une autre variable aléatoire, au lieu d’être expliquée par ses propres variations aléatoires. Cela signifie qu’ils permettent d’établir dans quelle mesure la variation d’une ou plusieurs variables explique la variation d’une autre.
Il convient de noter que les études de corrélation ne voient que cela, la corrélation entre deux ou plusieurs variables, mais elles ne fournissent pas de preuve directe de cause à effet (c’est-à-dire qu’elles ne permettent pas d’établir laquelle des deux variables provoque la variation de l’autre). ).
D’autre part, lorsque nous savons (par une étude de corrélation) ou avons l’intuition que deux variables sont corrélées d’une manière ou d’une autre, nous cherchons généralement à établir un modèle mathématique qui nous permet de représenter le comportement général d’une variable en fonction de l’autre. , permettant ainsi de prédire la valeur de l’une des variables en fonction de la valeur de l’autre. Ceci est réalisé grâce à un processus de régression par lequel les coefficients d’un modèle mathématique qui minimisent les différences entre les données observées (les paires ordonnées ou données appariées) et les valeurs prédites par le modèle sont calculés.
Corrélation linéaire et coefficient de corrélation de Pearson
Le cas le plus simple de corrélation est la corrélation linéaire. Cela se produit lorsqu’il existe une relation linéaire entre deux variables quantitatives de telle sorte que, lorsque l’une d’entre elles augmente, l’autre soit augmente toujours dans la même proportion, soit diminue toujours dans la même proportion.
Les études de corrélation linéaire sont basées sur le calcul du coefficient de corrélation linéaire pour la série de données. Il existe plusieurs coefficients de corrélation linéaire différents qui peuvent être calculés, dont les plus courants sont :
- Coefficient de corrélation linéaire de Pearson
- Corrélation linéaire de Spearman
- Corrélation de Kendall
Des trois, le plus simple et aussi le plus largement utilisé est le coefficient de corrélation linéaire de Pearson. Cela peut être utilisé lorsque les données appariées remplissent les conditions suivantes :
- La relation entre les variables est linéaire.
- Les deux variables sont quantitatives.
- Les deux variables suivent une distribution normale (bien que certains auteurs soutiennent que la corrélation de Pearson peut être utilisée même si les variables ne correspondent pas parfaitement à une cloche gaussienne).
- La variance de la variable prise comme variable dépendante (celle que nous représentons sur l’axe Y) est constante pour les différentes valeurs de la variable indépendante (celle sur l’axe X).
Si ces conditions sont remplies, nous pouvons calculer le coefficient de corrélation de Pearson pour déterminer la qualité de la corrélation linéaire entre les deux variables.
Si nous connaissons les variances des deux variables (s 2 x ys 2 y ) et la covariance (Cov x,y os xy ), nous pouvons calculer le coefficient de Pearson pour la population (ρ xy ) en utilisant la formule suivante :
D’autre part, le plus courant est que nous ne connaissons pas toutes les données de la population, mais n’avons qu’un échantillon. Dans ce cas, nous pouvons calculer le coefficient de corrélation de Pearson de l’échantillon, qui est un estimateur de la population. Il est calculé au moyen de la formule suivante :
Où r est le coefficient de corrélation, x̅ est la moyenne de l’échantillon de la variable x, y̅ est la moyenne de l’échantillon de la variable y, et x i et y i sont les valeurs individuelles de chacune des deux variables.
Ajustement par régression linéaire des moindres carrés
La régression linéaire est le processus d’ajustement d’une série de données appariées à une ligne droite. Cela implique d’obtenir l’équation mathématique de la ligne qui correspond le mieux à la série de données et, par conséquent, minimise la distance moyenne entre tous les points et la ligne lorsque les deux sont représentés dans un système de coordonnées cartésiennes.
La régression linéaire est presque toujours effectuée par la méthode des moindres carrés et le résultat est l’obtention des deux paramètres qui définissent une droite, à savoir la coupe avec l’axe Y et la pente.
Qu’une série de données se comporte de manière linéaire ou non, il est toujours possible d’obtenir l’équation de la droite qui lui convient le mieux. Si l’on considère une variable que l’on prend comme indépendante, X, et une autre que l’on prend comme variable dépendante, Y, l’équation de la droite est donnée par :
Dans cette équation, les coefficients a et b sont les coefficients de régression linéaire et représentent, respectivement, l’ordonnée à l’origine et la pente de la droite. On peut facilement montrer que les coefficients qui minimisent le carré de l’erreur de prédiction du modèle (la différence entre la valeur vraie et la valeur estimée par le modèle) sont donnés par :
La relation entre la pente de la droite de régression linéaire, b, et le coefficient de corrélation, r
Maintenant que nous savons plus clairement quels sont les coefficients de régression linéaire a et b et quel est le coefficient de corrélation linéaire de Pearson r , nous sommes prêts à comprendre pourquoi et comment la pente b est liée à r .
En fait, la combinaison de l’équation précédente pour b et de la définition du coefficient de Pearson, résulte en la relation mathématique entre ces deux statistiques, pour le cas d’un échantillon de données :
Comme on peut le voir, puisque les écarts-types de l’échantillon s x et s y sont, par définition, positifs (puisqu’ils sont la racine carrée positive des variances respectives), leur quotient sera nécessairement positif. Pour cette raison, le signe de la pente, b , est déterminé par le signe du coefficient de corrélation, r , et vice versa.
De plus, puisque la pente est exprimée comme le produit entre r et le quotient susmentionné entre les deux écarts-types, dans les cas où les deux variables ne présentent aucune corrélation (c’est-à-dire lorsqu’il est vérifié que r = 0 ) , alors la pente de la droite ajustée par régression linéaire aux données sera également nulle, comme nous l’avons observé précédemment.
Cela a beaucoup de sens, puisque, si tous les autres facteurs qui affectent la variable dépendante tiennent, s’il n’y a pas de corrélation entre celle-ci et la variable indépendante, il faut s’attendre à ce qu’un changement de l’indépendant (c’est-à-dire de x ) ne produira aucun changement observable dans le premier (c’est-à-dire dans y). Par conséquent, lorsque nous nous déplaçons de gauche à droite le long du graphique, nous n’observons aucune augmentation ou diminution des valeurs de y, et toute variation que nous observons est due uniquement à la nature aléatoire de cette variable.
Relation entre le coefficient de Pearson et la pente dans le cas des données de population
Ce qui vient d’être dit à propos des données de l’échantillon s’applique de la même manière dans le cas où l’on dispose de toutes les données d’une population. La seule chose qui change, c’est qu’au lieu de statistiques ( a, b et r ), dans le cas de la population on est en présence de paramètres.
Comme il est courant dans les statistiques, les paramètres sont généralement représentés par les mêmes lettres que les statistiques, en utilisant uniquement les lettres de l’alphabet grec. Pour cette raison, le seuil et la pente de la droite ajustée à toutes les données de population sont représentés par les lettres α et β (au lieu de a et b ) , et le coefficient de Pearson est représenté par la lettre ρ (au lieu de r ) , tandis que les écarts-types de la population sont représentés par la lettre s (au lieu de s ).
Ainsi, la relation entre la pente et le coefficient de corrélation linéaire pour la population est donnée par :
Les références
Carollo Limeres, MC (2012). RÉGRESSION LINÉAIRE SIMPLE . Université de Saint Jacques de Compostelle. http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf
LesKanaris. (sd). Qu’est-ce que les données appariées dans les statistiques ? – Conseils – 2022 . https://us.leskanaris.com/7419-paired-data-in-statistics.html
Martinez Vara De Rey, CC (sf). Analyse des données en psychologie II – Coefficient de corrélation linéaire de Pearson . Université de Séville. https://personal.us.es/vararey/correlacion-lineal-pearson.pdf
Rodrigo, JA (2016, juin). Corrélation linéaire et régression linéaire simple . CienciaDeDatos.Net. https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
En ligneSantos Cuervo, L. (2000). Régression et corrélation . rejets. http://recursostic.educacion.es/descartes/web/Descartes1/Bach_CNST_1/Variables_estadisticas_bidimensionales_regresion_correlacion/regresi2.htm
Superprof. (2020, 25 mai). Quelle est la droite de régression ? | Superprof . Matériel didactique – Superprof. https://www.superprof.es/apuntes/escolar/matematicas/estadistica/disbidimension/recta-de-regresion.html
Ucha, AP (2021, 19 février). Coefficient de corrélation linéaire . Economipédie. https://economipedia.com/definiciones/coeficiente-de-correlacion-lineal.html