Indice di correlazione di Pearson

Da testwiki.
Versione del 28 gen 2024 alle 16:47 di imported>Lovepeacejoy404 (Esempio in R)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Vai alla navigazione Vai alla ricerca
Esempi di grafici di dispersione con differenti valori di indice di correlazione (ρ)

In statistica, lTemplate:'indice di correlazione di Pearson (anche detto coefficiente di correlazione lineare[1], coefficiente di correlazione di Pearson o coefficiente di correlazione di Bravais-Pearson) tra due variabili statistiche è un indice che esprime un'eventuale relazione di linearità tra esse.[1]

Secondo la disuguaglianza di Cauchy-Schwarz ha un valore compreso tra +1 e 1, dove +1 corrisponde alla perfetta correlazione lineare positiva, 0 corrisponde a un'assenza di correlazione lineare e 1 corrisponde alla perfetta correlazione lineare negativa. Fu sviluppato da Karl Pearson da un'idea introdotta da Francis Galton nel 1880; la formula matematica fu derivata e pubblicata da Auguste Bravais nel 1844.[2][3][4] La denominazione del coefficiente è anche un esempio della legge di Stigler.

Definizione

Date due variabili statistiche X e Y, l'indice di correlazione di Pearson è definito come la loro covarianza divisa per il prodotto delle deviazioni standard delle due variabili:

ρXY=σXYσXσY.

dove σXY è la covarianza tra X e Y e σX,σY sono le due deviazioni standard.

Il coefficiente assume sempre valori compresi tra 1 e 1:[5]

1ρXY1.

Correlazione e indipendenza

Nella pratica si distinguono vari "tipi" di correlazione.

  • Se ρXY>0, le variabili X e Y si dicono direttamente correlate, oppure correlate positivamente;
  • se ρXY=0, le variabili X e Y si dicono incorrelate;
  • se ρXY<0, le variabili X e Y si dicono inversamente correlate, oppure correlate negativamente.

Inoltre per la correlazione diretta (e analogamente per quella inversa) si distingue:

  • se 0<|ρXY|<0,3 si ha correlazione debole;
  • se 0,3<|ρXY|<0,7 si ha correlazione moderata;
  • se |ρXY|>0,7 si ha correlazione forte.

Se le due variabili sono indipendenti allora l'indice di correlazione vale 0. Non vale la conclusione opposta: in altri termini, l'incorrelazione è condizione necessaria ma non sufficiente per l'indipendenza. Per esempio data la distribuzione

X: -3 -2 -1 0 1 2 3
Y: 9 4 1 0 1 4 9

abbiamo che X e Y non sono indipendenti in quanto legate dalla relazione Y=X2, ma ρXY=0.

L'ipotesi di assenza di autocorrelazione è più restrittiva ed implica quella di indipendenza fra due variabili.

L'indice di correlazione vale +1 in presenza di correlazione lineare positiva perfetta (cioè Y=a+bX, con b>0), mentre vale 1 in presenza di correlazione lineare negativa perfetta (cioè Y=a+bX, con b<0).

Valori prossimi a +1 (o 1) possono essere misurati anche in presenza di relazioni non lineari. Per esempio, la seguente relazione quadratica: Y=X2

X: 1 2 3 4
Y: 1 4 9 16

produce un coefficiente ρXY=0,9844.

Generalizzazione a più di due variabili

Gli indici di correlazione di n variabili possono essere presentati in una matrice di correlazione, che è una matrice quadrata di dimensione n×n avente sia sulle righe che sulle colonne le variabili oggetto di studio. La matrice è simmetrica, cioè (ρji=ρij), e i coefficienti sulla diagonale valgono 1, in quanto

ρii=σiiσi2.

Proprietà matematiche

Un valore dell'indice di correlazione uguale a +1 o 1 corrisponde a punti che si trovano esattamente su una linea retta. Il coefficiente di correlazione di Pearson è simmetrico: ρXY=ρYX.

Una proprietà matematica caratteristica del coefficiente di correlazione di Pearson è che non varia rispetto ai cambiamenti singoli della posizione e della scala delle due variabili. Cioè, possiamo trasformare X in a+bX e trasformare Y in c+dY, dove a,b,c e d sono costanti reali con b,d>0, senza modificare il coefficiente di correlazione.

Esempio in R

Utilizzando il linguaggio di programmazione R si vuole calcolare l'indice di correlazione di Pearson tra la variabile Fertility rate, total (births per woman) e la variabile GDP per capita (current US$) nel 2020 , fornite dalla Banca Mondiale qui : https://databank.worldbank.org/reports.aspx?source=world-development-indicators . Per fare questo si utilizza la funzione cor nel seguente modo :

library(dplyr)

World_Bank_Data <- read.csv("World_Bank_Data.csv")

df1 <- World_Bank_Data %>%
  filter(Series.Name=="Fertility rate, total (births per woman)") %>%
  select(Country.Name,X2020..YR2020.)

colnames(df1)[2] <- "Numero di figli per donna"

df2 <- World_Bank_Data %>%
  filter(Series.Name=="GDP per capita (current US$)"   ) %>%
  select(Country.Name,X2020..YR2020.)

colnames(df2)[2] <- "Pil procapite"

df1 <- merge(df1,df2 , by="Country.Name")

df1$`Numero di figli per donna` <- as.numeric(df1$`Numero di figli per donna`)
df1$`Pil procapite` <- as.numeric(df1$`Pil procapite`)

df1 <- df1[-which(is.na(df1$`Pil procapite`)),]
df1 <- df1[-which(is.na(df1$`Numero di figli per donna`)),]

cor(df1$`Numero di figli per donna`,df1$`Pil procapite`,)
-0.4601806

Note

Bibliografia

Voci correlate

Collegamenti esterni

Template:Statistica Template:Controllo di autorità Template:Portale