Analisi della correlazione canonica

Da testwiki.
Vai alla navigazione Vai alla ricerca

In statistica, l'analisi della correlazione canonica (CCA nell'acronimo inglese) è un metodo per inferire informazioni da matrici di covarianza incrociata. Dati due vettori di variabili aleatorie X=(X1,,Xn) e Y=(Y1,,Ym) con correlazioni fra di esse, la CCA mira a trovare combinazioni lineari di X e Y che presentino la massima correlazione fra loro[1]. Il metodo è stato proposto per primo da Harold Hotelling nel 1936, sebbene l'idea fosse presente già nel 1875 in una pubblicazione[2] del matematico Camille Jordan.

Definizione

Dati due vettori colonna X=(x1,,xn) e Y=(y1,,ym) di variabili aleatorie, si definisce la covarianza incrociata ΣXY=cov(X,Y) come matrice n×m il cui elemento (i,j) è la covarianza cov(xi,yj). Nella pratica, si stima la matrice di covarianza in base a dati campionati da X e Y (ossia da una coppia di matrici di dati).

La CCA parte dalla ricerca dei vettori a (an) e b (bm) tali che le variabili aleatorie aTX e bTY massimizzino la correlazione ρ=corr(aTX,bTY). Le variabili aleatorie U=aTX e V=bTY costituiscono la prima coppia di variabili canoniche. Si cercano in seguito i vettori che massimizzano la stessa correlazione con il vincolo aggiuntivo di non essere correlati con la prima coppia di variabili canoniche; si definisce così la seconda coppia di variabili canoniche.

Tale procedura può essere ripetuta fino a min{m,n} volte.

(a,b)=argmaxa,bcorr(aTX,bTY)

Note

Template:Portale