Distanza di Cook

Da testwiki.
Vai alla navigazione Vai alla ricerca

La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]

Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.

Definizione

Un modello di regressione può essere definito come

𝐲n×1=𝐗n×pβp×1+ϵn×1

dove ϵ𝒩(0,σ2𝐈) è il termine di errore, β=[β0β1βp1]𝖳 è la matrice dei coefficienti, p il numero di variabili indipendenti, e 𝐗 è la matrice del modello. Lo stimatore dei minimi quadrati è 𝐛=(𝐗𝖳𝐗)1𝐗𝖳𝐲, e di conseguenza la risposta predetta per la media di 𝐲 è

𝐲^=𝐗𝐛=𝐗(𝐗𝖳𝐗)1𝐗𝖳𝐲=𝐇𝐲

dove 𝐇𝐗(𝐗𝖳𝐗)1𝐗𝖳 è la matrice di proiezione. L'i-esimo elemento della diagonale di 𝐇, dato da hi𝐱i𝖳(𝐗𝖳𝐗)1𝐱i,[4] è noto come leverage dell' i-esima osservazione. Analogamente, l' i-esimo elemento del vettore dei residui 𝐞=𝐲𝐲^=(𝐈𝐇)𝐲 è indicato con ei.

La distanza di Cook Di dell'osservazione i(i=1,,n) è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione i è rimossa dall'analisi[5]

Di=j=1n(y^jy^j(i))2ps2

dove y^j(i) è la risposta ottenuta escludendo l'i-esima osservazione, e s2(np)1𝐞𝐞 è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]

Di=ei2s2p[hi(1hi)2]

Determinazione di osservazioni ad alta influenza

Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede Di>1 è usata da alcuni autori,[7] mentre altri autori suggeriscono Di>4/n, dove n è il numero di osservazioni.[8]

Note

Bibliografia

Voci correlate

Template:Portale