Distanza di Cook
La distanza di Cook, introdotta nel 1977 dallo statistico statunitense Ralph Dennis Cook,[1][2] è una funzione comunemente usata per stimare l'influenza di un singolo punto in un'analisi di regressione ai minimi quadrati.[3]
Punti con elevato residuo (outlier) o elevato leverage possono distorcere il risultato e l'accuratezza di un'analisi di regressione. La distanza di Cook misura l'effetto causato sull'analisi dalla rimozione di un certo dato, e nell'analisi con il metodo dei minimi quadrati ordinario può essere usata per indicare punti ad alta influenza, di cui sarebbe importante controllare la validità, o per individuare regioni dello spazio nelle quali sarebbe necessario acquisire più dati.
Definizione
Un modello di regressione può essere definito come
dove è il termine di errore, è la matrice dei coefficienti, il numero di variabili indipendenti, e è la matrice del modello. Lo stimatore dei minimi quadrati è , e di conseguenza la risposta predetta per la media di è
dove è la matrice di proiezione. L'-esimo elemento della diagonale di , dato da ,[4] è noto come leverage dell' -esima osservazione. Analogamente, l' -esimo elemento del vettore dei residui è indicato con .
La distanza di Cook dell'osservazione è definita come la somma dei cambiamenti nel modello di regressione quando l'osservazione è rimossa dall'analisi[5]
dove è la risposta ottenuta escludendo l'-esima osservazione, e è l'errore quadratico medio del modello di regressione.[6] Equivalentemente, la distanza di Cook può essere espressa come funzione del leverage[5]
Determinazione di osservazioni ad alta influenza
Vi sono diverse opinioni riguardo al valore di soglia da usare per stabilire quali osservazioni hanno influenza elevata sull'analisi. Una regola del pollice che richiede è usata da alcuni autori,[7] mentre altri autori suggeriscono , dove è il numero di osservazioni.[8]