Scomposizione della devianza

Da testwiki.
Vai alla navigazione Vai alla ricerca

La scomposizione della devianza è un'operazione utilizzata in statistica per calcolare, tra le altre cose, il coefficiente di determinazione e la statistica test ANOVA. Data una variabile numerica y si chiama devianza la somma degli scarti quadratici dalla media campionaria i(yiy¯)2; questa quantità si può scomporre in una parte "spiegata" da una o più variabili x e una parte "residua"; la somma di queste due parti è costante e corrisponde alla devianza totale.

Devianza tra e entro gruppi

Quattro boxplot di una variabile numerica y distinta tra due gruppi. Negli esempi a sinistra la devianza tra gruppi è chiaramente maggiore a quella entro gruppi, perché i valori di y sono ben distinti tra gruppi diversi. Negli esempi a destra accade invece il contrario.

Quando si dispone di k gruppi distinti di nj osservazioni ciascuno di una variabile numerica y, si può calcolare la devianza complessiva di y ignorando la distinzione tra gruppi, e la si può scomporre in due quantità SSW (devianza entro gruppi, in inglese Sum of Squares Within) e SSB (devianza tra gruppi, in inglese Sum of Squares Between):

  • la media campionaria di y nel j-esimo gruppo si indica come y¯j;
  • la devianza di y entro il j-esimo gruppo si indica come SSj;
  • la media campionaria generale di y si indica come y¯, e la devianza totale di y si indica come SST;
  • SSW=j=1kSSj;
  • SSB=j=1knj(y¯jy¯)2;
  • SST=SSW+SSB.

La devianza tra gruppi sarà maggiore di quella entro gruppi quando i valori di y sono ben distinti tra gruppi diversi, e sarà invece bassa quando le medie locali y¯j si assomigliano. Nel caso limite in cui esse siano tutte uguali, SSB=0. Questa scomposizione si può usare per creare il coefficiente η2=SSB/SST, che indica la proporzione della devianza totale di y che nasce dall'eterogeneità dei gruppi sui quali la variabile viene osservata[1]. In virtù della relazione tra devianza e varianza, introducendo i propri denominatori alle equazioni sopra, si ricava la scomposizione della varianza, la quale ha il vantaggio di ricondurre le quantità empiriche sopra alle proprietà della variabile casuale y e permette di condurre i test delle ipotesi che vanno sotto il nome di ANOVA (ANalisys Of VAriance).

Devianza spiegata e residua

In questi due esempi di regressione lineare semplice, la devianza spiegata è uguale, mentre quella residua è differente, perciò il valore R quadro varia anch'esso

Quando si dispone di due variabili numeriche y e x, si può analizzare la relazione tra le due variabili con un modello lineare semplice, in questo modo, per misurare l'associazione tra le due variabili, si può scomporre la devianza totale di y (la variabile usata come outcome nel modello lineare) in devianza residua SSR e spiegata SSM (Sum of Squares of Model):

  • si indica con y^i il valore di yi previsto dal modello;
  • SSR=i=1n(yiy^i)2;
  • SSM=i=1n(y^iy¯)2.

Il rapporto tra SSM e devianza totale di y SST dà luogo al coefficiente di determinazione R2, il quale è anche il quadrato del coefficiente di correlazione di Pearson R. Come si può notare dalle equazioni, R2 è tanto maggiore quando i valori di y risultano vicini a quelli previsti del modello, mentre diminuisce quando il modello prevede valori molto vicini tra loro nella scala della y.

Chiaramente, questo metodo è facilmente estendibile a un numero maggiore di variabili x utilizzando una regressione multivariata, in tal caso il coefficiente R2 perde il suo valore di indice di associazione tra variabili e si volge ad indicare la capacità del modello lineare di determinare appunto il valore di ciascuna y osservata, o, in altre parole, la capacità del modello di "spiegare" appunto la variabilità di y; si definisce invece "residua" la devianza (e la rispettiva varianza) di y che il modello non riesce a spiegare per mezzo dei predittori x.

Si può verificare facilmente che nel caso di una sola variabile esplicativa x categorica, i gruppi definiti dalle categorie di quella variabile danno luogo alle equazioni SSR=SSW e SSM=SSB, perciò η2=R2.

Note

Template:Portale