Coefficiente di determinazione

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:S In statistica, il coefficiente di determinazione, più comunemente R2, è un indice che misura il legame tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Intuitivamente, esso è legato alla frazione della varianza non spiegata dal modello.

Definizione

La definizione più generale è la seguente:

R2=1RSSTSS,

con RSS devianza residua (Residual Sum of Squares):

RSS=i=1nei2=i=1n(yiy^i)2

TSS devianza totale (Total Sum of Squares):

TSS=i=1n(yiy)2

dove:

y^i sono i dati stimati dal modello,
yi sono i dati osservati,
y=1ni=1nyi è la media dei dati osservati.


Adjusted R2

LTemplate:'adjusted R2 (o R2¯) (meglio conosciuto in Italiano come R2 corretto o aggiustato) è una variante dell' R2 semplice.

Mentre R2 semplice è utilizzato per l'analisi di regressione lineare semplice come principale indice di bontà della curva di regressione, R2 corretto viene utilizzato per l'analisi di regressione lineare multipla. Esso serve a misurare la frazione di devianza spiegata, cioè la proporzione di variabilità di Y "spiegata" dalla variabile esplicativa X. All'aumentare del numero di variabili esplicative (o predittori) X, aumenta anche il valore di R2, per cui spesso è utilizzato al suo posto R2¯, che serve a misurare la frazione di varianza spiegata.

Il coefficiente R¯2 può essere negativo e vale sempre la disuguaglianza R¯2R2.

R¯2=1n1nk1RSSTSS,

dove:

  • n è il numero delle osservazioni;
  • k è il numero dei regressori.

R2 e Correlazione lineare

Se si ha a disposizione la correlazione tra due variabili discrete, ρX,Y, (o indice di correlazione di Pearson) si può determinare il coefficiente di determinazione, elevando semplicemente al quadrato la correlazione. Viceversa, se si ha a disposizione R2, si può determinare la correlazione, facendo la radice quadrata.

R2=ρX,Y2ρX,Y=R2

dove:

  • ρX,Y è la correlazione tra le variabili X e Y, ottenibile dividendo la covarianza tra le due variabili e il prodotto dei loro scarti quadratici medi ρX,Y=(σX,YσXσY).

La formula empirica di questo modello è il seguente:

R2=ESSTSS,

dove ESS=i=1n(y^iy)2 è la devianza spiegata dal modello (Explained Sum of Squares). Questa definizione è possibile poiché, per regressioni lineari semplici, la devianza può essere scomposta come ESS=TSSRSS.

R2 varia tra e 1: quando è 0 il modello utilizzato offre una spiegazione dei dati non migliore del valore medio (RSS=TSS); quando è 1 il modello spiega perfettamente i dati. Un modello peggiore della media (RSS>TSS) ha coefficiente R2 minore di 0.

Interpretazione

Se R2 o R2¯ sono prossimi a 1, significa che i regressori predicono bene il valore della variabile dipendente in campione; mentre se è uguale a 0, significa che non lo fanno.[1]

I coefficienti R2 e R2¯ non dicono se:

  1. una variabile sia statisticamente significativa;
  2. i regressori sono causa effettiva dei movimenti della variabile dipendente;
  3. c'è una distorsione da variabile omessa;
  4. è stato scelto il gruppo dei regressori più appropriato.

Note

Bibliografia

  • Template:Cita libro 9788871922676
  • Draper, N.R. and Smith, H. (1998). Applied Regression Analysis. Wiley-Interscience. ISBN 0-471-17082-8
  • Everitt, B.S. (2002). Cambridge Dictionary of Statistics (2nd Edition). CUP. ISBN 0-521-81099-X
  • Nagelkerke, Nico J.D. (1992) Maximum Likelihood Estimation of Functional Relationships, Pays-Bas, Lecture Notes in Statistics, Volume 69, 110p ISBN 0-387-97721-X
  • Luigi Fabbris, Statistica multivariata (analisi esplorativa dei dati). 1997, McGrawHill. ISBN 88-386-0765-6

Altri progetti

Template:Interprogetto

Collegamenti esterni

Template:Controllo di autorità Template:Portale