Varianza

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:Nota disambigua Template:F

Esempio di campioni da due popolazioni con la stessa media ma diversa varianza.
Esempio di campioni da due popolazioni con la stessa media ma diversa varianza. La popolazione rossa ha media 100 e varianza 100 (SD=10), invece la popolazione blu ha media 100 e varianza 2500 (SD=50).

In statistica e in teoria della probabilità la varianza di una variabile statistica o di una variabile aleatoria X è una funzione, indicata con σX2 o con Var(X) (o semplicemente con σ2 se la variabile è sottintesa), che fornisce una misura della variabilità dei valori assunti dalla variabile stessa; nello specifico, la misura di quanto essi si discostino quadraticamente rispettivamente dalla media aritmetica o dal valore atteso 𝔼[X]. La varianza è una misura di dispersione, ossia una misura di quanto un dato insieme di numeri si discosta dal suo valore medio. Se X assume valori lontani dalla sua media, la sua varianza sarà conseguentemente grande. Al contrario, se la variabile aleatoria rimane costante, la sua varianza sarà nulla. Essa rappresenta il momento centrato del second'ordine della variabile X, se esiste finito, e la covarianza tra la variabile aleatoria e sé stessa.

Il termine di "varianza" venne introdotto nel 1918 da Ronald Fisher[1] e sostituì nel tempo la denominazione di "deviazione standard quadratica" utilizzata da Karl Pearson.

Probabilità

Definizione

La varianza della variabile aleatoria X è definita come il valore atteso del quadrato della variabile aleatoria centrata X𝔼[X]

σX2=𝔼[(X𝔼[X])2].

Un esempio di "misura" dello scostamento di una variabile aleatoria dalla media è dato dalla disuguaglianza di Čebyšëv che controlla questo scostamento in termini dello scarto tipo:

P(|X𝔼[X]|λσX)1λ2,

dove σX=σX2

Proprietà

Segno della varianza

La varianza di una variabile aleatoria non è mai negativa, ed è zero solamente quando la variabile assume quasi certamente un solo valore x0, cioè se P(X=x0)=1.

Massimo e minimo della varianza fissati i valori estremi della distribuzione

Dato un insieme di n unità statistiche, dove min e max sono i valori minimo e massimo tra le unità, il massimo valore che può assumere la varianza è uguale a

σmax2=(maxmin)24.

Se dalle osservazioni si conosce soltanto la media μ, il valore è uguale a

σmax2=μ2(n1).

Espressione della varianza come differenza tra il momento di ordine 2 e il quadrato del valore atteso

Template:Vedi anche Una formula alternativa per la varianza è

σX2=𝔼[X2]𝔼[X]2.

Questa formula è più pratica per calcolare la varianza.

Template:Approfondimento

Invarianza per traslazione

La varianza è invariante per traslazione, che lascia fisse le distanze dalla media, e cambia quadraticamente per riscalamento:

σaX+b2=a2σX2

Template:Approfondimento

Varianza della somma di due variabili indipendenti

La varianza della somma di due variabili indipendenti o anche solo incorrelate è pari alla somma delle loro varianze

σX+Y2=σX2+σY2.

Template:Approfondimento

Varianza della differenza di due variabili indipendenti

Usando le due precedenti affermazioni, possiamo dire che la varianza della differenza di due variabili indipendenti è pari alla somma delle loro varianze

σXY2=σX+(Y)2=σX2+σY2=σX2+σY2.

Varianza della somma di due variabili non indipendenti

Se X e Y non sono indipendenti, la formula viene corretta dalla loro covarianza,

σX+Y2=σX2+σY2+2σX,Y,

dove

σX,Y=𝔼[XY]𝔼[X]𝔼[Y].

Varianza della media aritmetica di variabili indipendenti

In particolare, la media aritmetica X¯=X1++Xnn di n variabili aleatorie indipendenti aventi la medesima distribuzione, ha varianza aritmetica

σX¯2=1n2σX1++Xn2=1nσX12.

Variabili aleatorie discrete e continue

La varianza di una variabile aleatoria discreta X a valori in un insieme A si calcola attraverso la sua funzione di probabilità:

𝔼[X]=xAxP(X=x)
σX2=xA(x𝔼[X])2P(X=x).

La varianza di una variabile aleatoria continua X a valori in un insieme A si calcola attraverso la sua densità di probabilità:

𝔼[X]=Axf(x)dx
σX2=A(x𝔼[X])2f(x)dx.

Esempio

Una variabile aleatoria di Bernoulli X, cioè che ha probabilità p di fornire "1" e probabilità q=1p di fornire "0", ha valore atteso

𝔼[X]=0P(X=0)+1P(X=1)=P(X=1)=p,

e la sua varianza può essere calcolata come

σX2=𝔼[(X𝔼[X])2]=𝔼[(Xp)2]=p2P(X=0)+q2P(X=1)=pq(p+q)=pq,

oppure come

σX2=𝔼[X2]𝔼[X]2=P(X=1)p2=p(1p)=pq.

Statistica

In statistica la varianza è un indice di variabilità. Data una distribuzione di un carattere quantitativo X su una popolazione di n elementi, la varianza è la media aritmetica del quadrato delle distanze dei valori dalla loro media

σX2=i(xiμX)2n,

dove μX=ixin è la media aritmetica di X.

Nel caso si disponga della distribuzione di frequenze di un carattere, è possibile calcolare più facilmente la varianza attraverso la seguente formula:

σX2=1nj=1K(xjμX)2nj

dove Krappresenta il numero di modalità in cui si presenta il carattere X, mentre xj e nj sono rispettivamente la j-esima modalità di X e la relativa frequenza assoluta.

A partire dalla precedente formula, ricordando che nj/n=fj, si ricava anche:

σX2=j=1K(xjμX)2fj

dove fj è la frequenza relativa della j-esima modalità.

Esiste, infine, una formula semplificata per il calcolo della varianza:

σX2=(1ni=1nxi2)μX2.

Le formule corrispondenti alla precedente che fanno uso della frequenza assoluta e di quella relativa sono:

σX2=1nj=1Kxj2njμX2
σX2=j=1Kxj2fjμX2.

Un difetto della varianza è quello di non avere la stessa unità di misura dei valori analizzati (se, per esempio, questi sono in cm, la varianza sarà in cm2), perciò in statistica viene molto spesso utilizzata anche la radice quadrata della varianza, vale a dire lo scarto quadratico medio (o deviazione standard o scarto tipo) σX=σX2. Con riferimento a questa notazione la varianza si trova quindi anche indicata come σ2.

Stimatori

In statistica si utilizzano solitamente due stimatori per la varianza su un campione di cardinalità n:

Sn2=i=1n(xix¯)2n e Sn12=i=1n(xix¯)2n1,

dove x¯=x1++xnn è la media campionaria. Il primo è detto varianza campionaria, mentre il secondo è detto varianza campionaria corretta a causa della sua proprietà di correttezza. Infatti lo stimatore Sn12 è privo di distorsione, cioè il suo valore atteso è proprio la varianza:

𝔼[Sn12]=σ2(X).

Template:Approfondimento

Al contrario, lo stimatore Sn2 ha un valore atteso diverso dalla varianza, 𝔼[Sn2]=n1nσ2(X).

Una spiegazione del termine n1 è data dalla necessità di stimare anche la media che per il teorema del limite centrale ha varianza 1/n. Se la media è nota, lo stimatore Sn2 diventa corretto. Questa è detta "correzione di Bessel".

Se le Xi sono variabili aleatorie normali N(μ,σ), lo stimatore Sn12 è una variabile aleatoria con distribuzione χ2.

Esempio

Il campione di n=5 elementi {4,1,1,2,7} ha media campionaria pari a:

x¯=41+1+2+75=1

e gli stimatori della varianza valgono rispettivamente

Sn2=(41)2+(11)2+(11)2+(21)2+(71)25=25+4+0+1+365=665=13,2

e

Sn12=6651=16,5.

Note

Voci correlate

Altri progetti

Template:Interprogetto

Collegamenti esterni

Template:Statistica Template:Concetti base di metrologia, statistica e metodologia della ricerca Template:Controllo di autorità Template:Portale