Distribuzione normale

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:Variabile casuale

La distribuzione normale (o distribuzione di Gauss dal nome del matematico tedesco Carl Friedrich Gauss, o distribuzione a Campana di Gauss), nella teoria della probabilità, è una distribuzione di probabilità continua che è spesso usata come prima approssimazione per descrivere variabili casuali a valori reali che tendono a concentrarsi attorno a un singolo valor medio.

Il grafico della funzione di densità di probabilità associata è simmetrico e ha una forma a campana, nota come "curva a campana", "curva normale", "curva gaussiana"[1] o "curva degli errori".[2]

Descrizione

La distribuzione normale è considerata il caso base delle distribuzioni di probabilità continue a causa del suo ruolo nel teorema del limite centrale. Un insieme di valori dato potrebbe essere normale: per stabilirlo si può usare un test di normalità. Più specificamente, assumendo certe condizioni, la somma di n variabili casuali con media e varianza finite tende a una distribuzione normale al tendere di n all'infinito. Grazie a questo teorema, la distribuzione normale si incontra spesso nelle applicazioni pratiche, venendo usata in statistica e nelle scienze naturali e sociali[3] come un semplice modello per fenomeni complessi.

La distribuzione normale dipende da due parametri, la media μ e la varianza σ2, ed è indicata tradizionalmente con:

 N(μ;σ2).[4]

Metodologia

La distribuzione normale è caratterizzata dalla seguente funzione di densità di probabilità, cui spesso si fa riferimento con la dizione curva di Gauss o gaussiana:

f(x)=12πσ2e(xμ)22σ2 con x,

dove μ è il valore atteso e σ2 la varianza.

Per dimostrare che pX(x) è effettivamente una funzione di densità di probabilità si ricorre innanzi tutto alla standardizzazione (statistica) della variabile casuale, cioè alla trasformazione tale per cui risulta:

Z=xμσ,

dove la variabile risultante <Z<+ ha anch'essa distribuzione normale con parametri μ=0 e σ=1. L'integrale della funzione di densità di probabilità della variabile casuale standardizzata Z è il seguente:

S=+pZ(z)dz=+12πez22dz.

Dato che deve necessariamente valere la condizione S=1, allora risulta anche S2=1, quindi:

S2=+pZ(z)dz+pY(y)dy,
S2=12π++ez2+y22dzdy,

dove anche la variabile casuale Y ha distribuzione normale standardizzata. Per risolvere questo integrale doppio si ricorre alle coordinate polari z=ρcosθ e y=ρsinθ, dove ρ0 e 0θ2π. La matrice jacobiana della trasformazione è

J(ρ,θ)=[zρzθyρyθ]=[cosθρsinθsinθρcosθ],

il cui determinante è uguale a |J(ρ,θ)|=ρ(cos2θ+sin2θ)=ρ. Sostituendo nell'integrale di cui sopra si ottiene:

S2=12π0+02πeρ2(cos2θ+sin2θ)2|J(ρ,θ)|dθdρ=0+eρ22ρ dρ=1.

La sua funzione generatrice dei momenti è

g(x)=eμx+σ2x22.

Il valore atteso e la varianza (che sono gli unici due parametri di questa variabile casuale) sono appunto μ e σ2.

Non essendo possibile esprimere l'integrale della pX(x) in forma chiusa mediante funzioni elementari, è necessario rendere disponibili in forma tabellare i valori della sua funzione di ripartizione. I più usati sono:

68,3%=P{μ1,00σ<X<μ+1,00σ};
95,0%=P{μ1,96σ<X<μ+1,96σ};
95,5%=P{μ2,00σ<X<μ+2,00σ};
99,0%=P{μ2,58σ<X<μ+2,58σ};
99,7%=P{μ3,00σ<X<μ+3,00σ}.

Essendo pX(x) una funzione simmetrica, è sufficiente conoscere la funzione di ripartizione dei valori positivi per conoscere pure quella dei valori negativi (e viceversa).

Dalla variabile casuale Normale si possono ottenere altre variabili casuali, come la t di Student, la Chi Quadrato e la F di Fisher-Snedecor, nonché le loro "varianti" non centrali (t non centrale, chi quadrato non centrale e F non centrale).

Teoremi

Combinazione lineare di variabili gaussiane

Se
X1,X2,,Xn sono n variabili casuali Normali tra di loro indipendenti, ciascuna con valore atteso μi e varianza σi2,
allora
la variabile casuale Y=α1X1+α2X2++αnXn è a sua volta una variabile casuale Normale con valore atteso μ=α1μ1+α2μ2++αnμn e varianza σ2=α12σ12+α22σ22++αn2σn2.

Altri teoremi: teorema di Cochran.

Relazioni con altre variabili casuali

La Normale come derivazione da altre voci

I teoremi del limite centrale sono una famiglia di teoremi che hanno in comune l'affermazione che la somma (normalizzata) di un grande numero di variabili casuali è distribuita approssimativamente come una variabile casuale normale.

Se X è distribuita come una variabile casuale binomiale con n molto grande (per dare un'idea di quanto grande, possiamo dire che deve essere n>30), e approssimativamente np>10, allora la binomiale può essere approssimata con una Normale con valore atteso np e varianza npq:N(np;npq).

Se X è distribuita come una variabile casuale poissoniana con il parametro λ molto grande (orientativamente λ>10), allora la Poissoniana può essere approssimata con una Normale con valore atteso e varianza pari a λ:N(λ;λ).

Variabili casuali derivate dalla Normale

Date n distribuzioni normali Z1(0;1);Z2(0;1);Zn(0;1) con media nulla e varianza unitaria indipendenti tra loro. Allora

χn2=Z12+Z22++Zn2

è una variabile casuale chi quadro con n gradi di libertà.

Siano Z1,Z2,,Zn variabili casuali indipendenti distribuite come una Normale con media nulla e varianza unitaria, e siano inoltre a1,a2,,an delle costanti tali che

λ=ai2,

allora si indica con χ'2 la variabile casuale chi quadro non centrale con n gradi di libertà costruita come

χ'2=(Zi+ai)2.

Se ZN(0;1) e Xχn2 tra loro indipendenti, allora T=Z/X/n è distribuita come una t di Student con n gradi di libertà.

Se X1,X2,,Xn i.i.d.𝒩(μ,σ2) e X¯=i=1nXin è la v.c. media campionaria, mentre σ^2=i=1n(XiX¯)2n è la v.c. varianza campionaria non corretta, allora X¯𝒩(μ,σ2n) e nσ^2σ2χ2(n1), inoltre X¯ e σ^2 sono indipendenti.

Se ZN(0;1) e T=β(αZ2+(αZ)24+1)2, allora T è una v.c. di Birnbaum-Saunders con i parametri α e β.

La normale nell'inferenza bayesiana

Variabile casuale Gamma come priori coniugati della normale

Nell'ambito dell'inferenza bayesiana si trova la seguente relazione tra la normale e la distribuzione Gamma.

Se x è una distribuzione normale con parametri μ e 1/θ

f(x|θ)=N(x|μ;1/θ)

e il parametro θ ha una distribuzione Γ con i parametri a e b

g(θ)=Γ(θ|a;b),

allora il parametro θ è distribuito a posteriori anch'esso come una variabile casuale Gamma, ma con parametri a+12 e b+(μx)22:

g(θ|x)=Γ(θ|a+1/2;b+(μx)2/2).

Priori coniugati normale di una normale

Se X è distribuita come una v.c. normale con parametri m e σ2

f(x|m)=N(x|m;1/r2)

e il parametro m è distribuito a priori come una v.c. normale con i parametri μ e σ2

g(m)=N(m|μ;σ2),

allora il parametro m è distribuito a posteriori anch'esso come una v.c. Normale, ma con parametri:

(σ2μ+r2x)/(σ2+r2) e (σ2r2)/(σ2+r2)
g(m|x)=N(m|(σ2μ+r2x)/(σ2+r2);(σ2r2)/(σ2+r2)).

Storia

Abraham de Moivre, nell'ambito dei suoi studi sulla probabilità, introdusse per la prima volta la distribuzione normale in un articolo del 1733. Gauss, che a quel tempo non era ancora nato, ne fu invece un grande utilizzatore: egli propose la "distribuzione normale" studiando il moto dei corpi celesti[5]. Altri la usavano per descrivere fenomeni anche molto diversi come i colpi di sfortuna nel gioco d'azzardo o la distribuzione dei tiri attorno ai bersagli. Da qui i nomi "curva di Gauss" e "curva degli errori".

Nel 1809 il matematico americano Adrain pubblicò due derivazioni della legge normale di probabilità, simultaneamente e indipendentemente da Gauss[6] I suoi lavori rimasero ampiamente ignorati dalla comunità scientifica fino al 1871, allorché furono "riscoperti" da Cleveland Abbe.[7].

Nel 1835 Quételet pubblicò uno scritto nel quale, fra le altre cose, c'erano i dati riguardanti la misura del torace di soldati scozzesi e la statura dei militari di leva francesi. Quételet mostrò come tali dati si distribuivano come una "Gaussiana", ma non andò oltre.

Fu Galton a intuire che la curva in questione, da lui detta anche "ogiva", poteva essere applicata a fenomeni anche molto diversi, e non solo ad "errori". Questa idea di curva per descrivere i "dati" in generale portò ad usare il termine "Normale", in quanto rappresentava un substrato "normale" ovvero la "norma" per qualsiasi distribuzione presente in natura.

Nel tentativo di confrontare curve diverse, Galton - in mancanza di strumenti adeguati - si limitò ad usare due soli parametri: la media e la varianza, dando così inizio alla statistica parametrica.

Note

Bibliografia

Voci correlate

Altri progetti

Template:Interprogetto

Collegamenti esterni

Template:Probabilità Template:Controllo di autorità Template:Portale