Distribuzione ipergeometrica

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:F Template:Variabile casuale In teoria delle probabilità la distribuzione ipergeometrica è una distribuzione di probabilità discreta che descrive l'estrazione senza reinserimento di alcune palline, perdenti o vincenti, da un'urna.

L'estrazione con reinserimento (la pallina estratta viene rimessa nell'urna) viene invece descritta dalla distribuzione binomiale.

Ad esempio, estraendo 5 palline da un'urna che ne contiene 3 bianche e 7 nere, il numero di palline bianche estratte è descritto dalla distribuzione ipergeometrica.

Definizione

La distribuzione ipergeometrica (n,h,r) descrive la variabile aleatoria che conta, per r elementi distinti estratti a caso (in modo equiprobabile) da un insieme A di cardinalità n, quanti sono nel sottoinsieme B di cardinalità h. In termini più concreti descrive, data un'urna contenente h palline bianche e n-h palline nere, il numero di palline bianche che vengono ottenute estraendo senza reinserimento r palline.

La probabilità di ottenere esattamente k elementi in B è

P(k)=(hk)(nhrk)(nr).

Questa probabilità, espressa tramite i coefficienti binomiali (ab)=a!b!(ab)!, si può ricavare tramite il calcolo combinatorio:

(nr) è il numero di possibili estrazioni di r elementi da A,
(hk) è il numero di possibili estrazioni di k elementi tra gli h di B,
(nhrk) è il numero di possibili estrazioni dei restanti r-k elementi tra gli n-h non in B.

Definizione alternativa

Una definizione equivalente considera gli elementi estratti come un sottoinsieme C di A. In questo modo la cardinalità dell'intersezione BC di due insiemi B e C, scelti a caso (con distribuzione uniforme) tra i sottoinsiemi di A con cardinalità fissate, è descritta dalla distribuzione ipergeometrica (#A,#B,#C).

Proprietà

Cardinalità delle intersezioni
B A-B A
C k r-k r
A-C h-k n-r-h+k n-r
A h n-h n

La formula per la probabilità presenta varie simmetrie, che si possono ricavare scambiando i ruoli che svolgono i quattro insiemi vincenti (B), non vincenti (A-B), estratti (C) e non estratti (A-C). In particolare

  • scambiando vincenti con estratti
Pn,h,r(k)=Pn,r,h(k) 
  • scambiando vincenti con non vincenti
Pn,h,r(k)=Pn,nh,r(rk) 
  • scambiando estratti con non estratti
Pn,h,r(k)=Pn,h,nr(hk) 

Caratteristiche

Senza bisogno di fare calcoli con i coefficienti binomiali, il valore atteso di N si può ottenere considerando per ogni elemento b di B la variabile aleatoria Xb che vale 1 se b viene estratto e 0 altrimenti. In questo modo si ha N=k=1,..,rXk, dove ogni Xk segue la distribuzione di Bernoulli (h/n); anche se, a differenza della distribuzione binomiale, le variabili Xk non sono indipendenti tra di loro, per la linearità del valore atteso si ottiene

E[N]=k=1,..,rE[Xk]=rhn.

È possibile procedere nella stessa maniera per calcolare la varianza di N tramite la varianza e la covarianza delle Xb:

Var(N)=iVar(Xi)+ijcov(Xi,Xj)=r(nr)h(nh)n2(n1);

in particolare, i fattori che compaiono al numeratore sono le cardinalità dei quattro insiemi "estratti", "non estratti", "vincenti" e "non vincenti".

Altre distribuzioni

Per una singola estrazione la distribuzione ipergeometrica (n,h,1) coincide con la distribuzione di Bernoulli (h/n).

A differenza della distribuzione ipergeometrica, la distribuzione binomiale (h/n,r) corrisponde ad un processo in cui dopo ogni estrazione la pallina viene reintrodotta nell'urna, lasciando invariata la probabilità di estrarre in seguito una pallina vincente. Per valori di n e h molto grandi rispetto a r, e per h/n non vicino a 0 né a 1, ad ogni estrazione le probabilità restano quasi uguali. In statistica (ad esempio nei sondaggi) questa approssimazione viene accettata per h<n/10.

La distribuzione ipergeometrica può essere generalizzata considerando differenti le probabilità di estrarre le singole palline, ovvero utilizzando una distribuzione non uniforme sull'insieme A.

Un'altra generalizzazione della distribuzione ipergeometrica è la distribuzione ipergeometrica multivariata, che prevede che nell'urna siano presenti palline di più di due colori, ovvero in cui l'insieme A non è più partizionato nei soli due insiemi B e A-B, ma in B1,...,Bs (insiemi disgiunti la cui unione è A). La distribuzione non descrive più la probabilità che k elementi siano in B e r-k in A-B, bensì la probabilità che k1 siano in B1, k2 in B2, e così via, per ogni (k1,...,ks)s con k1+...+ks=r:

P(k1,...,ks)=(h1k1)(hsks)(nr).

Questa distribuzione di probabilità si rapporta alla distribuzione multinomiale esattamente come la distribuzione ipergeometrica si rapporta alla distribuzione binomiale.

Esempio

Un esempio di distribuzione ipergeometrica è dato dal gioco d'azzardo win for Life, in cui su un totale di n=20 numeri disponibili h=10 vengono scelti dal giocatore e r=10 vengono estratti. La probabilità di indovinarne k è governata dalla distribuzione ipergeometrica (20,10,10),

P(k)=P(10k)=(10k)(201010k)(2010)=(10k)2(2010)=(10!)420!(1k!(10k)!)2.

In particolare si possono calcolare facilmente le probabilità di vincita, proporzionali ai quadrati dei coefficienti binomiali (10k); ad esempio la probabilità che vengano estratti esattamente 6 (oppure 4) degli elementi scelti è

P(6)=P(4)=(10!6!4!)220!10!10!=441001847560,24.

Voci correlate

Altri progetti

Template:Interprogetto

Collegamenti esterni

Template:Probabilità Template:Portale