Informazione di Fisher

Da testwiki.
Vai alla navigazione Vai alla ricerca

Template:F In statistica e teoria dell'informazione, l'informazione di Fisher è la varianza dello score (derivata logaritmica) associato a una data funzione di verosimiglianza. L'informazione di Fisher, che prende il nome dal celebre genetista e statistico Ronald Fisher, può essere interpretata come l'ammontare di informazione contenuta da una variabile casuale osservabile X, concernente un parametro non osservabile ϑ, da cui dipende la distribuzione di probabilità di χ.

Denotando l'informazione di Fisher con (ϑ), poiché il valore atteso dello score è nullo, la sua varianza è pari al suo momento del secondo ordine, così che:

(ϑ)=E[(ϑlnf(X;ϑ))2],

dovef(X;ϑ) denota la funzione di verosimiglianza. Una scrittura equivalente è:

(ϑ)=E[2ϑ2lnf(X;ϑ)]

ossia meno il valore atteso della derivata seconda della funzione di verosimiglianza rispetto a ϑ; l'informazione di Fisher può dunque essere letta come una misura della curvatura della verosimiglianza in corrispondenza della stima di massima verosimiglianza per ϑ. Una verosimiglianza "piatta", con una derivata seconda modesta, comporterà minore informazione, laddove una maggiore curvatura apporterà una maggiore quantità di informazione.

Proprietà

Additività

L'informazione di Fisher è additiva, nel senso che l'informazione relativa a due esperimenti indipendenti è la somma delle informazioni associate a ciascuno di essi:

X,Y(ϑ)=X(ϑ)+Y(ϑ).

Il risultato discende immediatamente dal fatto che la varianza della somma di due variabili casuali indipendenti è la somma delle loro varianze. Ne consegue che l'informazione contenuta in un campione casuale di n osservazioni indipendenti è uguale a n volte l'informazione contenuta in una singola osservazione.

Informazione di Fisher e sufficienza

L'informazione di Fisher contenuta da una statistica sufficiente è la stessa contenuta nell'intero campione X su cui la statistica è calcolata. Il risultato segue dal criterio di fattorizzazione per la sufficienza di una statistica: se T() è una statistica sufficiente per ϑ, allora esistono due funzioni g(), h() tali che:

f(X;ϑ)=g(T(X);ϑ)h(X).

L'uguaglianza dell'informazione di Fisher discende allora da:

ϑlnf(X;ϑ)=ϑlng(T(X);ϑ),

poiché h(X) non dipende da ϑ. In generale, se T=t(X) è una statistica, allora:

T(ϑ)X(ϑ),

dove l'uguaglianza vige solo per statistiche sufficienti.

Informazione di Fisher ed efficienza

La disuguaglianza di Cramér-Rao stabilisce un collegamento tra informazione di Fisher e varianza di uno stimatore corretto; in particolare, dato uno stimatore corretto per il parametro ϑ, ϑ^:

Var(ϑ^)1(ϑ).

Illustrazione

Si consideri il caso di un campione di n osservazioni indipendenti, Bernoulliane, ciascuna con una probabilità di "successo" ϑ. L'informazione di Fisher associata può essere calcolata come segue; sia A il numero dei "successi", e B il numero di "insuccessi", con ovviamente: n=A+B; allora:

(ϑ)=E[2ϑ2lnf(A;ϑ)]=E[2ϑ2ln(ϑA(1ϑ)B(A+B)!A!B!)]=E[2ϑ2(Alnϑ+Bln(1ϑ)+ln(A+B)!A!B!)]=
=E[ϑ(AϑB1ϑ)]=E[Aϑ2+B(1ϑ)2]=nϑϑ2+n(1ϑ)(1ϑ)2=nϑ(1ϑ).

Il risultato è in accordo con l'intuizione circa la natura del problema in esame, in quanto (ϑ) è in questo caso il reciproco della varianza della media delle n osservazioni Bernoulliane.

Informazione di Fisher nel caso multivariato

Nel caso in cui vi sia un vettore di parametri θ=[ϑ1ϑ2ϑd]d, l'informazione di Fisher è una matrice quadrata di dimensione d, con elemento (m,n) definito da:

(ϑ)m,n=E[ϑmlnf(X;θ)ϑnlnf(X;θ)].

L'informazione di Fisher è in tal caso, inoltre, una matrice simmetrica, nonché definita positiva, e definisce una metrica sullo spazio dei parametri; queste ultime considerazioni rientrano nell'ambito di applicazione della geometria differenziale (si veda anche metrica dell'informazione di Fisher).

Illustrazione: variabile casuale normale multivariata

Considerando un vettore aleatorio 𝐱𝒩(μ(θ),Σ(θ)) di dimensione N, la matrice informazione di Fisher associata ha per generico elemento di ordine (m,n):

(θ)m,n=μϑmΣ1μϑn+12tr(Σ1ΣϑmΣ1Σϑn),

dove:

  • μϑm=[μ1ϑmμ2ϑmμNϑm]
  • μϑm=(μϑm)=[μ1ϑmμ2ϑmμNϑm]
  • Σϑm=[Σ1,1ϑmΣ1,2ϑmΣ1,NϑmΣ2,1ϑmΣ2,2ϑmΣ2,NϑmΣN,1ϑmΣN,2ϑmΣN,Nϑm]

e tr() denota l'operatore traccia della matrice.

Informazione osservata

Accanto all'informazione di Fisher, detta anche informazione attesa, si definisce l'informazione osservata, come l'opposto della derivata seconda della log-verosimiglianza calcolato in corrispondenza alla stima di massima verosimiglianza:

𝒥(ϑ^)=2ϑ^2lnf(X;ϑ^).

A livello interpretativo si può dire che l'informazione attesa, che dipende dal parametro ma non dal campione, è una misura dell'informazione portata da un generico campione per il dato esperimento, mentre l'informazione osservata, che dipende solo dal campione, misura l'informazione portata dal campione osservato.

Sotto opportune ipotesi l'informazione osservata è uno stimatore consistente dell'informazione attesa.

Voci correlate

Collegamenti esterni

Template:Controllo di autorità Template:Portale