Informazione di Fisher

Template:F In statistica e teoria dell'informazione, l'informazione di Fisher è la varianza dello score (derivata logaritmica) associato a una data funzione di verosimiglianza. L'informazione di Fisher, che prende il nome dal celebre genetista e statistico Ronald Fisher, può essere interpretata come l'ammontare di informazione contenuta da una variabile casuale osservabile $X$ , concernente un parametro non osservabile $ϑ$ , da cui dipende la distribuzione di probabilità di $χ$ .

Denotando l'informazione di Fisher con $ℐ (ϑ)$ , poiché il valore atteso dello score è nullo, la sua varianza è pari al suo momento del secondo ordine, così che:

ℐ (ϑ) = E [{(\frac{\partial}{\partial ϑ} \ln f (X; ϑ))}^{2}],

dove $f (X; ϑ)$ denota la funzione di verosimiglianza. Una scrittura equivalente è:

ℐ (ϑ) = - E [\frac{\partial^{2}}{\partial ϑ^{2}} \ln f (X; ϑ)]

ossia meno il valore atteso della derivata seconda della funzione di verosimiglianza rispetto a $ϑ$ ; l'informazione di Fisher può dunque essere letta come una misura della curvatura della verosimiglianza in corrispondenza della stima di massima verosimiglianza per $ϑ$ . Una verosimiglianza "piatta", con una derivata seconda modesta, comporterà minore informazione, laddove una maggiore curvatura apporterà una maggiore quantità di informazione.

Proprietà

Additività

L'informazione di Fisher è additiva, nel senso che l'informazione relativa a due esperimenti indipendenti è la somma delle informazioni associate a ciascuno di essi:

ℐ_{X, Y} (ϑ) = ℐ_{X} (ϑ) + ℐ_{Y} (ϑ) .

Il risultato discende immediatamente dal fatto che la varianza della somma di due variabili casuali indipendenti è la somma delle loro varianze. Ne consegue che l'informazione contenuta in un campione casuale di $n$ osservazioni indipendenti è uguale a $n$ volte l'informazione contenuta in una singola osservazione.

Informazione di Fisher e sufficienza

L'informazione di Fisher contenuta da una statistica sufficiente è la stessa contenuta nell'intero campione $X$ su cui la statistica è calcolata. Il risultato segue dal criterio di fattorizzazione per la sufficienza di una statistica: se $T (\cdot)$ è una statistica sufficiente per $ϑ$ , allora esistono due funzioni $g (\cdot)$ , $h (\cdot)$ tali che:

f (X; ϑ) = g (T (X); ϑ) h (X) .

L'uguaglianza dell'informazione di Fisher discende allora da:

\frac{\partial}{\partial ϑ} \ln f (X; ϑ) = \frac{\partial}{\partial ϑ} \ln g (T (X); ϑ),

poiché $h (X)$ non dipende da $ϑ$ . In generale, se $T = t (X)$ è una statistica, allora:

ℐ_{T} (ϑ) \leq ℐ_{X} (ϑ),

dove l'uguaglianza vige solo per statistiche sufficienti.

Informazione di Fisher ed efficienza

La disuguaglianza di Cramér-Rao stabilisce un collegamento tra informazione di Fisher e varianza di uno stimatore corretto; in particolare, dato uno stimatore corretto per il parametro $ϑ$ , $\hat{ϑ}$ :

Var (\hat{ϑ}) \geq \frac{1}{ℐ (ϑ)} .

Illustrazione

Si consideri il caso di un campione di $n$ osservazioni indipendenti, Bernoulliane, ciascuna con una probabilità di "successo" $ϑ$ . L'informazione di Fisher associata può essere calcolata come segue; sia $A$ il numero dei "successi", e $B$ il numero di "insuccessi", con ovviamente: $n = A + B$ ; allora:

ℐ (ϑ) = - E [\frac{\partial^{2}}{\partial ϑ^{2}} \ln f (A; ϑ)] = - E [\frac{\partial^{2}}{\partial ϑ^{2}} \ln (ϑ^{A} (1 - ϑ)^{B} \frac{(A + B)!}{A! B!})] = - E [\frac{\partial^{2}}{\partial ϑ^{2}} (A \ln ϑ + B \ln (1 - ϑ) + \ln \frac{(A + B)!}{A! B!})] =

= - E [\frac{\partial}{\partial ϑ} (\frac{A}{ϑ} - \frac{B}{1 - ϑ})] = E [\frac{A}{ϑ^{2}} + \frac{B}{(1 - ϑ)^{2}}] = \frac{n ϑ}{ϑ^{2}} + \frac{n (1 - ϑ)}{(1 - ϑ)^{2}} = \frac{n}{ϑ (1 - ϑ)} .

Il risultato è in accordo con l'intuizione circa la natura del problema in esame, in quanto $ℐ (ϑ)$ è in questo caso il reciproco della varianza della media delle $n$ osservazioni Bernoulliane.

Informazione di Fisher nel caso multivariato

Nel caso in cui vi sia un vettore di parametri $𝜽 = {[\begin{matrix} ϑ_{1} & ϑ_{2} & \dots & ϑ_{d} \end{matrix}]}^{'} \in ℝ^{d}$ , l'informazione di Fisher è una matrice quadrata di dimensione $d$ , con elemento $(m, n)$ definito da:

ℐ (ϑ)_{m, n} = E [\frac{\partial}{\partial ϑ_{m}} \ln f (X; 𝜽) \frac{\partial}{\partial ϑ_{n}} \ln f (X; 𝜽)] .

L'informazione di Fisher è in tal caso, inoltre, una matrice simmetrica, nonché definita positiva, e definisce una metrica sullo spazio dei parametri; queste ultime considerazioni rientrano nell'ambito di applicazione della geometria differenziale (si veda anche metrica dell'informazione di Fisher).

Illustrazione: variabile casuale normale multivariata

Considerando un vettore aleatorio $𝐱 \sim 𝒩 (μ (𝜽), Σ (𝜽))$ di dimensione $N$ , la matrice informazione di Fisher associata ha per generico elemento di ordine $(m, n)$ :

ℐ (𝜽)_{m, n} = \frac{\partial μ}{\partial ϑ_{m}} Σ^{- 1} \frac{\partial μ^{'}}{\partial ϑ_{n}} + \frac{1}{2} t r (Σ^{- 1} \frac{\partial Σ}{\partial ϑ_{m}} Σ^{- 1} \frac{\partial Σ}{\partial ϑ_{n}}),

dove:

$\frac{\partial μ}{\partial ϑ_{m}} = [\begin{matrix} \frac{\partial μ_{1}}{\partial ϑ_{m}} & \frac{\partial μ_{2}}{\partial ϑ_{m}} & \dots & \frac{\partial μ_{N}}{\partial ϑ_{m}} \end{matrix}]$
$\frac{\partial μ^{'}}{\partial ϑ_{m}} = (\frac{\partial μ}{\partial ϑ_{m}}) = [\begin{matrix} \frac{\partial μ_{1}}{\partial ϑ_{m}} \\ \frac{\partial μ_{2}}{\partial ϑ_{m}} \\ ⋮ \\ \frac{\partial μ_{N}}{\partial ϑ_{m}} \end{matrix}]$
$\frac{\partial Σ}{\partial ϑ_{m}} = [\begin{matrix} \frac{\partial Σ_{1, 1}}{\partial ϑ_{m}} & \frac{\partial Σ_{1, 2}}{\partial ϑ_{m}} & \dots & \frac{\partial Σ_{1, N}}{\partial ϑ_{m}} \\ \frac{\partial Σ_{2, 1}}{\partial ϑ_{m}} & \frac{\partial Σ_{2, 2}}{\partial ϑ_{m}} & \dots & \frac{\partial Σ_{2, N}}{\partial ϑ_{m}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial Σ_{N, 1}}{\partial ϑ_{m}} & \frac{\partial Σ_{N, 2}}{\partial ϑ_{m}} & \dots & \frac{\partial Σ_{N, N}}{\partial ϑ_{m}} \end{matrix}]$

e $tr (\cdot)$ denota l'operatore traccia della matrice.

Informazione osservata

Accanto all'informazione di Fisher, detta anche informazione attesa, si definisce l'informazione osservata, come l'opposto della derivata seconda della log-verosimiglianza calcolato in corrispondenza alla stima di massima verosimiglianza:

𝒥 (\hat{ϑ}) = - \frac{\partial^{2}}{\partial {\hat{ϑ}}^{2}} \ln f (X; \hat{ϑ}) .

A livello interpretativo si può dire che l'informazione attesa, che dipende dal parametro ma non dal campione, è una misura dell'informazione portata da un generico campione per il dato esperimento, mentre l'informazione osservata, che dipende solo dal campione, misura l'informazione portata dal campione osservato.

Sotto opportune ipotesi l'informazione osservata è uno stimatore consistente dell'informazione attesa.

Voci correlate

Collegamenti esterni

Template:Collegamenti esterni

Template:Controllo di autorità Template:Portale

Informazione di Fisher

Indice

Proprietà

Additività

Informazione di Fisher e sufficienza

Informazione di Fisher ed efficienza

Illustrazione

Informazione di Fisher nel caso multivariato

Illustrazione: variabile casuale normale multivariata

Informazione osservata

Voci correlate

Collegamenti esterni

Menu di navigazione

Informazione di Fisher

Proprietà

Additività

Informazione di Fisher e sufficienza

Informazione di Fisher ed efficienza

Illustrazione

Informazione di Fisher nel caso multivariato

Illustrazione: variabile casuale normale multivariata

Informazione osservata

Voci correlate

Collegamenti esterni

Menu di navigazione

Ricerca