Algoritmo EM

Da testwiki.
Vai alla navigazione Vai alla ricerca

In statistica, un algoritmo di aspettazione-massimizzazione o algoritmo expectation-maximization (EM)[1][2] รจ un metodo iterativo per trovare stime (locali) di massima verosimiglianza (o le stime del massimo a posteriori) dei parametri di modelli statistici che dipendono da variabili latenti (non osservate). L'iterazione di EM alterna l'esecuzione di un passo detto expectation (E), che crea una funzione per il valore atteso della verosimiglianza logaritmica calcolata usando la stima dei parametri corrente, e un passo detto maximization (M), che calcola nuove stime dei parametri massimizzando la funzione di verosimiglianza logaritmica attesa trovata al passo E. Tali stime dei parametri possono poi essere usate per determinare la distribuzione delle variabili latenti al passo E dell'iterata successiva.

Descrizione

Dato il modello statistico che genera un insieme ๐— di dati osservati, un insieme ๐™ di dati latenti non osservati o dati mancanti, e un vettore di parametri incogniti ๐œฝ assieme a una funzione di verosimiglianza L(๐œฝ;๐—,๐™)=p(๐—,๐™โˆฃ๐œฝ), la stima di massima verosimiglianza (MLE) dei parametri sconosciuti viene determinata massimizzando la verosimiglianza marginale dei dati osservati

L(๐œฝ;๐—)=p(๐—โˆฃ๐œฝ)=โˆซp(๐—,๐™โˆฃ๐œฝ)d๐™=โˆซp(๐—โˆฃ๐™,๐œฝ)p(๐™โˆฃ๐œฝ)d๐™

Tuttavia determinare questa quantitร  รจ spesso impossibile dato che ๐™ non รจ osservato e la sua distribuzione รจ sconosciuta prima di determinare ๐œฝ.

L'algoritmo EM cerca di trovare la stima della massima verosimiglianza marginale eseguendo iterativamente questi passi:

  • Expectation (E step): Definire Q(๐œฝโˆฃ๐œฝ(t)) come il valore atteso della funzione di verosimiglianza logaritmica per ๐œฝ, rispetto alla distribuzione di probabilitร  condizionata corrente di ๐™ dati ๐— e le stime correnti dei parametri ๐œฝ(t):
Q(๐œฝโˆฃ๐œฝ(t))=E๐™โˆฃ๐—,๐œฝ(t)[logL(๐œฝ;๐—,๐™)]
  • Maximization (M step): Trovare i parametri che massimizzino questa quantitร :
๐œฝ(t+1)=argmax๐œฝ Q(๐œฝโˆฃ๐œฝ(t))

Tipici modelli cui si applica EM designano con ๐™ la variabile latente che indica l'appartenenza a un gruppo in un insieme di gruppi:

I punti osservati ๐— possono essere discreti o continui a seconda che assumano valori da un dominio finito (o infinito numerabile) o infinito non numerabile. Si puรฒ associare a ogni punto un vettore di osservazioni.

I valori mancanti (e quindi le variabili latenti ๐™) sono discreti, tratti da un numero prefissato di valori e con una variabile latente per ogni unitร  osservata.

I parametri sono continui e di due tipi: parametri associati a tutti i punti e parametri associati a uno specifico valore di una variabile latente (ossia associati a tutti i punti con quel valore per la corrispondente variabile).

Note

Template:Apprendimento automatico Template:Portale