Autocodificatore

Da testwiki.
Vai alla navigazione Vai alla ricerca

Un autocodificatore[1] o autoencoder è un tipo di rete neurale artificiale utilizzato per apprendere codifiche efficienti di dati non etichettati, rientrando quindi nel campo dell'apprendimento non supervisionato.[2] La codifica viene convalidata e perfezionata tentando di ricostruire l'input dalla codifica. L'autocodificatore apprende una rappresentazione (codifica) di un insieme di dati, tipicamente per la riduzione della dimensionalità, addestrando la rete a ignorare i dati insignificanti ("rumore").

Esistono varianti che mirano a vincolare le rappresentazioni apprese ad assumere proprietà utili.[3] Esempi sono gli autoencoder regolarizzati (Sparse, Denoising e Contractive), che sono efficaci nell'apprendimento delle rappresentazioni che verranno usate in una successiva classificazione,[4] e gli autoencoder variazionali, impiegati come modelli generativi.[5] Gli autoencoder vengono applicati a molti problemi, tra cui il riconoscimento facciale,[6] il rilevamento di caratteristiche[7],di anomalie e la comprensione del significato delle parole.[8][9] Gli autoencoder sono anche modelli generativi che possono generare casualmente nuovi dati simili ai dati di addestramento di input alla rete.[7]

Architettura di base

Un autoencoder ha due parti principali: un codificatore che mappa l'input nel codice e un decodificatore che fornisce una ricostruzione dell'input a partire dal codice.

Il modo più semplice per eseguire perfettamente la copia è duplicare il segnale. Invece, gli autoencoder sono in genere costretti a ricostruire l'input in modo approssimativo, preservando solo gli aspetti più rilevanti dei dati nella copia.

L'idea degli autoencoder è stata popolare per decenni, con le prime applicazioni risalenti agli anni 1980.[3][10][11] Tradizionalmente, sono stati usati per la riduzione della dimensionalità o l'apprendimento delle caratteristiche, ma il concetto è diventato ampiamente utilizzato per l'apprendimento di modelli generativi di dati. Alcune delle intelligenze artificiali (IA) più potenti degli anni 2010 hanno coinvolto autoencoder impilati all'interno di reti neurali profonde.[12]

Schema basilare di un autoencoder: X sono i dati iniziali, h è la codifica, mentre X' è la ricostruzione dei dati iniziali dalla codifica

La forma più semplice di un autocodificatore è una rete neurale feed-forward, non ricorrente, simile ai singoli percettroni che costituiscono un percettrone multistrato, utilizzando uno strato di input e uno strato di output collegati da uno o più strati nascosti. Lo strato di output ha lo stesso numero di nodi (o neuroni) dello strato di input. Il suo scopo è ricostruire i suoi input (minimizzando la differenza tra input e output), invece di prevedere un valore obiettivo Y dati gli input X. Pertanto, gli autoencoder rientrano negli algoritmi di apprendimento non supervisionato.

Un autoencoder è costituito da due parti, il codificatore e il decodificatore, che possono essere definiti come le mappe ϕ e ψ, tali che:

ϕ:𝒳
ψ:𝒳
ϕ,ψ=argminϕ,ψ𝒳(ψϕ)𝒳2

Nel caso più semplice, dato uno strato nascosto, lo stadio di codifica prende il valore iniziale 𝐱d=𝒳 e lo mappa su 𝐡p= :

𝐡=σ(𝐖𝐱+𝐛)

Questa immagine 𝐡 viene solitamente indicato come codice, variabili latenti o rappresentazione latente, mentre σ è una funzione d'attivazione, ad esempio una funzione sigmoidea o un rettificatore. Inoltre, 𝐖 è una matrice dei pesi e 𝐛 è un vettore di bias. I pesi e i bias vengono in genere inizializzati in modo casuale e poi aggiornati iterativamente tramite retropropagazione. Successivamente, si ha la fase di decodifica, nel quale si passa dalla mappa 𝐡 alla ricostruzione 𝐱 dei dati 𝐱:

𝐱=σ(𝐖𝐡+𝐛)

dove σ,𝐖, e 𝐛 per il decodficatore non sono necessariamente correlata con gli equivalenti del codificatore.

Gli autoencoder sono addestrati per minimizzare l'errore di ricostruzione, cioè la differenza tra 𝐱e 𝐱. La cosiddetta "funzione di perdita" (dall'inglese loss function), considerato l'errore quadratico medio, è

(𝐱,𝐱)=𝐱𝐱2=𝐱σ(𝐖(σ(𝐖𝐱+𝐛))+𝐛)2

dove 𝐱 è di solito mediato su tutto l'insieme di addestramento.

Come accennato in precedenza, l'addestramento dell'autoencoder viene eseguito tramite la retropropagazione dell'errore, proprio come in altre reti neurali feed-forward.

Nei casi in cui lo spazio delle caratteristiche abbia una dimensionalità inferiore allo spazio di input 𝒳, il vettore delle caratteristiche ϕ(x) può essere considerato come una rappresentazione compressa dell'input x. Questo è il caso degli autoencoder non completi. Se gli strati nascosti sono più grandi (detti "sovracompleti", o overcomplete) o uguali allo strato di input, o se le unità nascoste hanno una capacità sufficiente, un autocodificatore può potenzialmente apprendere la funzione identità e diventare inutile. Tuttavia, i risultati sperimentali hanno rilevato che gli autoencoder sovracompleti potrebbero ancora apprendere funzioni utili.[13] Nell'ambiente ideale, la dimensione del codice e la capacità del modello potrebbero essere impostate sulla base della complessità della distribuzione dei dati da modellare. Un modo per farlo è sfruttare le varianti del modello note come autoencoder regolarizzati.[3]

Note

  1. Template:Cita web
  2. Template:Cita pubblicazione
  3. 3,0 3,1 3,2 Template:Cita libro
  4. Template:Cita pubblicazione
  5. Template:Cita pubblicazione
  6. Hinton GE, Krizhevsky A, Wang SD. Transforming auto-encoders. In International Conference on Artificial Neural Networks 2011 Jun 14 (pp. 44-51). Springer, Berlin, Heidelberg.
  7. 7,0 7,1 Template:Cita libro
  8. Template:Cita pubblicazione
  9. Template:Cita pubblicazione
  10. Template:Cita pubblicazione
  11. Hinton, G. E., & Zemel, R. S. (1994). Autoencoders, minimum description length and Helmholtz free energy. In Advances in neural information processing systems 6 (pp. 3-10).
  12. Template:Cita libro
  13. Template:Cita pubblicazione

Template:Portale