Autocodificatore

Un autocodificatore^[1] o autoencoder è un tipo di rete neurale artificiale utilizzato per apprendere codifiche efficienti di dati non etichettati, rientrando quindi nel campo dell'apprendimento non supervisionato.^[2] La codifica viene convalidata e perfezionata tentando di ricostruire l'input dalla codifica. L'autocodificatore apprende una rappresentazione (codifica) di un insieme di dati, tipicamente per la riduzione della dimensionalità, addestrando la rete a ignorare i dati insignificanti ("rumore").

Esistono varianti che mirano a vincolare le rappresentazioni apprese ad assumere proprietà utili.^[3] Esempi sono gli autoencoder regolarizzati (Sparse, Denoising e Contractive), che sono efficaci nell'apprendimento delle rappresentazioni che verranno usate in una successiva classificazione,^[4] e gli autoencoder variazionali, impiegati come modelli generativi.^[5] Gli autoencoder vengono applicati a molti problemi, tra cui il riconoscimento facciale,^[6] il rilevamento di caratteristiche^[7],di anomalie e la comprensione del significato delle parole.^[8]^[9] Gli autoencoder sono anche modelli generativi che possono generare casualmente nuovi dati simili ai dati di addestramento di input alla rete.^[7]

Architettura di base

Un autoencoder ha due parti principali: un codificatore che mappa l'input nel codice e un decodificatore che fornisce una ricostruzione dell'input a partire dal codice.

Il modo più semplice per eseguire perfettamente la copia è duplicare il segnale. Invece, gli autoencoder sono in genere costretti a ricostruire l'input in modo approssimativo, preservando solo gli aspetti più rilevanti dei dati nella copia.

L'idea degli autoencoder è stata popolare per decenni, con le prime applicazioni risalenti agli anni 1980.^[3]^[10]^[11] Tradizionalmente, sono stati usati per la riduzione della dimensionalità o l'apprendimento delle caratteristiche, ma il concetto è diventato ampiamente utilizzato per l'apprendimento di modelli generativi di dati. Alcune delle intelligenze artificiali (IA) più potenti degli anni 2010 hanno coinvolto autoencoder impilati all'interno di reti neurali profonde.^[12]

La forma più semplice di un autocodificatore è una rete neurale feed-forward, non ricorrente, simile ai singoli percettroni che costituiscono un percettrone multistrato, utilizzando uno strato di input e uno strato di output collegati da uno o più strati nascosti. Lo strato di output ha lo stesso numero di nodi (o neuroni) dello strato di input. Il suo scopo è ricostruire i suoi input (minimizzando la differenza tra input e output), invece di prevedere un valore obiettivo $Y$ dati gli input $X$ . Pertanto, gli autoencoder rientrano negli algoritmi di apprendimento non supervisionato.

Un autoencoder è costituito da due parti, il codificatore e il decodificatore, che possono essere definiti come le mappe $ϕ$ e $ψ$ , tali che:

ϕ : 𝒳 \to ℱ

ψ : ℱ \to 𝒳

ϕ, ψ = \underset{ϕ, ψ}{a r g m i n} ‖ 𝒳 - (ψ \circ ϕ) 𝒳 ‖^{2}

Nel caso più semplice, dato uno strato nascosto, lo stadio di codifica prende il valore iniziale $𝐱 \in ℝ^{d} = 𝒳$ e lo mappa su $𝐡 \in ℝ^{p} = ℱ$ :

𝐡 = σ (𝐖 𝐱 + 𝐛)

Questa immagine $𝐡$ viene solitamente indicato come codice, variabili latenti o rappresentazione latente, mentre $σ$ è una funzione d'attivazione, ad esempio una funzione sigmoidea o un rettificatore. Inoltre, $𝐖$ è una matrice dei pesi e $𝐛$ è un vettore di bias. I pesi e i bias vengono in genere inizializzati in modo casuale e poi aggiornati iterativamente tramite retropropagazione. Successivamente, si ha la fase di decodifica, nel quale si passa dalla mappa $𝐡$ alla ricostruzione $𝐱^{'}$ dei dati $𝐱$ :

𝐱^{'} = σ^{'} (𝐖^{'} 𝐡 + 𝐛^{'})

dove $𝝈^{'}, 𝐖^{'}, e 𝐛^{'}$ per il decodficatore non sono necessariamente correlata con gli equivalenti del codificatore.

Gli autoencoder sono addestrati per minimizzare l'errore di ricostruzione, cioè la differenza tra $𝐱^{'}$ e $𝐱$ . La cosiddetta "funzione di perdita" (dall'inglese loss function), considerato l'errore quadratico medio, è

ℒ (𝐱, 𝐱^{'}) = ‖ 𝐱 - 𝐱^{'} ‖^{2} = ‖ 𝐱 - σ^{'} (𝐖^{'} (σ (𝐖 𝐱 + 𝐛)) + 𝐛^{'}) ‖^{2}

dove $𝐱$ è di solito mediato su tutto l'insieme di addestramento.

Come accennato in precedenza, l'addestramento dell'autoencoder viene eseguito tramite la retropropagazione dell'errore, proprio come in altre reti neurali feed-forward.

Nei casi in cui lo spazio delle caratteristiche $ℱ$ abbia una dimensionalità inferiore allo spazio di input $𝒳$ , il vettore delle caratteristiche $ϕ (x)$ può essere considerato come una rappresentazione compressa dell'input $x$ . Questo è il caso degli autoencoder non completi. Se gli strati nascosti sono più grandi (detti "sovracompleti", o overcomplete) o uguali allo strato di input, o se le unità nascoste hanno una capacità sufficiente, un autocodificatore può potenzialmente apprendere la funzione identità e diventare inutile. Tuttavia, i risultati sperimentali hanno rilevato che gli autoencoder sovracompleti potrebbero ancora apprendere funzioni utili.^[13] Nell'ambiente ideale, la dimensione del codice e la capacità del modello potrebbero essere impostate sulla base della complessità della distribuzione dei dati da modellare. Un modo per farlo è sfruttare le varianti del modello note come autoencoder regolarizzati.^[3]

Note

↑ Template:Cita web
↑ Template:Cita pubblicazione
↑ ^3,0 ^3,1 ^3,2 Template:Cita libro
↑ Template:Cita pubblicazione
↑ Template:Cita pubblicazione
↑ Hinton GE, Krizhevsky A, Wang SD. Transforming auto-encoders. In International Conference on Artificial Neural Networks 2011 Jun 14 (pp. 44-51). Springer, Berlin, Heidelberg.
↑ ^7,0 ^7,1 Template:Cita libro
↑ Template:Cita pubblicazione
↑ Template:Cita pubblicazione
↑ Template:Cita pubblicazione
↑ Hinton, G. E., & Zemel, R. S. (1994). Autoencoders, minimum description length and Helmholtz free energy. In Advances in neural information processing systems 6 (pp. 3-10).
↑ Template:Cita libro
↑ Template:Cita pubblicazione

Template:Portale

[1] Template:Cita web

[2] Template:Cita pubblicazione

[:0-3] 3,0 ^3,1 ^3,2 Template:Cita libro

[:4-4] Template:Cita pubblicazione

[:11-5] Template:Cita pubblicazione

[6] Hinton GE, Krizhevsky A, Wang SD. Transforming auto-encoders. In International Conference on Artificial Neural Networks 2011 Jun 14 (pp. 44-51). Springer, Berlin, Heidelberg.

[:2-7] 7,0 ^7,1 Template:Cita libro

[8] Template:Cita pubblicazione

[9] Template:Cita pubblicazione

[10] Template:Cita pubblicazione

[11] Hinton, G. E., & Zemel, R. S. (1994). Autoencoders, minimum description length and Helmholtz free energy. In Advances in neural information processing systems 6 (pp. 3-10).

[domingos-12] Template:Cita libro

[bengio-13] Template:Cita pubblicazione

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Autocodificatore

Architettura di base

Note

Menu di navigazione

Ricerca