AlexNet
AlexNet è un modello di rete neurale convoluzionale (CNN) profonda progettata dai dottorandi Alex Krizhevsky e Ilya Sutskever, sotto la supervisione di Geoffrey Hinton.[1][2]
AlexNet rappresentò un significativo avanzamento nel riconoscimento automatico delle immagini. Nella ImageNet Large Scale Visual Recognition Challenge del 2012[3] AlexNet ottenne un errore top-5 del 15.3%, oltre 10.8 punti percentuali in meno del secondo classificato. La profondità del modello risultò essenziale per la qualità dei risultati, e il problema dell'elevato costo computazionale venne aggirato eseguendo l'addestramento del modello su due GPU in parallelo.[2]
La descrizione e i risultati di AlexNet furono pubblicati nel 2012 in uno degli articoli di ricerca più influenti nella storia della visione artificiale, citato in oltre 130 000 pubblicazioni al 2023,[4] aprendo la strada all'uso estensivo dell'apprendimento profondo nella visione artificiale.[5]
Architettura
AlexNet ha otto livelli: i primi cinque livelli sono convoluzionali, alcuni facendo uso di max-pooling, mentre gli ultimi tre livelli sono completamente connessi. Ad eccezione dell'ultimo livello, il resto della rete era diviso in due copie, eseguite separatamente in due GPU.[2] La rete usa la funzione di attivazione ReLU, che dimostrò migliori risultati rispetto a funzioni tradizionali come la funzione sigmoidea e la tangente iperbolica.[2]
La struttura è la seguente:
dove gli acronimi rappresentano:
- CNN = livello convoluzionale (con funzione di attivazione ReLU)
- RN = local response normalization
- MP = max-pooling
- FC = livello completamente connesso (con funzione di attivazione ReLU)
- Linear = livello completamente connesso, senza funzione di attivazione
- DO = dropout
Precursori
Un'implementazione di CNN accelerata tramite GPU, pubblicata da K. Chellapilla et al. nel 2006, mostrò tempi di esecuzione circa quattro volte più veloci rispetto ad esecuzione su CPU.[6] Dan Cireșan et al. pubblicarono nel 2011 un articolo con i risultati della loro CNN, la cui velocità su GPU era 60 volte maggiore rispetto a quella su CPU,[7][8] vinse quattro competizioni nel settore del riconoscimento delle immagini[9][10] e avanzò lo stato dell'arte nel riconoscimento delle immagini.[11] Gli autori di AlexNet citarono i risultati di Cireșan e menzionarono le similarità con AlexNet.[2]
Di fatto, entrambi i modelli erano varianti dell'architettura introdotta da Yann LeCun et al. nel 1989,[12][13] che applicarono la retropropagazione dell'errore all'addestramento di una variante di rete neurale convoluzionale precedentemente introdotta da Kunihiko Fukushima e nota come "neocognitron",[14][15] successivamente estesa con l'uso di max-pooling, introdotto da J. Weng.[10][16]
Note
- ↑ Template:Cita web
- ↑ 2,0 2,1 2,2 2,3 2,4 Template:Cita pubblicazione
- ↑ Template:Cita web
- ↑ AlexNet paper on Google Scholar
- ↑ Template:Cita web
- ↑ Template:Cita libro
- ↑ Template:Cita pubblicazione
- ↑ Template:Cita web
- ↑ Template:Cita web
- ↑ 10,0 10,1 Template:Cita pubblicazione
- ↑ Template:Cita libro
- ↑ Template:Cita pubblicazione
- ↑ Template:Cita pubblicazione
- ↑ Template:Cita pubblicazione
- ↑ Template:Cita pubblicazione
- ↑ Template:Cita pubblicazione