Percettrone

Da testwiki.
Versione del 13 mar 2025 alle 05:48 di imported>FrescoBot (Bot: numeri di pagina nei template citazione)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Vai alla navigazione Vai alla ricerca

Il percettrone (Template:Inglese) è un modello di rete neurale artificiale, il primo di questo genere, introdotto nel 1943 da Warren McCulloch e Walter Pitts[1]

Descrizione

Nell'apprendimento automatico, il percettrone è un tipo di classificatore binario che mappa i suoi ingressi x (un vettore di tipo reale) in un valore di output f(x) (uno scalare di tipo reale) calcolato con

f(x)=χ(w,x+b)

dove w è un vettore di pesi con valori reali, l'operatore , è il prodotto scalare (che calcola una somma pesata degli input), b è il bias, un termine costante che non dipende da alcun valore in input e χ(y) è la funzione di output. Le scelte più comuni per la funzione χ(y) sono:

  1. χ(y)=sign(y)
  2. χ(y)=yΘ(y)
  3. χ(y)=y

dove Θ(y) è la funzione di Heaviside

Il primo caso corrisponde a un classificatore binario (lTemplate:'output può assumere solamente i valori +1 e 1); un caso particolarmente studiato è quello in cui sia gli input x che lTemplate:'output f(x) sono binari.

Il bias b può essere pensato come un settaggio della funzione di attivazione (per esempio quando χ(y) è come nel caso 3), o come un livello base di attivazione per l'output del neurone (per esempio quando χ(y) è come nei casi 1 e 2). In quest'ultima situazione, il valore b rappresenta un valore di soglia che la somma pesata degli input deve superare affinché il dispositivo sia attivo (cioè che lTemplate:'output sia positivo).

Il percettrone può essere considerato come il più semplice modello di rete neurale feed-forward,[2][3] in quanto gli input alimentano direttamente l'unità di output attraverso connessioni pesate. Nel caso in cui gli input e gli output sono dello stesso tipo, è possibile creare reti più complesse unendo più percettroni insieme, per esempio usando un gruppo (o strato) di percettroni come input per un secondo gruppo di percettroni, oppure facendo in modo che lTemplate:'input di ogni percettrone della rete sia dato dallTemplate:'output di ogni altro percettrone (rete fully-connected).

Storia

Il percettrone fu proposto da Frank Rosenblatt nel 1958 come un'entità con uno strato di ingresso ed uno di uscita ed una regola di apprendimento basata sulla minimizzazione dell'errore, la cosiddetta funzione di error back-propagation (retropropagazione dell'errore) che in base alla valutazione sull'uscita effettiva della rete rispetto ad un dato ingresso altera i pesi delle connessioni (sinapsi) come differenza tra l'uscita effettiva e quella desiderata.

L'entusiasmo fu enorme e nacque il settore della cibernetica, ma dopo che Marvin Minsky e Seymour Papert dimostrarono i limiti del percettrone e cioè la sua capacità di riconoscere dopo un opportuno addestramento solamente funzioni linearmente separabili (ad esempio la funzione logica XOR non può essere implementata da un percettrone) l'interesse scemò rapidamente.

Di fatto una rete a più livelli di percettroni poteva risolvere problemi più complessi, ma la crescente complessità computazionale dell'addestramento rendeva impraticabile questa strada. Solo nel decennio successivo si riprese a considerare l'utilità di questa entità operazionale.

Il problema dell'apprendimento

File:Perceptron 1.webm

Modificando il vettore dei pesi w, è possibile modulare lTemplate:'output di un percettrone, con lo scopo d'ottenere delle proprietà di apprendimento o di memorizzazione. Per esempio, si può cercare di istruire un percettrone in modo che, dato un input x, lTemplate:'output f(x) sia quanto più vicino possibile a un dato valore g(x) scelto a priori; le capacità computazionali di un singolo percettrone sono tuttavia limitate, e le prestazioni che è possibile ottenere dipendono fortemente sia dalla scelta degli input (che potrebbero per esempio essere limitati ad un sottoinsieme di tutti gli input possibili, oppure venire estratti a caso secondo una certa distribuzione di probabilità prefissata) che dalla scelta della funzione che si desidera implementare, g(x). In misura minore, dipendono anche da come viene quantificata la distanza tra gli output effettivi e quelli attesi.

Una volta che si sia definito il problema dell'apprendimento, si può cercare di trovare l'assegnazione ottimale di pesi w per il problema dato.

Algoritmo di apprendimento standard

L'algoritmo di apprendimento standard è un algoritmo iterativo, definito come segue: ad ogni iterazione t, un vettore di input xt viene presentato al percettrone, che calcola lTemplate:'output f(xt) e lo confronta con il risultato desiderato g(xt); quindi, il vettore dei pesi wt viene aggiornato come segue:

wt+1=wt+α(g(xt)f(xt))xt

dove α è una costante di apprendimento strettamente positiva che regola la velocità dell'apprendimento[4]. Al passo successivo, il nuovo input xt+1 verrà pesato secondo il nuovo vettore wt+1, che verrà poi nuovamente modificato in wt+2 e così via.

L'insieme Dx da cui sono estratti i campioni x presentati al percettrone durante il periodo dell'apprendimento è detto training set.

I pesi appropriati (w) vengono applicati agli input (x) che passati ad una funzione che produce l'output (y)

Nel caso in cui esistano:

  • un certo vettore w^ t.c.w^=1
  • una certa costante γ>0 t.c.g(xt)xt,w^γ t
  • una certa costante R t.c.xtR t

il training set è detto linearmente separabile (geometricamente, questa condizione descrive la situazione in cui esiste un iperpiano in grado di separare, nello spazio vettoriale degli input, quelli che richiedono un output positivo da quelli che richiedono un output negativo). In questo caso, Novikoff (1962) ha provato che l'algoritmo standard converge, nel senso che il numero di errori è limitato da R2γ2, in un numero finito di passi.[5] Non è invece garantito che l'algoritmo descritto converga se il training set non è linearmente separabile. Inoltre, altri algoritmi (per esempio l'algoritmo adatron), possono avere, in determinate situazioni, prestazioni migliori in termini di tempo di convergenza, di capacità di apprendimento, di generalizzazione, eccetera.

Note

  1. Template:Cita pubblicazione
  2. Cristianini, Nello; Shawe-Taylor, John. Support Vector Machines and other Kernel-based learning methods. Cambridge University Press: 2000.
  3. HAYKIN , Simon . Neural Networks - A Comprehensive Foundation. Second edition. Pearson Prentice Hall: 1999.
  4. Template:Cita libro
  5. Template:Cita web

Bibliografia

Voci correlate

Collegamenti esterni

Template:Apprendimento automatico Template:Controllo di autorità Template:Portale