Regola delta

Template:S

La regola delta (delta rule) è una regola di discesa del gradiente per aggiornare i pesi dei segnali di input che giungono ad un percettrone.^[1] Si tratta di un caso particolare del più generale algoritmo di retropropagazione.

Enunciato

Per un neurone $j$ con una funzione d'attivazione $g (x)$ , la regola delta per l' $i$ -esimo peso $w_{j i}$ è data da

Δ w_{j i} = α (t_{j} - y_{j}) g^{'} (h_{j}) x_{i}

,

dove

	$α$ è una costante piccola chiamata tasso di apprendimento (learning rate)
	$g (x)$ è la funzione d'attivazione del neurone e $g^{'}$ la sua derivata
	$t_{j}$ è l'output desiderato
	$h_{j}$ è la somma pesata degli input al neurone
	$y_{j}$ è l'output vero
	$x_{i}$ è l' $i$ -esimo input.

Valgono: $h_{j} = \sum x_{i} w_{j i}$ e $y_{j} = g (h_{j})$ .

La regola delta è spesso semplificata se la funzione d'attivazione è lineare come

Δ w_{j i} = α (t_{j} - y_{j}) x_{i}

mentre la regola delta è simile alla regola di aggiornamento del percettrone, come si ricava la regola è diverso. Il percettrone usa la funzione gradino di Heaviside come funzione d'attivazione $g (h)$ , il che significa che $g^{'} (h)$ non esiste in zero, e che è uguale a zero altrove, e ciò rende l'applicazione diretta della regola impossibile.

Derivazione della regola delta

La regola delta si ricava a partire dalla minimizzazione dell'errore sull'output della rete neurale tramite la discesa del gradiente. L'errore per una rete neurale con $j$ output può essere misurato come

E = \sum_{j} \frac{1}{2} (t_{j} - y_{j})^{2}

.

In questo caso, occorre muoversi nello "spazio dei pesi" del neurone (lo spazio di tutti i valori che possono assumere i pesi) in proporzione al gradiente della funzione d'errore rispetto a ogni peso. Per fare ciò, si calcola la derivata parziale dell'errore rispetto a ogni peso. Per l' $i$ -esimo peso, la derivata è

\frac{\partial E}{\partial w_{j i}} = \frac{\partial (\frac{1}{2} {(t_{j} - y_{j})}^{2})}{\partial w_{j i}}

.

dove è stata omessa la sommatoria siccome la derivata è relativa al $j$ -esimo neurone.

Il calcolo procede con l'applicazione della regola della catena:

= \frac{\partial (\frac{1}{2} {(t_{j} - y_{j})}^{2})}{\partial y_{j}} \frac{\partial y_{j}}{\partial w_{j i}} = - (t_{j} - y_{j}) \frac{\partial y_{j}}{\partial w_{j i}}

mentre la derivata rimanente si calcola ancora con la regola della catena, ma derivando rispetto all'intero input di $j$ , ovvero $h_{j}$ :

= - (t_{j} - y_{j}) \frac{\partial y_{j}}{\partial h_{j}} \frac{\partial h_{j}}{\partial w_{j i}}

Si noti che l'output del $j$ -esimo neurone, $y_{j}$ , è semplicemente la funzione d'attivazione $g$ del neurone applicata al suo input $h_{j}$ . Si può quindi scrivere la derivata di $y_{j}$ rispetto a $h_{j}$ semplicemente come la derivata prima di $g$ :

= - (t_{j} - y_{j}) g^{'} (h_{j}) \frac{\partial h_{j}}{\partial w_{j i}}

A questo punto, si riscrive $h_{j}$ nell'ultimo termine come la somma su tutti i $k$ pesi di ogni peso $w_{j k}$ moltiplicati per il loro input corrispondente $x_{k}$ :

= - (t_{j} - y_{j}) g^{'} (h_{j}) \frac{\partial (\sum_{i} x_{i} w_{j i})}{\partial w_{j i}}

Poiché interessa solamente l' $i$ -esimo peso, l'unico termine della sommatoria che è rilevante è $x_{i} w_{j i}$ . Chiaramente,

\frac{\partial x_{i} w_{j i}}{\partial w_{j i}} = x_{i}

,

portando all'equazione finale per il gradiente:

\frac{\partial E}{\partial w_{j i}} = - (t_{j} - y_{j}) g^{'} (h_{j}) x_{i}

Come evidenziato sopra, la discesa del gradiente dice che la variazione di ciascun peso deve essere proporzionale al gradiente La scelta di una costante di proporzionalità $α$ e l'eliminazione del segno meno (siccome si cerca la direzione che diminuisce il gradiente), permettono di arrivare all'equazione cercata:

Δ w_{j i} = α (t_{j} - y_{j}) g^{'} (h_{j}) x_{i}

.

Note

↑ Template:Cita web

Bibliografia

Tom Mitchell, Machine Learning, McGraw Hill, 1997.
Ben Krose, Patrick van der Smagt, An Introduction to Neural Networks, The University of Amsterdam

Voci correlate

Template:Portale

[1] Template:Cita web

[1]

Regola delta

Indice

Enunciato

Derivazione della regola delta

Note

Bibliografia

Voci correlate

Menu di navigazione

Regola delta

Enunciato

Derivazione della regola delta

Note

Bibliografia

Voci correlate

Menu di navigazione

Ricerca