Algoritmo di Levenberg-Marquardt

LTemplate:'algoritmo di Levenberg-Marquardt (LMA) è un algoritmo di ottimizzazione usato per la soluzione di problemi in forma di minimi quadrati non lineari, che trova comunemente applicazioni in problemi di curve fitting. LMA è un algoritmo iterativo, nel quale il vettore di aggiornamento della soluzione ad ogni iterazione è dato da un'interpolazione fra l'algoritmo di Gauss-Newton e il metodo di discesa del gradiente. LMA può essere considerato come una versione trust region dell'algoritmo di Gauss-Newton, rispetto al quale è più robusto ma, in generale, leggermente più lento. L'algoritmo è stato pubblicato nel 1944 da Kenneth Levenberg,^[1] e fu riscoperto nel 1963 da Donald Marquardt^[2] e, indipendentemente, da Girard,^[3] Wynne^[4] e Morrison.^[5]

Formulazione

L'applicazione principale dell'algoritmo di Levenberg-Marquardt è il problema di curve fitting tramite minimi quadrati non lineari. Dato un insieme di $m$ osservazioni $(x_{i}, y_{i})$ , si vuole determinare il vettore di parametri $\hat{β}$ del modello $f (x, β)$ che minimizza la somma dei quadrati residui $S (β)$

\hat{β} \in \underset{β}{argmin} S (β) \equiv \underset{β}{argmin} \sum_{i = 1}^{m} {[y_{i} - f (x_{i}, β)]}^{2} .

L'algoritmo di Levenberg-Marquardt è un metodo iterativo che parte da una stima iniziale del vettore $β$ . Nel caso di funzioni non-convesse con più minimi locali, la scelta di una stima iniziale sufficientemente vicina al punto di ottimo globale è importante per la convergenza. Ad ogni iterazione, la stima corrente della soluzione $β$ viene aggiornata ad un nuovo valore $β + δ$ . Per determinare la scelta di $δ$ , la funzione $f$ viene linearizzata con un polinomio di Taylor

f (x_{i}, β + δ) \approx f (x_{i}, β) + 𝐉_{i} δ,

dove

𝐉_{i} = \frac{\partial f (x_{i}, β)}{\partial β}

è il gradiente di $f$ rispetto a $β$ .

Usando tale approssimazione, la somma dei quadrati residui $S (β)$ diventa

S (β + δ) \approx \sum_{i = 1}^{m} {[y_{i} - f (x_{i}, β) - 𝐉_{i} δ]}^{2},

o, in notazione vettoriale

\begin{matrix} S (β + δ) & \approx {‖ 𝐲 - 𝐟 (β) - 𝐉 δ ‖}^{2} \\ = {[𝐲 - 𝐟 (β) - 𝐉 δ]}^{T} [𝐲 - 𝐟 (β) - 𝐉 δ] \\ = {[𝐲 - 𝐟 (β)]}^{T} [𝐲 - 𝐟 (β)] - {[𝐲 - 𝐟 (β)]}^{T} 𝐉 δ - {(𝐉 δ)}^{T} [𝐲 - 𝐟 (β)] + δ^{T} 𝐉^{T} 𝐉 δ \\ = {[𝐲 - 𝐟 (β)]}^{T} [𝐲 - 𝐟 (β)] - 2 {[𝐲 - 𝐟 (β)]}^{T} 𝐉 δ + δ^{T} 𝐉^{T} 𝐉 δ . \end{matrix}

La somma dei quadrati residui $S (β)$ ha un minimo in un punto dove il gradiente rispetto al vettore dei parametri si annulla. Derivando l'espressione precedente rispetto a $δ$ ed imponendo l'uguaglianza a zero, si ottiene

(𝐉^{T} 𝐉) δ = 𝐉^{T} [𝐲 - 𝐟 (β)],

dove $𝐉$ è la matrice jacobiana, la cui riga $i$ -esima è data da $𝐉_{i}$ , e dove $𝐟 (β)$ e $𝐲$ sono vettori le cui righe $i$ -esime sono date rispettivamente da $f (x_{i}, β)$ e $y_{i}$ . La matrice jacobiana ha dimensione $m \times n$ , dove $n$ è il numero di parametri, ovvero la dimensione del vettore $β$ , e il prodotto $(𝐉^{T} 𝐉)$ è una matrice quadrata di dimensione $n \times n$ .

Risolvendo tale sistema lineare rispetto a $δ$ si ottiene il vettore di aggiornamento della soluzione secondo il metodo di Gauss-Newton. L'idea originale di Levenberg è di sostituire la precedente equazione con una versione smorzata

(𝐉^{T} 𝐉 + λ 𝐈) δ = 𝐉^{T} [𝐲 - 𝐟 (β)],

dove $𝐈$ è la matrice identità. Il fattore $λ$ determina il comportamento dell'algoritmo, e un valore ridotto corrisponde ad un comportamento prossimo al metodo di Gauss-Newton, mentre un valore elevato corrisponde a spostare la soluzione in direzione pressappoco opposta al gradiente, con un comportamento più simile al metodo di discesa del gradiente. Il valore viene adattato ad ogni iterazione, incrementandolo se la precedente iterazione ha prodotto una riduzione limitata della funzione obiettivo, o diminuendolo in caso di rapida diminuzione.

Uno degli svantaggi della formulazione di Levenberg è il fatto che il termine $𝐉^{T} 𝐉 + λ 𝐈$ è praticamente ignorato quando il parametro di smorzamento $λ$ ha un valore elevato. Una variante proposta da Fletcher^[6] sostituisce la matrice identità con la diagonale di $𝐉^{T} 𝐉$ , scalando ogni parametro rispetto alla curvatura e di conseguenza aumentando la velocità di convergenza lungo le direzioni nelle quali il gradiente è minore:

[𝐉^{T} 𝐉 + λ diag (𝐉^{T} 𝐉)] δ = 𝐉^{T} [𝐲 - 𝐟 (β)] .

Esistono diverse euristiche per la scelta del parametro di smorzamento $λ$ . Marquardt suggerì di usare una scelta iniziale $λ_{0}$ e un fattore di aggiornamento $ν$ , e di calcolare la funzione obiettivo dopo un'iterazione dal valore iniziale ponendo $λ = λ_{0}$ , e per un'iterazione dal valore iniziale con $λ = \frac{λ_{0}}{ν}$ . Se uno dei due valori produce un miglioramento maggiore della funzione costo rispetto all'altro, viene usato come nuovo valore di $λ$ . Se in entrambi i casi la funzione costo ha un valore superiore a quello iniziale, $λ$ è moltiplicato per $ν$ iterativamente $k$ volte, fino a quando non si ottiene un valore migliore, ponendo quindi $λ = λ_{0} ν^{k}$ .

Note

Bibliografia

Template:Cita pubblicazione
Template:Cita pubblicazione
Template:Cita libro
T. Strutz: Data Fitting and Uncertainty (A practical introduction to weighted least squares and beyond). 2nd edition, Springer Vieweg, 2016, ISBN 978-3-658-11455-8.
C. T. Kelley, Iterative Methods for Optimization, SIAM Frontiers in Applied Mathematics, no 18, 1999, ISBN 0-89871-433-8.

Collegamenti esterni

Template:Cita testo
Template:Cita testo
Template:Cita testo
Template:Cita testo
H. P. Gavin, Template:Cita testo (con implementazione in MATLAB)

Template:Portale

[Levenberg-1] Template:Cita pubblicazione

[Marquardt-2] Template:Cita pubblicazione

[Girard-3] Template:Cita pubblicazione

[Wynne-4] Template:Cita pubblicazione

[Morrison-5] Template:Cita pubblicazione

[6] Template:Cita testo

[1]

[2]

[3]

[4]

[5]

[6]

Algoritmo di Levenberg-Marquardt

Indice

Formulazione

Note

Bibliografia

Collegamenti esterni

Menu di navigazione

Algoritmo di Levenberg-Marquardt

Formulazione

Note

Bibliografia

Collegamenti esterni

Menu di navigazione

Ricerca