Algoritmo di Levenberg-Marquardt

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

L'algoritmo di Levenberg-Marquardt (LMA) è un algoritmo di ottimizzazione usato per la soluzione di problemi in forma di minimi quadrati non lineari, che trova comunemente applicazioni in problemi di curve fitting. LMA è un algoritmo iterativo, nel quale il vettore di aggiornamento della soluzione ad ogni iterazione è dato da un'interpolazione fra l'algoritmo di Gauss-Newton e il metodo di discesa del gradiente. LMA può essere considerato come una versione trust region dell'algoritmo di Gauss-Newton, rispetto al quale è più robusto ma, in generale, leggermente più lento. L'algoritmo è stato pubblicato nel 1944 da Kenneth Levenberg,[1] e fu riscoperto nel 1963 da Donald Marquardt[2] e, indipendentemente, da Girard,[3] Wynne[4] e Morrison.[5]

L'applicazione principale dell'algoritmo di Levenberg-Marquardt è il problema di curve fitting tramite minimi quadrati non lineari. Dato un insieme di osservazioni , si vuole determinare il vettore di parametri del modello che minimizza la somma dei quadrati residui

L'algoritmo di Levenberg-Marquardt è un metodo iterativo che parte da una stima iniziale del vettore . Nel caso di funzioni non-convesse con più minimi locali, la scelta di una stima iniziale sufficientemente vicina al punto di ottimo globale è importante per la convergenza. Ad ogni iterazione, la stima corrente della soluzione viene aggiornata ad un nuovo valore . Per determinare la scelta di , la funzione viene linearizzata con un polinomio di Taylor

dove

è il gradiente di rispetto a .

Usando tale approssimazione, la somma dei quadrati residui diventa

o, in notazione vettoriale

La somma dei quadrati residui ha un minimo in un punto dove il gradiente rispetto al vettore dei parametri si annulla. Derivando l'espressione precedente rispetto a ed imponendo l'uguaglianza a zero, si ottiene

dove è la matrice jacobiana, la cui riga -esima è data da , e dove e sono vettori le cui righe -esime sono date rispettivamente da e . La matrice jacobiana ha dimensione , dove è il numero di parametri, ovvero la dimensione del vettore , e il prodotto è una matrice quadrata di dimensione .

Risolvendo tale sistema lineare rispetto a si ottiene il vettore di aggiornamento della soluzione secondo il metodo di Gauss-Newton. L'idea originale di Levenberg è di sostituire la precedente equazione con una versione smorzata

dove è la matrice identità. Il fattore determina il comportamento dell'algoritmo, e un valore ridotto corrisponde ad un comportamento prossimo al metodo di Gauss-Newton, mentre un valore elevato corrisponde a spostare la soluzione in direzione pressappoco opposta al gradiente, con un comportamento più simile al metodo di discesa del gradiente. Il valore viene adattato ad ogni iterazione, incrementandolo se la precedente iterazione ha prodotto una riduzione limitata della funzione obiettivo, o diminuendolo in caso di rapida diminuzione.

Uno degli svantaggi della formulazione di Levenberg è il fatto che il termine è praticamente ignorato quando il parametro di smorzamento ha un valore elevato. Una variante proposta da Fletcher[6] sostituisce la matrice identità con la diagonale di , scalando ogni parametro rispetto alla curvatura e di conseguenza aumentando la velocità di convergenza lungo le direzioni nelle quali il gradiente è minore:

Esistono diverse euristiche per la scelta del parametro di smorzamento . Marquardt suggerì di usare una scelta iniziale e un fattore di aggiornamento , e di calcolare la funzione obiettivo dopo un'iterazione dal valore iniziale ponendo , e per un'iterazione dal valore iniziale con . Se uno dei due valori produce un miglioramento maggiore della funzione costo rispetto all'altro, viene usato come nuovo valore di . Se in entrambi i casi la funzione costo ha un valore superiore a quello iniziale, è moltiplicato per iterativamente volte, fino a quando non si ottiene un valore migliore, ponendo quindi .

  1. ^ Kenneth Levenberg, A Method for the Solution of Certain Non-Linear Problems in Least Squares, in Quarterly of Applied Mathematics, vol. 2, n. 2, 1944, pp. 164–168, DOI:10.1090/qam/10666.
  2. ^ Donald Marquardt, An Algorithm for Least-Squares Estimation of Nonlinear Parameters, in SIAM Journal on Applied Mathematics, vol. 11, n. 2, 1963, pp. 431–441, DOI:10.1137/0111030.
  3. ^ André Girard, Excerpt from Revue d'optique théorique et instrumentale, in Rev. Opt., vol. 37, 1958, pp. 225–241, 397–424.
  4. ^ C. G. Wynne, Lens Designing by Electronic Digital Computer: I, in Proc. Phys. Soc. Lond., vol. 73, n. 5, 1959, pp. 777–787, Bibcode:1959PPS....73..777W, DOI:10.1088/0370-1328/73/5/310.
  5. ^ David D. Morrison, Methods for nonlinear least squares problems and convergence proofs, in Proceedings of the Jet Propulsion Laboratory Seminar on Tracking Programs and Orbit Determination, 1960, pp. 1–9.
  6. ^ Roger Fletcher, A modified Marquardt subroutine for non-linear least squares (technical report), Harwell, Atomic Energy Research Establishment, 1971.

Collegamenti esterni

[modifica | modifica wikitesto]
  Portale Matematica: accedi alle voci di Wikipedia che trattano di matematica