Regolarizzazione di Tichonov

In matematica, la regolarizzazione di Tichonov, che prende nome da Andrej Tichonov, è il metodo più comunemente usato di regolarizzazione di problemi mal posti (ill-posed problems). In statistica il metodo è conosciuto come regressione ridge e, ripetutamente ed indipendentemente riscoperto, è anche variamente noto come il metodo di Tichonov-Miller, metodo di Phillips-Twomey, metodo dell'inversione lineare vincolata o anche metodo di regolarizzazione lineare.

Il risultato è collegato all'algoritmo di Levenberg-Marquardt per problemi di minimi quadrati non lineari.

Quando il problema seguente non è ben posto (sia a causa della non esistenza, sia per la non unicità di $x$ ):

A 𝐱 = 𝐛

allora l'approccio usuale è noto come metodo dei minimi quadrati lineari e consiste nel minimizzare lo scarto:

‖ A 𝐱 - 𝐛 ‖^{2}

dove $‖ \cdot ‖$ è la norma euclidea. Tuttavia, in generale, il sistema può essere sottodeterminato o sovradeterminato ( $A$ può essere mal condizionata o singolare) e la soluzione, sempre che esista, può non essere univoca. Allo scopo di preferire una particolare soluzione con proprietà desiderate, il termine di regolarizzazione viene incluso nella minimizzazione:

‖ A 𝐱 - 𝐛 ‖^{2} + ‖ Γ 𝐱 ‖^{2}

per qualche opportuna scelta della matrice di Tichonov, $Γ$ . In molti casi, la scelta cade sulla matrice identità $Γ = I$ , preferendo soluzioni con norma più piccola. In altri casi, operatori passa alto (es. un operatore differenza oppure un operatore discreto di Fourier opportunamente pesato) possono essere impiegati per rafforzare il carattere liscio dell'operatore soggiacente quando è creduto essere principalmente continuo.

Questa regolarizzazione migliora il condizionamento del problema, rendendo possibile una soluzione di tipo numerico. Una soluzione esplicita, denotata come $\hat{x}$ , è data da:

\hat{x} = (A^{T} A + Γ^{T} Γ)^{- 1} A^{T} 𝐛

L'effetto di regolarizzazione può essere variato scalando la matrice $Γ$ . Per cui se $Γ = α I$ , quando $α$ = 0 si ottiene una soluzione che coincide con quella de-regolarizzata fornita dai minimi quadrati, sempre che (A^TA)⁻¹ esista.

Interpretazione bayesiana

Nonostante all'inizio la scelta della soluzione al problema di regolarizzazione possa sembrare artificiosa, e infatti la matrice $Γ$ sembra piuttosto arbitraria, il procedimento può essere giustificato da un punto di vista bayesiano. Si noti che per un problema mal condizionato si devono necessariamente introdurre varie assunzioni aggiuntive allo scopo di ottenere una soluzione stabile.

Statisticamente noi possiamo assumere a priori di sapere che $x$ è una variabile casuale con una distribuzione normale multivariata. Per semplicità supponiamo che la media sia nulla e che ogni componente sia indipendente con deviazione standard $σ_{x}$ . I nostri dati sono soggetti anche ad errori, e noi supponiamo gli errori in $b$ essere statisticamente indipendenti con media nulla e deviazione standard $σ_{b}$ . Sotto queste assunzioni la soluzione regolarizzata di Tichonov è la soluzione più probabile in termini di stima di probabilità a posteriori massima (maximum a posteriori probability (MAP) estimate) a partire dai dati e dalla distribuzione a priori di $x$ , secondo il teorema di Bayes. La matrice di Tikhonov è allora $Γ = α I$ con il coefficiente di Tichonov $α = σ_{b} / σ_{x}$ .

Se l'assunzione di normalità è sostituita mediante le assunzioni di omoschedasticità e non correlazione degli errori, e se assumiamo ancora nulla la media, allora il teorema di Gauss-Markov assicura che la soluzione è la minima stima non distorta

Regolarizzazione generalizzata di Tikhonov

Nel caso di distribuzioni normali multivariate generiche per $x$ e per errore sui dati, è possibile applicare una trasformazione alle variabili per ricondursi al caso esposto sopra. Equivalentemente, si può cercare una $x$ in modo da minimizzare

‖ A x - b ‖_{P}^{2} + ‖ x - x_{0} ‖_{Q}^{2}

dove ${‖ x ‖}_{Q}^{2}$ sta per norma pesata $x^{T} Q x$ (confronta con la distanza di Mahalanobis). Nell'interpretazione bayesiana $P$ è la matrice di covarianza inversa di $b$ , $x_{0}$ è il valore di aspettazione di $x$ , e $Q$ la matrice di covarianza inversa di $x$ . La matrice di Tichonov è allora data come una fattorizzazione della matrice $Q = Γ^{T} Γ$ (es. la fattorizzazione di Cholesky), ed è considerata un filtro di casualizzazione bianco.

Questo problema generalizzato può essere risolto esplicitamente usando la formula

x_{0} + (A^{T} P A + Q)^{- 1} A^{T} P (b - A x_{0}) .

Regolarizzazione nello spazio di Hilbert

Tipicamente i problemi discreti lineari mal condizionati risultano dalla discretizzazione di equazioni integrali, ed è possibile formulare una regolarizzazione di Tichonov nel contesto infinito-dimensionale originale. In quanto visto più sopra, possiamo interpretare $A$ come un operatore compatto su spazi di Hilbert, e $x$ e $b$ come elementi rispettivamente nel dominio e nel range di $A$ . L'operatore $A^{*} A + Γ^{T} Γ$ è allora un operatore hermitiano autoaggiunto limitato invertibile.

Collegamenti con la decomposizione ai valori singolari e il filtro di Wiener

Con $Γ = α I$ , questa soluzione basata sui minimi quadrati può essere analizzata in maniera particolare tramite la decomposizione ai valori singolari. Data la decomposizione ai valori singolari di A

A = U Σ V^{T}

con valori singolari $σ_{i}$ , la soluzione regolarizzata di Tichonov può essere espressa come

\hat{x} = V D U^{T} b

dove $D$ ha valori diagonali

D_{i i} = \frac{σ_{i}}{σ_{i}^{2} + α^{2}}

mentre tutti gli altri valori sono nulli. Questo dimostra l'effetto del parametro di Tichonov sul numero di condizionamento del problema regolarizzato. Per il caso generalizzato una rappresentazione simile può essere derivata usando una decomposizione ai valori singolari generalizzata.

Infine, la soluzione regolarizzata di Tichonov può essere collegata al filtro di Wiener:

\hat{x} = \sum_{i = 1}^{q} f_{i} \frac{u_{i}^{T} b}{σ_{i}} v_{i}

dove i pesi di Wiener sono $f_{i} = \frac{σ_{i}^{2}}{σ_{i}^{2} + α^{2}}$ e $q$ è il rango di $A$ .

Determinazione del fattore di Tichonov

Il valore ottimale del parametro di regolarizzazione $α$ è solitamente incognito e spesso nei problemi pratici è determinato ad hoc. Un possibile approccio si basa sull'interpretazione bayesiana descritta sopra. Altri approcci includono il principio di discrepanza, la cross-validazione, il metodo della curva L, la verosimiglianza massima ristretta e lo stimatore di rischio predittivo non distorto (unbiased predictive risk estimator). Grace Wahba dimostrarono che il parametro ottimale, nel senso di validazione incrociata dei dati del tipo uno-escluso (leave-one-out cross-validation) minimizza:

G = \frac{RSS}{τ^{2}} = \frac{{‖ X \hat{β} - y ‖}^{2}}{{[Tr (I - X (X^{T} X + α^{2} I)^{- 1} X^{T})]}^{2}}

dove $RSS$ è la somma dei quadrati residui e $τ$ è l'effettivo numero di gradi di libertà.

Usando la precedente decomposizione a valori singolari, possiamo semplificare l'espressione sopra:

RSS = {‖ y - \sum_{i = 1}^{q} ({u_{i}}^{'} b) u_{i} ‖}^{2} + {‖ \sum_{i = 1}^{q} \frac{α^{2}}{σ_{i}^{2} + α^{2}} ({u_{i}}^{'} b) u_{i} ‖}^{2}

RSS = {RSS}_{0} + {‖ \sum_{i = 1}^{q} \frac{α^{2}}{σ_{i}^{2} + α^{2}} ({u_{i}}^{'} b) u_{i} ‖}^{2}

e

τ = m - \sum_{i = 1}^{q} \frac{σ_{i}^{2}}{σ_{i}^{2} + α^{2}} = m - q + \sum_{i = 1}^{q} \frac{α^{2}}{σ_{i}^{2} + α^{2}}

Relazione con la formulazione probabilistica

La formulazione probabilistica di un problema inverso introduce (quando tutte le incertezze sono gaussiane) una matrice di covarianza $C_{M}$ rappresentante le incertezze a priori sui parametri del modello, e una matrice di covarianza $C_{D}$ rappresentate le incertezze sui parametri osservati (vedi, per esempio, Tarantola, 2004 [1]). Nel caso particolare quando queste due matrici sono diagonali e isotrope, $C_{M} = σ_{M}^{2} I$ e $C_{D} = σ_{D}^{2} I$ , e, in questo caso, le equazioni della teoria inversa si riducono alle equazioni sopra, con $α = σ_{D} / σ_{M}$ .

Storia

La regolarizzazione di Tichonov è stata inventata indipendentemente in vari differenti contesti. Divenne largamente famosa grazie alla sua applicazione alle equazioni integrali a partire dal lavoro di Andrej Tichonov e David L. Phillips. Alcuni autori usano il termine regolarizzazione di Tichonov-Phillips. Il caso a dimensione finita fu esposto da Arthur E. Hoerl, il quale intraprese un approccio statistico, e da Manus Foster, il quale interpretò questo metodo come un filtro di Wiener-Kolmogorov. Conseguentemente a Hoerl, esso è noto nella letteratura statistica come ridge-regressione.

Bibliografia

Template:Ru Template:Cita pubblicazione
Template:En Template:Cita pubblicazione
Template:En Template:Cita pubblicazione. Tradotto in Template:Cita pubblicazione
Template:En Template:Cita libro
Template:En Template:Cita libro
Template:EnHansen, P.C., 1998, Rank-deficient and Discrete ill-posed problems, SIAM
Template:EnHoerl AE, 1962, Application of ridge analysis to regression problems, Chemical Engineering Progress, 58, 54-59.
Template:EnFoster M, 1961, An application of the Wiener-Kolmogorov smoothing theory to matrix inversion, J. SIAM, 9, 387-392
Template:EnPhillips DL, 1962, A technique for the numerical solution of certain integral equations of the first kind, J Assoc Comput Mach, 9, 84-97
Template:EnTarantola A, 2004, Inverse Problem Theory (free PDF version), Society for Industrial and Applied Mathematics, ISBN 0-89871-572-5
Template:EnWahba, G, 1990, Spline Models for Observational Data, Society for Industrial and Applied Mathematics

Voci correlate

Template:Controllo di autorità Template:Portale

Regolarizzazione di Tichonov

Indice

Interpretazione bayesiana

Regolarizzazione generalizzata di Tikhonov

Regolarizzazione nello spazio di Hilbert

Collegamenti con la decomposizione ai valori singolari e il filtro di Wiener

Determinazione del fattore di Tichonov

Relazione con la formulazione probabilistica

Storia

Bibliografia

Voci correlate

Menu di navigazione

Regolarizzazione di Tichonov

Interpretazione bayesiana

Regolarizzazione generalizzata di Tikhonov

Regolarizzazione nello spazio di Hilbert

Collegamenti con la decomposizione ai valori singolari e il filtro di Wiener

Determinazione del fattore di Tichonov

Relazione con la formulazione probabilistica

Storia

Bibliografia

Voci correlate

Menu di navigazione

Ricerca