Distribuzione di probabilità dei punti estremanti di un processo stocastico di Wiener

Da testwiki.
Vai alla navigazione Vai alla ricerca

In alcuni problemi di ottimizzazione globale non è nota una definizione analitica della funzione obiettivo ed è solo possibile una sua valutazione in punti prefissati. Vi sono funzioni obiettivo in cui il costo di una valutazione è molto alto, come ad esempio avviene se la valutazione è il risultato di un esperimento o di una misurazione particolarmente onerosa. In questi casi la ricerca degli estremanti globali (massimi o minimi) deve essere effettuata con metodi denominati di “ottimizzazione bayesiana”, che tendono a ottenere il miglior risultato a priori possibile con un numero prefissato di valutazioni. In sintesi si ipotizza che al di fuori dei punti in cui la funzione è già stata valutata, questa abbia un andamento che può essere rappresentato da un processo stocastico con opportune caratteristiche. Il processo stocastico viene assunto come modello della funzione obiettivo, ipotizzando che la distribuzione di probabilità dei suoi punti estremanti dia la migliore indicazione a priori sui valori dei punti estremanti della funzione obiettivo. Nel caso più semplice della ottimizzazione unidimensionale, posto che la funzione obiettivo sia stata valutata in un certo numero di punti, si pone il problema di scegliere in quali degli intervalli così individuati sia più opportuno investire per l'effettuazione di una nuova valutazione. Se come modello della funzione obiettivo si è scelto un processo stocastico di Wiener, è possibile calcolare la distribuzione di probabilità dei punti estremanti del modello all’ interno di ciascun intervallo, condizionata dai valori noti assunti ai suoi estremi. Il confronto delle distribuzioni ottenute offre un criterio per la scelta dell'intervallo in cui iterare il procedimento. Un valore scelto a priori di probabilità di avere individuato un intervallo in cui cade il punto estremante globale della funzione obiettivo può fungere da criterio di arresto. L'ottimizzazione bayesiana non è un metodo efficiente per la ricerca precisa di estremanti locali per cui, una volta ristretto l'intervallo di ricerca, a seconda delle caratteristiche del problema si procede, se necessario, con metodi specifici per l'ottimizzazione locale.

La formula della distribuzione con un abbozzo di dimostrazione è indicata nell'articolo di H.J. Kushner (appendix 3, pagina 106) pubblicato nel 1964[1], la dimostrazione costruttiva dettagliata è ripresa da[2] , sviluppata nel contesto della ricerca nel campo degli algoritmi di ottimizzazione bayesiana.

Enunciato

Sia la funzione reale di variabile reale X(t) definita sull'intervallo [a,b] un processo stocastico di Wiener e sia inoltre X(a)=Xa.

Per le proprietà dei processi di Wiener, gli incrementi hanno distribuzione normale: at1<t2b   X(t2)X(t1)N(0;  σ2(t2t1))

Sia F(z)=P(minatbX(t)z  |  X(b)=Xb) la distribuzione di probabilità del valore minimo della funzione X(t) nell'intervallo [a,b] condizionata dal valore X(b)=Xb .

Si dimostra che [1][2][3]:


F(z)={1per zmin{Xa,Xb},exp(2(zXb)(zXa)σ2(ba))per z<min(Xa,Xb).

Dimostrazione costruttiva

Il caso zmin(Xa,Xb) è immediata conseguenza della definizione di minimo, nel seguito si supporrà sempre z<min(Xa,Xb) e si escluderà il caso limite minatbX(t)=min(Xa,Xb).

Si consideri X(t) definita in un numero finito di punti tk[a,b],  0kn,  t0=a.

Posto Tn  =def  {tk,  0kn,} al variare di n la successione di insiemi {Tn} sia tale che TnTn+1 e che n=0+Tn sia un insieme denso in [a,b],

per cui ogni intorno di ogni punto di [a,b] contiene un elemento di uno degli insiemi Tn.

Sia Δz un numero reale positivo tale che z+Δz<min(Xa,Xb).

Sia E l'evento così definito: E  =def  (minatbX(t)<z+Δz) (t[a,b]:X(t)<z+Δz) .

Avendo escluso il caso limiteminatbX(t)=min(Xa,Xb) è sicuramente P(E)>0.

Siano En,  n=0,1,2, gli eventi così definiti: En  =def  (tkTn:z<X(tk)<z+Δz) e sia ν il primo k fra i tkTn che definiscono En.

dato che TnTn+1 è evidentemente EnEn+1. Si dimostrerà ora la (2.1):

(2.1)     E=n=0+En

Dalla definizione degli eventi En, n  EnE, per cui n=0+EnE . Si verificherà ora che vale anche la relazione En=0+En per cui resterà provata la (2.1).

La definizione di E, la continuità di X(t) e l'ipotesi z<Xa=X(a) implicano, per il teorema dei valori intermedi, (t¯[a,b]:z<X(t¯)<z+Δz).

Dalla continuità di X(t) e dall'ipotesi che n=0+Tn sia denso in [a,b] si deduce che n¯ tale che per tνTn¯ risulti z<X(tν)<z+Δz ,

quindi EEn¯n=0+En da cui la (2.1).

(2.2)     P(E)=limn+P(En)

La (2.2) si deduce dalla (2.1) considerando che EnEn+1, per cui la successione delle probabilità P(En) è monotona non decrescente e quindi converge al suo estremo superiore. Per la definizione degli eventi En, n  P(En)>0P(En)=P(Eν) e per la (2.2) P(E)=P(Eν).

Nel seguito si assume sempre nν, per cui tνè ben definito.

(2.3)     P(X(b)Xb+2z)P(X(b)X(tν)<Xb+z)

Infatti dato che per definizione di En è z<X(tν), vale la relazione (X(b)Xb+2z)(X(b)X(tν)<Xb+z).

In modo analogo dato che per definizione di En è z<X(tν), vale la relazione (2.4):

(2.4)     P(X(b)X(tν)>Xbz)P(X(b)>Xb)

(2.5)    P(X(b)X(tν)<Xb+z)=P(X(b)X(tν)>Xbz)

Infatti la variabile casuale (X(b)X(tν))N(;  σ2(btν)) ha una densità di probabilità simmetrica rispetto alla sua media che è zero.

Mettendo in sequenza le relazioni (2.3), (2.5) e (2.4) si ottiene la (2.6) :

(2.6)     P(X(b)Xb+2z)P(X(b)>Xb)

Con lo stesso procedimento usato per ottenere (2.3), (2.4) e (2.5) sfruttando questa volta la relazione X(tν)<z+Δz si ottiene la (2.7):

(2.7)     P(X(b)>Xb)P(X(b)X(tν)>XbzΔz)  =  P(X(b)X(tν)<Xb+z+Δz)P(X(b)<Xb+2z+2Δz)

Applicando successivamente (2.6) e (2.7) si ha:

(2.8) P(X(b)Xb+2z)P(X(b)>Xb) P(X(b)<Xb+2z+2Δz)

Da Xb>z+Δz>z, per la continuità di X(t) e il teorema dei valori intermedi X(b)>Xb>z+Δz>zEn , da cui P(X(b)>Xb)=P(En,X(b)>Xb)

Sostituendo in (2.8) e passando ai limiti: limn+   En(Δz)E(Δz) mentre per Δz0 l'evento E(Δz) converge a minatbX(t)z

(2.9)     P(X(b)Xb+2z)=P(minatbX(t)z,  X(b)>Xb)

dXb>0, sostituendo (Xb) con (XbdXb)nella (2.9) si ottiene l'equivalente:

(2.10)    P(X(b)Xb+2z+dXb)=P(minatbX(t)z,  X(b)>XbdXb)

Applicando il teorema di Bayes all'evento congiunto (minatbX(t)z,  XbdXb<X(b)Xb)

(2.11)     P(minatbX(t)zXbdXb<X(b)Xb)=P(minatbX(t)z,  XbdXb<X(b)Xb) /  P(XbdXb<X(b)Xb)

Ponendo B =def {X(b)>Xb}, C =def {XbdXb<X(b)Xb}, D =def {X(b)>XbdXb}, A =def  {minatbX(t)z} risulta

D=BC P(A,D)=P(A,BC)=P(A,B)+P(A,C)P(A,C)=P(A,D)P(A,B)

(2.12)   P(A,C)=P(A,D)P(A,B)

Sostituendo la (2.12) nella (2.11), si ottiene l'equivalente:

(2.13)  P(minatbX(t)zXbdXb<X(b)Xb)=(P(minatbX(t)z, X(b)>XbdXb)P(minatbX(t)z,  X(b)>Xb)) /  P(XbdXb<X(b)Xb)

Sostituendo (2.9) e (2.10) nella (2.13):

(2.14)    P(minatbX(t)zXbdXb<X(b)Xb)=(P(X(b)Xb+2z+dXb)P(X(b)Xb+2z) /  P(XbdXb<X(b)Xb)

Si osservi che nel secondo membro della (2.14) compare la distribuzione di probabilità della variabile casuale X(b), normale con media Xa e varianza σ2(ba).

Ai valori delle realizzazioni Xb e Xb+2z della variabile casuale X(b) corrispondono rispettivamente le densità di probabilità:

(2.15)     P(Xb)dXb=1σ2π(ba)exp(12(XbXa)2σ2(ba))dXb

(2.16)     P(Xb+2z)dXb=1σ2π(ba)exp(12(Xb+2zXa)2σ2(ba))dXb

Sostituendo (2.15) e (2.16) nella (2.14) e prendendo il limite per dXb0 si è dimostrata la tesi:

F(z)=P(minatbX(t)z  |  X(b)=Xb)=

=1σ2π(ba)exp(12(Xb+2zXa)2σ2(ba))dXb    1σ2π(ba)exp(12(XbXa)2σ2(ba))dXb=

=exp(12(Xb+2zXa)2(XbXa)2σ2(ba))=  exp(2  (zXb)(zXa)σ2(ba))

Note

  1. 1,0 1,1 A New Method of Locating the Maximum Point of an Arbitrary Multipeak Curve in the Presence of Noise - H.J. Kushner - J. Basic Eng 86(1), 97-106 (Mar 01, 1964).
  2. 2,0 2,1 Una nuova classe di algoritmi stocastici per l'ottimizzazione globale - Dario Ballabio - Università degli Studi di Milano, Istituto di Matematica, tesi di laurea discussa il 12 Luglio 1978, pag. 29-33.
  3. Il teorema, enunciato e dimostrato per il caso del minimo del processo di Wiener, vale anche per il massimo.

Bibliografia

  • A versatile stochastic model of a function of unknown and time varying form - Harold J Kushner - Journal of Mathematical Analysis and Applications Volume 5, Issue 1, August 1962, Pages 150-167.
  • The Application of Bayesian Methods for Seeking the Extremum - J. Mockus, J. Tiesis, A. Zilinskas - IFIP Congress 1977, August 8-12 Toronto.

Voci correlate

Template:Portale