Modello logit

Da testwiki.
Versione del 16 ago 2024 alle 18:17 di imported>Capagira (modifica formule troppo lunghe)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Vai alla navigazione Vai alla ricerca
Il modello logit è rappresentato in blu.

In statistica, il modello logit, noto anche come modello logistico o regressione logistica, è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.[1]

Il modello logit fa parte della classe dei modelli lineari generalizzati, così come il modello probit ed il modello loglineare, dai quali differisce essenzialmente per la scelta della funzione Λ.[1]

Scelta della funzione

La funzione logit. L'inversa di questa funzione è utilizzata nella regressione logistica.

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1. Poiché le probabilità per definizione sono limitate ad un intervallo C=[0,1], l'utilizzo di un modello di regressione lineare non sarebbe appropriato, infatti esso restituirebbe dei valori appartenenti all'intero insieme .[2] Si supponga infatti il seguente modello lineare:

Pr(Y=1X=x)=β0+β1X.

La derivata

XPr(Y=1X=x)=β1

essendo costante e uguale al parametro β1, non permette alla funzione di cambiare pendenza in base al valore di X e quindi di poter avere come codominio C. Questa caratteristica è invece posseduta, ad esempio, dalle funzioni di ripartizione.[2] L'utilizzo infatti di una funzione non lineare permette di avere una derivata prima dipendente da X e quindi in grado di cambiare al variare di questa variabile. Se si considera infatti il seguente modello:

Pr(Y=1X=x)=F(α0+α1X),

dove la derivata è la seguente

XPr(Y=1X=x)=f(α0+α1X)α1.

Si nota come la pendenza della curva ora possa variare al variare di X, potendo quindi possedere un codominio C. Per il modello logit si utilizza come funzione F la funzione di ripartizione della distribuzione logistica standard.[1]

Definizione

Il modello di regressione logit per la popolazione è:[1][3]

𝔼[Y𝐗]=Pr(Y=1X1,,Xk)=Λ(𝐗Tβ)=eβ0+β1X1++βkXk1+eβ0+β1X1++βkXk=p,

dove:

Varianza

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori 𝐗. Infatti

Var(Y𝐗)=𝔼[Y2𝐗]𝔼[Y𝐗]2=Λ(𝐗Tβ)(1Λ(𝐗Tβ)).

Effetto marginale

L'effetto sulla variabile dipendente Y dato da un cambiamento in un regressore Xj, chiamato effetto marginale, è calcolato come la derivata del valore atteso di Y rispetto a Xj:

Xj𝔼[Y𝐗]=XjΛ(𝐗Tβ)=Xje𝐗Tβ1+e𝐗Tβ=e𝐗Tβ1+e𝐗Tβ11+e𝐗Tββj,

dove βj è il parametro associato al regressore Xj.[1] Per il calcolo della derivata il regressore deve essere continuo.

Illustrazione del metodo

Per ogni osservazione campionaria i=1,,n si dispone di una determinazione Y e di k determinazioni X1,,Xk. Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione logistica standard, tra la variabile dipendente e k variabili indipendenti, stimando il valore dei coefficienti β0,,βk tramite il metodo della massima verosimiglianza.[1]

Stima del modello

Il vettore di parametri β è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.[4] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.[4] Alla stima dei parametri segue la stima della probabilità p.

Funzione di verosimiglianza

Nel modello logit la variabile dipendente Y è dicotomica e con distribuzione Y(p). Si consideri un campione di n osservazioni dove ciascuna di esse è identificata con i=1,,n. Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione i è

Pr(Yi=1X1i,,Xki)=Λ(β0+β1X1i++βkXki)=pi,

mentre la probabilità che sia 0 è

Pr(Yi=0X1i,,Xki)=1Λ(β0+β1X1i++βkXki)=1pi.

La distribuzione di probabilità condizionata per ogni elemento i può essere scritta come

Pr(Yi=yiX1i,,Xki)=piyi(1pi)1yi.

Si considera ora l'intero campione e sia assume che X1i,X2i,,Xki,Yi siano indipendenti e identicamente distribuite per ogni osservazione i. Risulta quindi che la distribuzione di probabilità congiunta di (Y1,,Yn) è il prodotto delle probabilità condizionate di ogni osservazione:

Pr(Y1=y1,,Yn=ynX1i,,Xki)=Pr(Y1=y1X11,,Xk1)Pr(Yn=ynX1n,,Xkn)==p1y1(1p1)1y1pnyn(1pn)1yn=i=1npiyi(1pi)1yi.

Si riprende ora la definizione del modello logit e la si sostituisce al posto di pi, ottenendo quindi la funzione di verosimiglianza[5]

logit(β0,,βk;Y1,,YnX1i,,Xki)=i=1n[Λ(β0+β1X1i++βkXki)]Yi[1Λ(β0+β1X1i++βkXki)]1Yi.

Stima dei parametri

Per calcolare gli stimatori β^0,β^1,,β^k dei parametri β0,β1,,βk risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

𝓁logit(β0,,βk;Y1,,YnX1i,,Xki)=lnlogit(β0,,βk;Y1,,YnX1i,,Xki)=i=1nYiln[Λ(β0+β1X1i++βkXki)]+i=1n(1Yi)ln[1Λ(β0+β1X1i++βkXki)]

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

{β^0,β^1,,β^k}MV=argmaxβ0,,βk𝓁logit(β0,,βk;Y1,,YnX1i,,Xki).[6]

Per semplificare la scrittura consideriamo β un vettore dei parametri β0,β1,,βk, λ la derivata di Λ, ossia la funzione di densità di probabilità della distribuzione logistica, e n il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione e quindi garantire che quelli trovati siano solo punti di massimo:

  • β𝓁logit(β;𝐲)=0i=1n{yiΛ(𝐱iβ)Λ(𝐱iβ)[1Λ(𝐱iβ)]λ(𝐱iβ)}=0;
  • 2ββ𝓁logit(β;𝐲)<0.

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.[6]

Stima della probabilità

Quando è stato calcolato il vettore β^, ossia la stima del vettore dei parametri β, è possibile procedere alla stima della probabilità p. Per definizione del modello, questa probabilità è anche il valore atteso di Y.

p^=𝔼^[Y𝐗]=Λ(𝐗Tβ^)=e𝐗Tβ^1+e𝐗Tβ^.

Note

  1. 1,0 1,1 1,2 1,3 1,4 1,5 Template:Cita libro
  2. 2,0 2,1 Template:Cita libro
  3. Il valore attes
  4. 4,0 4,1 Template:Cita libro
  5. L'intera derivazione della funzione di verosimiglianza è consultabile alle pagine qui riportate. Template:Cita libro
  6. 6,0 6,1 Template:Cita libro

Bibliografia

Voci correlate

Altri progetti

Template:Interprogetto

Template:Statistica Template:Controllo di autorità Template:Portale