Bozza:Teoria delle urne di polya
Template:Bozza Template:F In statistica, un modello di urna di Pólya (noto anche come schema di urna di Pólya o semplicemente come urna di Pólya), che prende il nome da George Pólya, è una famiglia di modelli di urna che possono essere utilizzati per interpretare molti modelli statistici comunemente utilizzati.[1]
Il modello rappresenta oggetti di interesse (come atomi, persone, automobili, ecc.) come palline colorate in un'urna. Nel modello di urna di Pólya di base, lo sperimentatore inserisce x palline bianche e y palline nere in un'urna. A ogni passaggio, una pallina viene estratta in modo uniforme e casuale dall'urna e ne viene osservato il colore; viene quindi rimessa nell'urna e un'ulteriore pallina dello stesso colore viene aggiunta all'urna.
Se per caso, vengono estratte più palline nere che bianche nelle prime estrazioni, ciò renderebbe più probabile che vengano estratte più palline nere in seguito. Lo stesso vale per le palline bianche. Pertanto l'urna ha una proprietà auto-rinforzante ("i ricchi diventano più ricchi"). È l'opposto del campionamento senza sostituzione, in cui ogni volta che si osserva un valore particolare, è meno probabile che venga osservato di nuovo, mentre in un modello di urna Pólya, un valore osservato ha più probabilità di essere osservato di nuovo. In un modello di urna Pólya, gli atti di misurazione successivi nel tempo hanno sempre meno effetto sulle misurazioni future, mentre nel campionamento senza sostituzione, è vero il contrario: dopo un certo numero di misurazioni di un valore particolare, quel valore non verrà mai più visto.
È anche diverso dal campionamento con sostituzione, in cui la pallina viene rimessa nell'urna ma senza aggiungere nuove palline. In questo caso, non c'è né auto-rinforzante né anti-auto-rinforzante.
Risultati preliminari
Le questioni di interesse sono l'evoluzione della "popolazione" dell'urna e la sequenza dei colori delle palline estratte.
Dopo estrazioni, la probabilità che l'urna contenga palline bianche e palline nere (per e ) è
,
dove la barra superiore indica il fattoriale crescente. Ciò può essere dimostrato disegnando il triangolo di Pascal di tutte le possibili configurazioni.
In particolare, partendo da una pallina bianca e una nera (vale a dire, ) la probabilità di avere un numero qualsiasi di palline bianche nell'urna dopo estrazioni è la stessa, .
Più in generale, se l'urna inizia con palline di colore , con , quindi dopo estrazioni, la probabilità che l'urna contenga palline di colore è
,
dove si è utilizzato il coefficiente multinomiale.
A condizione che l'urna finisca con palline di colore dopo estrazioni, ci sono estrazioni diverse che potrebbero aver portato a tale stato finale. La probabilità condizionata di ogni estrazione è la stessa: .[2]
Interpretazione informale
Uno dei motivi di interesse per questo particolare modello di urna piuttosto elaborato (vale a dire con duplicazione e successiva sostituzione di ogni pallina estratta) è che fornisce un esempio in cui il conteggio (inizialmente palline nere e palline bianche) delle palline nell'urna non è nascosto, grazie a questo si è in grado di approssimare il corretto aggiornamento delle probabilità soggettive appropriate a un caso diverso in cui il contenuto originale dell'urna è nascosto mentre viene condotto un campionamento ordinario con sostituzione (senza la duplicazione delle palline di Pólya). A causa del semplice schema di "campionamento con sostituzione" in questo secondo caso, il contenuto dell'urna è ora statico, ma questa maggiore semplicità è compensata dall'ipotesi che il contenuto dell'urna sia ora sconosciuto a un osservatore. È possibile effettuare un'inferenza bayesiana dell'incertezza dell'osservatore sul contenuto iniziale dell'urna, utilizzando una particolare scelta di distribuzione a priori (coniugata). In particolare, si supponga che un osservatore sappia che l'urna contenga solo palline identiche, ciascuna colorata di nero o di bianco, ma non conosce il numero assoluto di palline presenti, né la proporzione di ogni colore. Si supponga che abbia delle convinzioni a priori su queste incognite: per lui la distribuzione di probabilità del contenuto dell'urna è ben approssimata da una distribuzione a priori per il numero totale di palline nell'urna e da una distribuzione a priori beta con parametri per la proporzione iniziale di queste che sono nere, questa proporzione essendo (per lui) considerata approssimativamente indipendente dal numero totale. Quindi il processo di risultati di una successione di estrazioni dall'urna (con sostituzione ma senza duplicazione) ha approssimativamente la stessa legge di probabilità dello schema Pólya di cui sopra, in cui il contenuto effettivo dell'urna non era nascosto. L'errore di approssimazione qui è correlato al fatto che un'urna contenente un numero finito (e noto) di palline, ovviamente, non può avere una proporzione sconosciuta di palline nere esattamente beta-distribuita, poiché il dominio dei possibili valori per quella proporzione è limitato a multipli di , piuttosto che avere la piena libertà di assumere qualsiasi valore nell'intervallo unitario continuo, come farebbe una proporzione esattamente distribuita in beta. Questo resoconto leggermente informale è fornito per motivi di motivazione e può essere reso più preciso matematicamente.
Questo modello di urna di Pólya di base è stato generalizzato in molti modi.