Q di Yule

Da testwiki.
Vai alla navigazione Vai alla ricerca

La variabile di test Q di Yule è un indice di associazione, ideato dallo statistico scozzese George Udny Yule, e usato in tabelle statistiche dette di contingenza 2×2.

Un indicatore ideato dallo stesso autore è la Y di Yule. Rispetto quest'ultima il valore assoluto è sempre maggiore (|Q|>|Y|) a meno che non vi sia indipendenza o completa associazione.

Storia

L'indice venne presentato da Yule nell'articolo On the association of attributes in statistics[1] e fu al centro di una controversia con il matematico e statistico inglese Karl Pearson. La posizione di Pearson era che alla base di una tabella di contingenza vi fosse un fenomeno continuo e gaussiano, invece che un fenomeno discreto come sostenuto da Yule, che considerava poco scientifico fare ipotesi non desiderate e non verificabili.

Pearson, inoltre, notava che "collassando" una tabella N×N, riducendola a 2x2, si ottengono risultati differenti a seconda di come vengono aggregati i valori.
Questa osservazione rimane tuttora valida.

Metodologia

Q=(α1)/(α+1)

ove

α=(P11/P21)/(P12/P22) è il cosiddetto odds ratio
Pij=P(AiBj) ove sia i che j assumono i valori 1 e 2

Tale indice Q varia tra -1 e +1, ove 0 indica l'indipendenza.

Q può essere stimato da

q=(a1)/(a+1)

dove in questo caso

a=(f11/f21)/(f12/f22) in analogia a α (con il vincolo che fij sia sempre maggiore di zero

mentre la varianza di q viene stimata con

s2(q)=1/4(1q)2i=1Nj=1N1/fij

Esempio

 Valori assoluti
 +-------------+-------+------+
 |     \ Abile |   Si  |  No  |
 |Sesso \      |       |      |
 +-------------+-------+------+
 |Uomini       |  20   |  80  |
 |Donne        |  90   |  80  |
 +-------------+-------+------+

 Valori relativi (f)
 +-------------+-------+------+
 |     \ Abile |   Si  |  No  |
 |Sesso \      |       |      |
 +-------------+-------+------+
 |Uomini       | 0,074 | 0,296|
 |Donne        | 0,333 | 0,296|
 +-------------+-------+------+
a=(0,074/0,333)/(0,296/0,296)=0,222
q=(0,2221)/(0,222+1)=0,636

Valori di q differenti

Collassando una tabella N×N a una 2×2, a causa del criterio di aggregazione dei valori, si possono ottenere valori di q differenti. (cf. osservazione di Karl Pearson)

Se per esempio i dati di partenza fossero stati

 
 +-------------+-------+------+------+
 |     \ Abile |   Si  | boh! |  No  |
 |Sesso \      |       |      |      |
 +-------------+-------+------+------+
 |Uomini       |  20   |  10  |  70  |
 |Donne        |  90   |   0  |  80  |
 +-------------+-------+------+------+

assegnando il "Boh!" ai "No" si ottiene la tabella e il q=0,636 di cui sopra, mentre assegnandolo ai "Si" si ottiene la tabella seguente:

 +-------------+-------+------+
 |     \ Abile |   Si  |  No  |
 |Sesso \      |       |      |
 +-------------+-------+------+
 |Uomini       |  30   |  70  |
 |Donne        |  90   |  80  |
 +-------------+-------+------+

con l'indicatore q che si attenua diventando q=0,448

Note

Template:Portale