Paradosso di Simpson

Da testwiki.
Versione del 9 gen 2025 alle 15:13 di 95.238.94.21 (discussione) (Cause)
(diff) ← Versione meno recente | Versione attuale (diff) | Versione più recente → (diff)
Vai alla navigazione Vai alla ricerca

Template:NN File:Paradosso di Simpson.ogv In statistica, il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in considerazione nell'analisi (variabili nascoste). È alla base di frequenti errori nelle analisi statistiche nell'ambito delle scienze sociali e mediche, ma non solo[1].

Storia

Fu descritto da George Udny Yule, nell'articolo Notes on the theory of association of attributes in Statistics, comparso in Biometrika nel 1903, e da E. H. Simpson, con l'articolo "The interpretation of interaction in contingency tables", pubblicato nel Journal of the Royal Statistical Society (1951).

Definizione formale

Benché

P(X|BC)>P(X|BcC),P(X|BCc)>P(X|BcCc),

accade che

P(X|B)<P(X|Bc),

dove P(X|YZ) è la probabilità di X condizionata dall'evento congiunto Y e Z, Bc è l'evento complementare di B e Cc è l'evento complementare di C[2]

Esempio

Si ipotizzi una situazione nella quale la percentuale di disoccupati tra i diplomati sia la metà rispetto alla popolazione di chi non ha conseguito il diploma.

Consideriamo però pure il fatto che, per motivi storici, tra le generazioni più anziane i diplomati siano in numero molto minore e che, per motivi legati al mercato del lavoro, tra i giovani il tasso di disoccupazione sia più elevato che tra gli anziani.

Partendo dalle seguenti due statistiche ipotetiche:

Intervistati Senza diploma Con diploma Totale
Giovani 20 80 100
Anziani 120 30 150
Totale 140 110 250
Tasso di disoccupazione Senza diploma Con diploma
Giovani 30% 15%
Anziani 5% 3,33%

dove abbiamo che in entrambi i casi la disoccupazione è circa doppia tra i non diplomati, rispetto ai diplomati, si può calcolare il numero di disoccupati:

Disoccupati Senza diploma Con diploma Totale
Giovani 6 12 18
Anziani 6 1 7
Totale 12 13 25

Questi valori assoluti permettono ora di calcolare il tasso di disoccupazione per i non diplomati e per i diplomati senza tenere conto dell'età. Si ottiene:

Percentuale di disoccupati
Senza diploma 12/140 = 8,6%
Con diploma 13/110 = 11,8%

Si scopre così che tra i diplomati il tasso di disoccupazione invece che essere la metà è maggiore di un quarto che tra i non diplomati, proprio il contrario di quello che si era ipotizzato.

Questo paradosso è dovuto al fatto che il tasso di disoccupazione è nettamente maggiore nel gruppo che ha una maggiore percentuale di diplomati; trascurare l'esistenza di due relazioni fondamentali (quella tra disoccupazione ed età, nonché quella tra età e titolo di studio) fa giungere a conclusioni errate[3][4].

Cause

Mentre nel caso precedente preparato a tavolino la contraddizione è evidente, nelle analisi statistiche reali può capitare di non accorgersi delle relazioni implicite esistenti tra le variabili e limitarsi ad analizzare dati aggregati senza incrociarli con le variabili essenziali; la contraddizione non verrebbe allora minimamente percepita, e si potrebbero trarre conclusioni completamente opposte alla vera distribuzione, con conseguenze potenzialmente molto gravi.

In situazioni meno estreme di quelle dell'esempio, le stesse cause del paradosso di Simpson possono portare a sovrastimare o sottostimare differenze tra gruppi, senza però capovolgere il "segno" della relazione.

I dati prodotti dal paradosso di Simpson chiaramente non sono sbagliati in sé, ma semplicemente devono essere letti in modo diverso da come farebbe un lettore o analista superficiale:

  • tra persone con diploma ci sono più disoccupati che tra persone senza diploma.

Mentre sbagliata è la conclusione superficiale che usa concetti di causa-effetto, come

  • avere un diploma è la causa di una maggiore disoccupazione.

Volendo usare concetti di causa effetto (spesso l'unico motivo per il quale si analizzano i dati), ma avendo a disposizione tutti i dati, si può dire:

  1. i giovani sono sei volte più soggetti alla disoccupazione rispetto agli anziani;
  2. ma sia tra i giovani sia tra gli anziani avere un diploma riduce il "rischio disoccupazione" alla metà.

Note

Bibliografia

Template:SEP

Altri progetti

Template:Interprogetto

Template:Portale