Il cosiddetto test esatto di Fisher è un test statistico per valutare la significatività di un’ipotesi sperimentale una volta raccolti i dati.
Supponiamo di lavorare per un’azienda che usa due tipi di macchine, quelle gialle e quelle rosse. Ci sembra che le macchine rosse abbiano più incidenti delle macchine gialle, e vogliamo testare questa ipotesi. Scegliamo un certo intervallo temporale, diciamo un anno, e teniamo conto del numero di incidenti. Alla fine otteniamo la seguente tabella:
Gialle | Rosse | Tot | |
Incidente | 2 | 10 | 12 |
No incidente | 45 | 40 | 85 |
Tot | 47 | 50 | 97 |
Nelle righe dividiamo le macchine tra quelle che hanno avuto un incidente e quelle che non lo hanno avuto, mentre nelle colonne le dividiamo tra gialle e rosse. Riportiamo poi i totali di righe e colonne.
Ora vogliamo valutare se questi risultati siano statisticamente significativi. In altre parole, la nostra ipotesi (cioè che le macchine rosse abbiano più incidenti delle gialle), sebbene sembri essere sostenuta dai dati, potrebbe essere una fluttuazione statistica casuale che non va presa sul serio. Vogliamo perciò calcolare la probabilità che la nostra osservazione sperimentale sia puramente dovuta a fluttuazioni statistiche; questa probabilità (detta valore $p$) non potrà mai essere nulla, ma vogliamo che sia il più piccola possibile.
In altre parole, il valore $p$ è la probabilità di ottenere l’osservazione sperimentale supponendo l’ipotesi nulla secondo le macchine gialle o rosse hanno incidenti con la stessa probabilità. Il famoso statistico Fisher ha dimostrato che questa probabilità segue una distribuzione ipergeometrica, perciò per una tabella generica:
Gialle | Rosse | Tot | |
Incidente | $a$ | $b$ | $a+b$ |
No incidente | $c$ | $d$ | $c+d$ |
Tot | $a+c$ | $b+d$ | $a+b+c+d$ |
il valore $p$ può essere calcolato utilizzando la formula per la distribuzione ipergeometrica, cioè
$$p = \frac{{a+b \choose a} {c+d \choose c}}{{a+b+c+d \choose a+c}}=\frac{(a+b)! (c+d)! (a+c)! (b+d)!}{(a+b+c+d)!\, a!\, b!\, c!\, d!}$$
dove in questo caso abbiamo scelto di lavorare sulla prima colonna, ma avremmo anche potuto lavorare sulla seconda. Perciò nel nostro caso il valore $p$ è dato da
$$p =\frac{12!\, 85!\, 47!\, 50!}{97!\, 2!\, 10!\, 45!\, 40!} \approx 0,016$$
Ciò vuol dire che la probabilità di questa osservazione è piuttosto bassa, circa dell’$1,6 \%$, nell’ipotesi che gli incidenti siano equamente probabili per entrambi i colori. Perciò questo risultato dà forza all’ipotesi da testare, cioè che le probabilità siano ineguali.
Tuttavia ciò non vuol dire automaticamente che la probabilità dell’ipotesi da testare sia di circa $1-0,016\approx 98\%$. Come al solito, la questione è più complicata. Per capire perché, consideriamo il teorema di Bayes, che abbiamo visto in un articolo passato. Chiamiamo $I$ l’ipotesi che la probabilità di incidenti sia diversa per i due colori, e $I_0$ l’ipotesi nulla per cui la probabilità è uguale. Chiamiamo inoltre $D$ la tabella dei dati che abbiamo ottenuto. Allora il valore $p$ che abbiamo ottenuto è più precisamente
$$p = P(D | I_0) \approx 0,016$$
cioè, come abbiamo detto più volte, la probabilità di ottenere i dati osservati supponendo vera l’ipotesi nulla. A noi però interessa un’altra probabilità, cioè la probabilità che l’ipotesi da testare $I$ sia corretta dati i dati osservati, ovvero $P(I | D)$. Utilizzando il teorema di Bayes, abbiamo
$$P(I | D) = 1-P(I_0 | D) = 1- \frac{P(D | I_0) P(I_0)}{P(D)}$$
Per cui sebbene il valore $p$, ovvero $P(D | I_0)$, sia piccolo, ciò non vuol dire che la nostra ipotesi $I$ sia ben supportata dai dati, cioè non vuol dire che $P(I | D)$ sia vicina ad $1$. Ciò dipenderà infatti anche dal rapporto $P(I_0) / P(D)$. Ricordiamo che $P(I) = 1-P(I_0)$ e $P(D) = P(D|I)P(I)+P(D | I_0) P(I_0)$. Perciò ad esempio se l’ipotesi che abbiamo scelto è a priori poco probabile ($P(I) \approx 0$) oppure se i dati che abbiamo sono poco rappresentativi ($P(D) \approx 0$) allora avremo bisogno di un valore $p$ molto piccolo per raggiungere un dato livello di significatività (cioè una certa probabilità $P(I | D)$). Mentre invece se l’ipotesi è probabile e i dati sono ben rappresentativi, il valore $p$ può anche essere più grande.
Questo per dire che sebbene il valore $p$ sia un’importante misura statistica, per valutarne il significato bisogna sempre tenere conto delle probabilità a priori. Inoltre l’analisi statistica non dice nulla riguardo ad altri fattori che possono influenzare l’andamento dell’esperimento: la scelta delle variabili (giallo vs rosso), l’intervallo temporale in cui effettuare le osservazioni o altre questioni più sottili come ad esempio la definizione esatta di incidente, oppure la possibilità che gli incidenti non vengano riportati, e via dicendo. Infine, se anche ci fosse una correlazione statistica tra il colore della macchina e il numero di incidenti, ciò non vuol dire che uno dei due fattori sia la causa dell’altro.