Supponiamo che ci siano due gruppi di scienziati, $X_1$ e $X_2$, che stanno lavorando allo stesso problema, e misurano una certa quantità con due metodi indipendenti. Alla fine degli esperimenti, i due risultati di $X_1$ e $X_2$ non sembrano a prima vista compatibili. Qual è la probabilità che questa discrepanza sia dovuta solo a fluttuazioni statistiche, invece che indicare un problema più significativo?
Un esempio di una situazione del genere riguarda la costante di Hubble. In questo caso le misurazioni effettuate tramite la scala delle distanze cosmiche danno un risultato di circa $73,5 \pm 1,4 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$, mentre misurazioni basate sulla radiazione cosmica di fondo danno un risultato di $67,36 \pm 0,54 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$. Queste due misure sono a prima vista incompatibili, perché anche considerando il margine di errore non c’è sovrapposizione tra le due. Tuttavia dobbiamo ricordare che ogni misura sperimentale è data dalla media di molte diverse misurazioni, e perciò per il teorema centrale del limite è distribuita normalmente. Ciò vuol dire che se misuriamo ad esempio $73,5 \pm 1,4$, dove appunto $1,4$ è l’errore nella media, allora come abbiamo visto in un precedente articolo c’è una probabilità di circa il $68\%$ che il valore corretto si trovi nell’intervallo $(73,5 -1,4) \to (73,5 + 1,4)$, ma c’è una probabilità non-nulla che il valore corretto sia un qualsiasi numero reale.
Ciò vuol dire che sebbene le due misure della costante di Hubble appaiano incompatibili, c’è in realtà una probabilità non-nulla che la differenza tra le due sia dovuta puramente a fluttuazioni statistiche. In altre parole, abbiamo due opzioni: la prima è che la teoria cosmologica attuale è corretta e che quindi la differenza tra le due misure è una fluttuazione statistica; questa è la nostra ipotesi nulla, concetto che abbiamo già visto in un altro articolo. L’alternativa è che invece la teoria cosmologica è sbagliata, e quindi le due misure misurano in realtà cose leggermente diverse. Vogliamo quantificare qual è la probabilità che l’ipotesi nulla sia corretta date queste due misurazioni.
Consideriamo due variabili casuali $X_1$ e $X_2$ ottenute tramite la media di un certo numero di variabili casuali identicamente distribuite, che può essere diverso nei due casi, ovvero
$$X_1 = \frac{1}{N_1} \sum_{i=1}^{N_1} X_1^{(i)} \quad \quad X_2 = \frac{1}{N_2} \sum_{i=1}^{N_2} X_2^{(i)}$$
La varianza delle due misure è $\sigma_1^2$ e $\sigma_2^2$ rispettivamente, e perciò i rispettivi errori nella media sono dati da $\sigma_1/\sqrt{N_1}$ e $\sigma_2/\sqrt{N_2}$. Per il teorema centrale del limite, se facciamo tendere $N_1, N_2 \to \infty$ allora $X_1$ e $X_2$ diventeranno normalmente distribuite; vedremo questa semplificazione alla fine, ma per adesso teniamo $N_1$ e $N_2$ finiti. Consideriamo quindi la variabile casuale
$$t = \frac{X_1-X_2}{\sqrt{\frac{\sigma_1^2}{N_1} +\frac{\sigma_2^2}{N_2}}}$$
dove capiremo il perché del nome $t$ fra poco. La variabile $t$ altro non è se non la differenza tra le due medie, $X_1-X_2$, diviso l’errore in $X_1-X_2$. Nel caso sopra della costante di Hubble abbiamo le due medie $X_1=73,5 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$ e $X_2 = 67,36 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$ e i due errori nella media $\sigma_1/\sqrt{N_1} = 1,4 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$ e $\sigma_2/\sqrt{N_2} = 0,54 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$. Perciò $X_1-X_2 = 6,14 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$ e l’errore in $X_1-X_2$ è $\sqrt{\frac{\sigma_1^2}{N_1} +\frac{\sigma_2^2}{N_2}}\approx 1,50 \frac{\mathrm{km}/\mathrm{s}}{\mathrm{Mpc}}$ e quindi $t \approx 4,1 $. In questo caso si dice che c’è una discrepanza di $4,1$ sigma, nel senso che la differenza tra le due misure è pari a circa $4,1$ volte l’errore combinato delle due misure. Ora vediamo cosa significa questa differenza in termini quantitativi.
Sotto l’ipotesi che le due popolazioni da cui abbiamo preso i campioni $\{X_1^{(i)}\}$ e $\{X_2^{(i)}\}$ siano distribuite normalmente con la stessa media, anche se la varianza può essere diversa, allora si può dimostrare che con buona approssimazione la probabilità di ottenere un certo valore di $t$ è data da
$$P(t) = \int_{\abs{x} > t} f_\nu(x) dx$$
dove $f_\nu(x)$ è la distribuzione $t$ di Student data da
$$f_\nu(x) =\frac{\Gamma{\pqty{\frac{\nu+1}{2}}}}{\sqrt{\nu\pi}\Gamma{\pqty{\frac{\nu}{2}}}}\pqty{1+ \frac{x^2}{\nu}}^{-\pqty{\nu+1}/2}$$
dove il numero di gradi di libertà $\nu$ è dato da
$$\nu \approx \frac{\pqty{\frac{\sigma_1^2}{N_1} +\frac{\sigma_2^2}{N_2}}^2}{\frac{\pqty{\sigma_1^2/N_1}^2}{N_1-1}+\frac{\pqty{\sigma_2^2/N_2}^2}{N_2-1}}$$
Poiché il risultato è la distribuzione $t$ di Student, il test è detto test $t$. La distribuzione $t$ visivamente appare simile alla Gaussiana, ma è leggermente più piatta e ha code più grandi. Nel limite in cui $\nu \to \infty$ diventa una Gaussiana con media nulla e varianza $1$.
Nel limite in cui $N_1, N_2 \to \infty$, cioè in cui le osservazioni sono composte ognuna da un gran numero di osservazioni, abbiamo $\nu \to \infty$ e quindi la distribuzione di Student è approssimata dalla distribuzione normale con media nulla e varianza $1$. Perciò in questo caso possiamo utilizzare semplicemente i soliti risultati secondo cui, ad esempio il $68\%$ dei valori si trovano entro una deviazione standard, e via dicendo. In questo caso appunto “un sigma” di discrepanza corrisponderebbe quindi a circa il $32\%$ che i due risultati siano così ottenuti semplicemente per caso. Nel caso della costante di Hubble, avevamo $4,1$ sigma e quindi possiamo calcolare che la corrispondente probabilità che il risultato sia una fluttuazione è dello $0,004\%$, molto piccolo. La convenzione in fisica delle alte energie è che una discrepanza si consideri una scoperta solo se raggiunge i “$5$ sigma”, che corrisponde ad una probabilità che il risultato sia dovuto puramente a fluttuazioni casuali pari a circa $0,00006\%$