Varianza di una distribuzione ed errore nella media

Abbiamo visto in uno scorso articolo che date due variabili casuali $X_1$ e $X_2$, ognuna delle quali rappresenta una misurazione, con varianza $\sigma_1^2$ e $\sigma_2^2$, se $X_1$ e $X_2$ sono indipendenti, allor la loro somma $X = X_1 + X_2$ ha varianza $\sigma^2 = \sigma_1^2 + \sigma_2^2$. Questo spiega perché gli errori si aggiungono “in quadratura”.

Ora consideriamo l’esempio pratico in cui effettuiamo $N$ misurazioni identiche. Queste saranno rappresentate a livello statistico da $N$ variabili casuali indipendenti e identicamente distribuite $X_1, \ldots, X_N$. L’idea ad esempio è di misurare una certa posizione con un righello $N$ volte. Poiché le variabili sono identicamente distribuite, allora hanno tutte la stessa media $\expval{X}=\mu$ e la stessa varianza $\sigma^2$. A noi interessa conoscere la media e l’errore sulla media. Consideriamo quindi la variabile casuale

$$\overline{X} = \frac{1}{N}\pqty{X_1 + \cdots + X_N}$$

Dall’esempio precedente sappiamo che la varianza della somma è data dalla somma delle varianze, cioè

$$\mathrm{Var}(X_1+\cdots+X_N) = \mathrm{Var}(X_1) +\cdots+\mathrm{Var}(X_N) = N \sigma^2$$

Poiché in generale $\mathrm{Var}(X) = \expval{X-\expval{X}}$ allora $\mathrm{Var}(\lambda X) = \lambda^2 \mathrm{Var}(X)$. Segue che

$$\mathrm{Var}(\overline{X}) = \frac{1}{N^2} \mathrm{Var}(X_1+\cdots+X_N) = \frac{\sigma^2}{N}$$

Perciò l’errore su $\overline{X}$ è dato da

$$\sigma_{\overline{X}} = \frac{\sigma}{\sqrt{N}}$$

Intuitivamente, questa formula ci dice che gli errori per certi versi si compensano misura dopo misura. Se infatti misuriamo cento sbarre d’acciaio identiche allora l’errore sulla somma delle lunghezze delle cento sbarre sarà dato da

$$\sqrt{\mathrm{Var}(X_1+\cdots+X_N)} = \sqrt{N} \sigma$$

ovvero poiché $N=100$ l’errore sarà dato da $10\sigma$, dove $\sigma$ è l’errore sulla misurazione di una singola sbarra. Intuitivamente, come succederebbe se aggiungessimo gli errori linearmente, potremmo pensare che l’errore sia $100\sigma$: questa però è una grossa sovrastima dell’errore, perché in una certa maniera gli errori, dovuti a fluttuazioni casuali, si compensano un po’ l’uno con l’altro.

Stima della media e della varianza da un campione

In pratica per misurare la media da ognuna delle variabili $X_i$ estraiamo un valore $x_i$, e poi stimiamo la media ponendo

$$\mu \approx \overline{x} = \frac{1}{N} \sum_{i=1}^N x_i$$

Se conoscessimo la media esattamente potremmo poi calcolare la varianza tramite

$$\sigma^2 \approx \frac{1}{N} \sum_{i=1}^N (x_i-\mu)^2 = \pqty{\frac{1}{N} \sum_{i=1}^N x_i^2}-\mu^2$$

Tuttavia noi non conosciamo la media $\mu$ esattamente, ma solo la sua stima $\overline{x}$. Usare $\overline{x}$ invece di $\mu$ nella formula della varianza introduce un errore che va corretto. Infatti definendo

$$\sigma^2_{\mathrm{stima}} \equiv \frac{1}{N} \sum_{i=1}^N (x_i-\overline{x})^2 =\pqty{\frac{1}{N} \sum_{i=1}^N x_i^2}-\overline x^2$$

allora abbiamo

\begin{align*}
\expval{\sigma^2_{\mathrm{stima}}} &= \pqty{\frac{1}{N} \sum_{i=1}^N \expval{x_i^2}}-\expval{\overline x^2}=\\
&= \frac{1}{N} \sum_{i=1}^N \pqty{\expval{x_i}^2+\mathrm{Var}(x_i)}-\expval{\overline{x}}^2-\mathrm{Var}(\overline{x})=\\
&= \mu^2+\sigma^2-\mu^2-\frac{\sigma^2}{N}=\sigma^2\frac{N-1}{N}
\end{align*}

Dalla prima alla seconda riga abbiamo usato $\mathrm{Var}(Y) = \expval{Y^2} -\expval{Y}^2$ e poi dalla seconda alla terza poiché tutte le variabili casuali sono identicamente distribuite $\expval{x_i}=\mu$ e $\mathrm{Var}(x_i)=\sigma^2$. Inoltre anche $\expval{\overline{x}}=\mu$ per costruzione e come abbiamo visto prima $\mathrm{Var}(\overline{x}) = \sigma^2/N$. Per cui segue che $\sigma^2_{\mathrm{stima}}$ è scorretto di un fattore $\frac{N-1}{N}$.

Perciò se vogliamo stimare la varianza a partire da un campione, allora dobbiamo usare la stima corretta

$$\sigma^2_{\mathrm{stima\,corretta}} = \frac{1}{N-1} \sum_{i=1}^N (x_i-\overline{x})^2$$

Perché questa soddisfa $\sigma^2_{\mathrm{stima\,corretta}} = \frac{N}{N-1} \sigma^2_{\mathrm{stima}}$ e quindi $\expval{\sigma^2_{\mathrm{stima\,corretta}}}= \sigma^2$ come richiesto.

Va notato che nonostante $\sigma^2_{\mathrm{stima\,corretta}}$ sia una stima corretta per la varianza, la sua radice quadrata $\sqrt{\sigma^2_{\mathrm{stima\,corretta}}}$ non è una stima corretta per la deviazione standard $\sigma$. Perché ciò avvenga dovremmo avere $\expval{\sqrt{\sigma^2_{\mathrm{stima\,corretta}}}}=\sigma$, ma è chiaro che ciò non può essere vero, perché la radice quadrata è una funzione non lineare. Poiché tuttavia non c’è una maniera generale di stimare correttamente la radice quadrata, in pratica si usa lo stesso la radice della stima della varianza come stima della deviazione standard.

Questa voce è stata pubblicata in statistica. Contrassegna il permalink.

Commenta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.