Data una serie di dati $\{(x_i, y_i)\}$, il metodo dei minimi quadrati è comunemente usato per trovare la migliore funzione $y=f(x)$ che approssimi i dati. Tipicamente di $f$ è nota la forma, ad esempio $f(x) = ax+b$ e a questo punto il metodo dei minimi quadrati permette di calcolare il miglior valore dei coefficienti $a,b$. L’idea è quella di scegliere gli $a,b$ tali che l’errore quadrato totale
$$S = \sum_{i} \pqty{y_i -f(x_i)}^2$$
sia il più piccolo possibile.
Il motivo per cui si usa il quadrato, invece che ad esempio il valore assoluto, è per facilità di calcolo: possiamo derivare $S$ rispetto ad $a$ e $b$ e quindi minimizzarla, trovando i valori ottimali di $a$ e $b$ analiticamente. Al contrario, il valore assoluto non è derivabile e quindi il calcolo esplicito dei valori ottimali è più difficile.
E se avessimo degli errori?
Il metodo sopra va benissimo nel caso in cui i dati $\{(x_i, y_i)\}$ siano esatti. Tuttavia, nella maggior parte delle situazioni pratiche, i valori $x_i$ e $y_i$ non sono esatti, ma hanno un errore. Considereremo solo il caso comune in cui $x_i$ è noto esattamente, ma abbiamo un errore su $y_i$. Ciò vuol dire, alla stessa maniera, che l’errore sulle $x$ è molto più piccolo dell’errore sulle $y$, un caso che si verifica spesso.
L’idea di base è la seguente: se sappiamo che un certo punto $y_i$ ha errore piccolo, vogliamo essere sicuri di centrarlo bene. Se invece un certo dato $y_i$ ha un errore molto grande, dovrà avere meno importanza nella somma $S$: l’intervallo di confidenza attorno al valore è ampio, e quindi possiamo ottenere una stima migliore centrando gli altri $y_j$ con errore piccolo e “sbagliando” un po’ $y_i$.
Per includere questo effetto, modifichiamo $S$ includendo gli errori:
$$S = \sum_{i} \frac{\pqty{y_i -f(x_i)}^2}{\sigma_i^2}$$
dove $\sigma_i^2$ è la varianza associata al valore $y_i$. Questa formula è dimensionalmente corretta, e in questa maniera minimizzando $S$ i termini con errore grande sono soppressi, e quindi contano di meno.
E le correlazioni?
Un altro problema che può nascere è che i valori $y_i$ potrebbero non essere tutti indipendenti. L’esempio tipico è quello in cui gli $y_i$ sono un certo numero di osservabili ottenuti da una simulazione Monte Carlo. Essendo questi calcolati a partire dalle stesse configurazioni, è possibile che abbiano delle correlazioni tra di loro. Ad esempio potrebbe essere che se $y_i$ ha un certo valore, allora $y_{i+1}$ ha un valore molto vicino a $y_i$. In altre parole, potremmo essere in grado in qualche modo di predire in modo più o meno accurato il valore di uno degli $y$ a partire dal valore di un altro.
In questo caso, ad esempio, non vorremmo dare eguale importanza a entrambi i valori $y_i$ e $y_{i+1}$, perché uno solo dei due è veramente indipendente. Per risolvere questo problema, dobbiamo introdurre la cosiddetta matrice di covarianza $\Sigma$. Questa matrice dovrà essere calcolata dai dati grezzi che ci portano agli $y_i$ e il suo elemento $\Sigma_{ij}$ conterrà la covarianza di $y_i$ e $y_j$.
Come calcolare la matrice di covarianza? Dobbiamo tornare in dietro e pensare a come abbiamo trovato i valori $y_i$. Tipicamente, per ogni punto $x_i$ calcoleremo $N$ valori (sperimentalmente o al computer) $y_{i, r}$ dove $r=1, \ldots, N$. Chiameremo poi $y_i$ la media tra queste $N$ osservazioni: $$y_i = \frac{1}{N} \sum_{r=1}^N y_{i,r}$$A questo punto la correlazione tra $y_i$ e $y_j$ sarà data dalla matrice di covarianza,
$$\Sigma_{ij} = \frac{1}{N(N-1)} \sum_{r=1}^{N} (y_{i,r}-y_i) (y_{j,r} -y_j) $$
il fattore di $N(N-1)$ è necessario in questo caso per lo stesso motivo per cui lo mettiamo nell’errore standard. Notiamo che gli elementi diagonali $\Sigma_{ii}$ sono le varianze $\sigma_i^2$.
A questo punto l’errore totale da minimizzare diventa
$$S = \sum_{i, j} (y_i-f(x_i)) (\Sigma^{-1})_{ij} (y_j-f(x_j))$$
Per convincerci che sia davvero l’inversa della matrice di covarianza a dover apparire nell’errore, notiamo che in caso in cui tutti gli $y_i$ siano scorrelati, allora solo la diagonale della matrice di covarianza sarà non-nulla, e conterrà la varianza dei vari termini. A questo punto, grazie all’inversa, ci riduciamo al caso precedente.