Supponiamo di avere una serie di osservazioni (xi,yi±σi) e di voler trovare la “migliore” retta y=ax+b che spieghi queste osservazioni. Questo problema è noto come adattamento (in inglese fit). Chiaramente non tutti i dati sono spiegabili da una retta, ma molto spesso ci si può ridurre a questo caso anche se i dati non sono lineari, perciò questo caso è particolarmente importante. Ad esempio se abbiamo una relazione esponenziale y=aebx prendendo il logaritmo da entrambi i lati abbiamo logy=loga+bx e quindi le osservazioni (xi,logyi) seguono una linea retta.
Per ottenere una risposta univoca bisogna decidere cosa intendiamo per retta “migliore”. Per motivi statistici che non andiamo ad indagare in questo caso per “miglior retta” intendiamo quella che minimizza la quantità χ2 definita come
χ2≡N∑i=1(f(xi)−yi)2σ2i
dove f(x)=ax+b, in questo caso una retta, è la funzione che riteniamo possa ben rappresentare i dati. Innanzitutto notiamo che χ2 è adimensionale; inoltre se f approssima i dati molto bene il numeratore sarà piccolo e quindi χ2 sarà piccolo, perciò vogliamo minimizzarla. La varianza nel denominatore ci dà una misura di controllo per sapere se f(xi)−yi è da considerarsi grande o piccolo: in particolare i punti poco precisi (che hanno un errore σi grande) conteranno poco nella somma, mentre quelli più precisi conteranno di più.
Nel caso della retta siamo in grado di effettuare la minimizzazione in maniera analitica. Consideriamo χ2 come una funzione di a e b e la minimizziamo calcolandone le derivate. Abbiamo
∂χ2∂a=N∑i=12xi(axi+b−yi)σ2i=0∂χ2∂b=N∑i=12(axi+b−yi)σ2i=0
Esplicitando a e b le due equazioni sono
aN∑i=1x2iσ2i+bN∑i=1xiσ2i−N∑i=1xiyiσ2i=0aN∑i=1xiσ2i+bN∑i=11σ2i−N∑i=1yiσ2i=0
I risultati sono ottenuti nella maniera più concisa definendo l’operazione
K[U]≡N∑i=1Uiσ2i
per una quantità generica U. Con questa notazione, χ2=K[(y−ax−b)2]. Perciò troviamo
a=K[xy]K[1]−K[x]K[y]K[x2]K[1]−K[x]2b=K[x2]K[y]−K[xy]K[x]K[x2]K[1]−K[x]2
Una volta ottenute queste formule possiamo anche calcolare l’errore su a e b. Infatti vicino al minimo di una funzione di due variabili z=(a,b) avremo
χ2(z)≈χ2(z∗)+122∑i,j=1(zi−z∗i)∂2χ2∂zi∂zj(a∗,b∗)(zj−z∗j)
dove H è l’Hessiana di χ2 (cioè la matrice delle derivate parziali) e (a∗,b∗) sono i valori ottimali che abbiamo trovato sopra. La matrice di covarianza di a e b sarà perciò Σ tale che
(Σ−1)ij=12∂2χ2∂zi∂zj(a∗,b∗)
Il calcolo è lungo e noioso ma elementare e troviamo che
Σ=(σ2(a)Cov(a,b)Cov(a,b)σ2(b))
con le seguenti varianze/covarianze:
σ2(a)=K[1]K[x2]K[1]−K[x]2σ2(b)=K[x2]K[x2]K[1]−K[x]2Cov(a,b)=−K[x]K[x2]K[1]−K[x]2
È curioso notare che nel caso in cui la retta y=ax+b degenera ad una costante, ovvero se poniamo a=0 e cerchiamo la “migliore costante”, un semplice calcolo mostra che il valore di b meglio adattato è
b=∑Ni=1yi/σ2i∑Ni=11/σ2i
che esattamente la media ponderata degli y che minimizza l’errore sulla media, come abbiamo visto in un precedente articolo.