Formula esplicita per l’adattamento χ2 ad una linea retta

Supponiamo di avere una serie di osservazioni (xi,yi±σi) e di voler trovare la “migliore” retta y=ax+b che spieghi queste osservazioni. Questo problema è noto come adattamento (in inglese fit). Chiaramente non tutti i dati sono spiegabili da una retta, ma molto spesso ci si può ridurre a questo caso anche se i dati non sono lineari, perciò questo caso è particolarmente importante. Ad esempio se abbiamo una relazione esponenziale y=aebx prendendo il logaritmo da entrambi i lati abbiamo logy=loga+bx e quindi le osservazioni (xi,logyi) seguono una linea retta.

Per ottenere una risposta univoca bisogna decidere cosa intendiamo per retta “migliore”. Per motivi statistici che non andiamo ad indagare in questo caso per “miglior retta” intendiamo quella che minimizza la quantità χ2 definita come

χ2Ni=1(f(xi)yi)2σ2i

dove f(x)=ax+b, in questo caso una retta, è la funzione che riteniamo possa ben rappresentare i dati. Innanzitutto notiamo che χ2 è adimensionale; inoltre se f approssima i dati molto bene il numeratore sarà piccolo e quindi χ2 sarà piccolo, perciò vogliamo minimizzarla. La varianza nel denominatore ci dà una misura di controllo per sapere se f(xi)yi è da considerarsi grande o piccolo: in particolare i punti poco precisi (che hanno un errore σi grande) conteranno poco nella somma, mentre quelli più precisi conteranno di più.

Nel caso della retta siamo in grado di effettuare la minimizzazione in maniera analitica. Consideriamo χ2 come una funzione di a e b e la minimizziamo calcolandone le derivate. Abbiamo

χ2a=Ni=12xi(axi+byi)σ2i=0χ2b=Ni=12(axi+byi)σ2i=0

Esplicitando a e b le due equazioni sono

aNi=1x2iσ2i+bNi=1xiσ2iNi=1xiyiσ2i=0aNi=1xiσ2i+bNi=11σ2iNi=1yiσ2i=0

I risultati sono ottenuti nella maniera più concisa definendo l’operazione

K[U]Ni=1Uiσ2i

per una quantità generica U. Con questa notazione, χ2=K[(yaxb)2]. Perciò troviamo

a=K[xy]K[1]K[x]K[y]K[x2]K[1]K[x]2b=K[x2]K[y]K[xy]K[x]K[x2]K[1]K[x]2

Una volta ottenute queste formule possiamo anche calcolare l’errore su a e b. Infatti vicino al minimo di una funzione di due variabili z=(a,b) avremo

χ2(z)χ2(z)+122i,j=1(zizi)2χ2zizj(a,b)(zjzj)

dove H è l’Hessiana di χ2 (cioè la matrice delle derivate parziali) e (a,b) sono i valori ottimali che abbiamo trovato sopra. La matrice di covarianza di a e b sarà perciò Σ tale che

(Σ1)ij=122χ2zizj(a,b)

Il calcolo è lungo e noioso ma elementare e troviamo che

Σ=(σ2(a)Cov(a,b)Cov(a,b)σ2(b))

con le seguenti varianze/covarianze:

σ2(a)=K[1]K[x2]K[1]K[x]2σ2(b)=K[x2]K[x2]K[1]K[x]2Cov(a,b)=K[x]K[x2]K[1]K[x]2

È curioso notare che nel caso in cui la retta y=ax+b degenera ad una costante, ovvero se poniamo a=0 e cerchiamo la “migliore costante”, un semplice calcolo mostra che il valore di b meglio adattato è

b=Ni=1yi/σ2iNi=11/σ2i

che esattamente la media ponderata degli y che minimizza l’errore sulla media, come abbiamo visto in un precedente articolo.

Pubblicato in statistica | Lascia un commento