Una delle regole base dell’analisi dei dati è fare un grafico. Sebbene possa sembrare banale, questa semplice regola può spesso evitare errori grossolani. Il quartetto di Anscombe è formato dai quattro insiemi di dati nella figura sotto, presa da Wikipedia:
I quattro insiemi di dati, sebbene sembrino molto diversi l’uno dall’altro dai grafici, hanno in realtà molte caratteristiche in comune:
- in ognuno dei quattro grafici la media degli $x$ è la stessa, cioè $9$.
- in ognuno dei quattro grafici la media degli $y$ è approssimativamente la stessa, cioè $\approx 7,50$ a due cifre decimali di precisione.
- la varianza degli $x$ e degli $y$ è rispettivamente $11$ e circa $\approx 4,125$, per ognuno dei quattro grafici.
- il coefficiente di correlazione di $x$ e $y$ è approssimativamente $0,816$ in ognuno dei quattro casi.
- la retta di regressione lineare è approssimativamente la stessa in ognuno dei quattro casi, $y=3,00 + 0,500x$, con coefficiente $R^2\approx 0,67$ in ognuno dei quattro casi.
Gli insiemi di dati del grafico sono essi stessi dati sulla pagina di Wikipedia.
Senza disegnare il grafico dei dati, potremmo effettivamente supporre che i quattro insiemi di dati siano praticamente identici, mentre invece non lo sono.
- Nel primo caso i dati descrivono una relazione approssimativamente lineare con del rumore di fondo. In questo caso la retta di regressione descrive i dati in maniera ragionevole.
- Nel secondo caso i dati descrivono una relazione non-lineare
- Nel terzo caso un dato anomalo ha un’influenza spropositata sull’analisi dei dati. Rimuovendo l’anomalia i dati sono descritti perfettamente da una retta, ma con diversi coefficienti di regressione e un diverso $R^2$.
- Nel quarto caso c’è di nuovo un dato anomalo che rovina l’analisi dei dati, in questo caso però in maniera ancora più eccezionale: rimuovendolo, tutti gli altri dati hanno lo stesso valore di $x$.
Con l’eccezione del primo insieme di dati, effettuare l’analisi senza prima aver disegnato il grafico ci porterebbe a supporre un’erronea relazione lineare tra i dati. Nel secondo caso una regressione lineare è inappropriata, e va sostituita con una relazione non lineare. Nel terzo e nel quarto caso è prima necessario rimuovere i dati anomali e poi procedere con l’analisi. Nel quarto caso, in particolare, poiché tutte le osservazioni hanno lo stesso valore di $x$ potrebbe anche essere necessario raccogliere più dati.