Il quartetto di Anscombe e alcuni errori in statistica

Una delle regole base dell’analisi dei dati è fare un grafico. Sebbene possa sembrare banale, questa semplice regola può spesso evitare errori grossolani. Il quartetto di Anscombe è formato dai quattro insiemi di dati nella figura sotto, presa da Wikipedia:

I quattro insiemi di dati, sebbene sembrino molto diversi l’uno dall’altro dai grafici, hanno in realtà molte caratteristiche in comune:

  • in ognuno dei quattro grafici la media degli $x$ è la stessa, cioè $9$.
  • in ognuno dei quattro grafici la media degli $y$ è approssimativamente la stessa, cioè $\approx 7,50$ a due cifre decimali di precisione.
  • la varianza degli $x$ e degli $y$ è rispettivamente $11$ e circa $\approx 4,125$, per ognuno dei quattro grafici.
  • il coefficiente di correlazione di $x$ e $y$ è approssimativamente $0,816$ in ognuno dei quattro casi.
  • la retta di regressione lineare è approssimativamente la stessa in ognuno dei quattro casi, $y=3,00 + 0,500x$, con coefficiente $R^2\approx 0,67$ in ognuno dei quattro casi.

Gli insiemi di dati del grafico sono essi stessi dati sulla pagina di Wikipedia.

Senza disegnare il grafico dei dati, potremmo effettivamente supporre che i quattro insiemi di dati siano praticamente identici, mentre invece non lo sono.

  1. Nel primo caso i dati descrivono una relazione approssimativamente lineare con del rumore di fondo. In questo caso la retta di regressione descrive i dati in maniera ragionevole.
  2. Nel secondo caso i dati descrivono una relazione non-lineare
  3. Nel terzo caso un dato anomalo ha un’influenza spropositata sull’analisi dei dati. Rimuovendo l’anomalia i dati sono descritti perfettamente da una retta, ma con diversi coefficienti di regressione e un diverso $R^2$.
  4. Nel quarto caso c’è di nuovo un dato anomalo che rovina l’analisi dei dati, in questo caso però in maniera ancora più eccezionale: rimuovendolo, tutti gli altri dati hanno lo stesso valore di $x$.

Con l’eccezione del primo insieme di dati, effettuare l’analisi senza prima aver disegnato il grafico ci porterebbe a supporre un’erronea relazione lineare tra i dati. Nel secondo caso una regressione lineare è inappropriata, e va sostituita con una relazione non lineare. Nel terzo e nel quarto caso è prima necessario rimuovere i dati anomali e poi procedere con l’analisi. Nel quarto caso, in particolare, poiché tutte le osservazioni hanno lo stesso valore di $x$ potrebbe anche essere necessario raccogliere più dati.

Questa voce è stata pubblicata in statistica. Contrassegna il permalink.

Commenta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.