Correlazione e dipendenza in statistica

Come abbiamo già visto in un precedente articolo, in statistica si fa spesso uso di due nozioni separate, la dipendenza e la correlazione, che sembrano però esprimere due concetti in qualche modo collegati. In questo articolo vediamo la relazione tra le due.

Innanzitutto diamo le definizioni. Date due variabili casuali $X$ e $Y$, diciamo che $X$ e $Y$ sono:

  • indipendenti, se $P(X=x | Y=y) = P(X=x)$. Ovvero se la probabilità che $X$ assuma un certo valore è del tutto indipendente da quale valore abbia assunto $Y$. Per il teorema di Bayes, come abbiamo visto nel precedente articolo, questa condizione è anche equivalente a $P(Y=y \cap X=x) = P(Y=y)P(X=x)$ e quindi $P(Y=y | X=x) = P(Y=y)$, cioè l’indipendenza è una proprietà simmetrica come ci aspetteremmo.
  • scorrelati, se il loro coefficiente di correlazione è nullo. Il coefficiente di correlazione è definito come $\rho_{XY} = \frac{\sigma_{XY}^2}{\sigma_X \sigma_Y}$ dove $\sigma_{XY}^2=\expval{(X-\expval{X})(Y-\expval{Y})}$ è la covarianza di $X$ e $Y$ e $\sigma_X$ è la deviazione standard di $X$. Per costruzione $-1 \leq \rho_{XY} \leq 1$.

Più in generale diciamo che due eventi $A$ e $B$ sono indipendenti se $P(A | B)=P(A)$ e quindi in maniera equivalente $P(A \cap B) = P(A) P(B)$. Tuttavia per definire la correlazione è necessario utilizzare variabili casuali.

Ora dimostriamo che due variabili indipendenti sono anche scorrelate. A tal fine supponiamo che $X$ e $Y$ siano indipendenti e calcoliamo la covarianza

\begin{align*}
\sigma_{XY}^2 &=\expval{(X-\expval{X})(Y-\expval{Y})}=\expval{XY} -\expval{X}\expval{Y}\\
&= \int dx\, dy\, P(Y=y \cap X=x) x y -\expval{X}\expval{Y}=\\
&=\int dx\, dy\, P(Y=y) P(X=x) x y -\expval{X}\expval{Y}=\\
&=\pqty{\int dx\,P(X=x) x}\pqty{\int dy\, P(Y=y)  y} -\expval{X}\expval{Y}=\\
&=\expval{X}\expval{Y} -\expval{X}\expval{Y}=0
\end{align*}

Tuttavia il contrario non è vero. Possiamo infatti costruire esempi di variabili scorrelate ma dipendenti. Ad esempio consideriamo $X$ uniformemente distribuita nell’intervallo $(-1,1)$ e $Y=X^2$. Queste due variabili sono chiaramente dipendenti, perché conoscendo il valore di $X$ sappiamo immediatamente il valore di $Y$, e inoltre conoscendo il valore di $Y$ abbiamo solo due possibilità per il valore di $X$. La covarianza è data da

$$\sigma_{XY}^2 = \expval{X^3} -\expval{X}\expval{X^2} = 0$$

perché $ \expval{X^3}=\expval{X}=0$ dato che stiamo integrando una funzione dispari in un intervallo simmetrico. Perciò le variabili sono scorrelate, ma ciononostante dipendenti. Pertanto l’indipendenza è una condizione ben più forte della scorrelazione.

Allora che cosa misura la correlazione? La risposta è che la correlazione misura l’esistenza di una relazione approssimativamente lineare tra le due variabili. Nell’esempio appena fatto abbiamo la parabola $Y=X^2$ su $X \in (-1,1)$, per cui le due variabili non hanno una relazione lineare; se invece avessimo scelto $Y=X^2$ ma con $X \in (0,1)$, cioè solo il ramo destro della parabola, avremmo avuto un coefficiente di correlazione $\rho_{XY}=\sqrt{15}/4$ a indicare una relazione approssimativamente lineare tra le due variabili, che in effetti è abbastanza presente. Il coefficiente è positivo, il che indica che all’aumentare di $X$ aumenta anche $Y$. Se avessimo scelto al contrario l’intervallo $(-1,0)$ avremmo avuto un coefficiente negativo, a indicare la presenza di una relazione approssimativamente lineare con $Y$ che decresce all’aumentare di $X$.

Queste caratteristiche sono ben mostrate da questo grafico preso da Wikipedia,

Miao

Vari insiemi di dati con il loro coefficiente di correlazione. Presa da Wikipedia

Il grafico mostra diversi insiemi di dati $(x,y)$ con il loro coefficiente di correlazione $\rho_{XY}$. La riga centrale mostra il fatto che se le due variabili hanno una relazione lineare esatta, cioè $Y=aX+b$, allora il coefficiente è $\pm 1$ uguale al segno di $a$, il che può essere facilmente dimostrato dalla formula per $\rho_{XY}$. La prima riga mostra che il coefficiente di correlazione può essere più o meno vicino ad $1$ quanto più i dati si avvicinano ad una linea retta.

L’ultima riga invece mostra dei dati che pur essendo palesemente dipendenti, avendo cioè una forma specifica, hanno un coefficiente di correlazione nullo. Ciò perché non c’è nessuna relazione lineare tra le due variabili.

 

Questa voce è stata pubblicata in statistica. Contrassegna il permalink.

Commenta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.