Medidas de dependência

Uma medida de dependência é um parâmetro associado a um par de variáveis aleatórias que codifica em seu valor a intensidade da dependência estatística entre as variáveis. Similarmente uma medida de concordância é um parâmetro que, além de dar informação a respeito da dependência estatística, também é capaz de informar a respeito da correlação entre a direção de movimento dessas variáveis.

Critérios de Renyi

De maneira informal e grosseira, uma medida de dependência diz quanta informação se obtém a respeito de uma variável quando o valor de outra variável é conhecido. Exemplos de candidatos à medida de dependência são a covariância e a correlação (a rigor a correlação seria candidata a medida de concordância e seu módulo a medida de dependência). Ambas carregam alguma informação a respeito de quanto o conhecimento de uma variável informa sobre sobre o valor da outra. Entretanto há algumas ressalvas a esse respeito:

é possível obter variáveis que não são estatísticamente independentes e no entanto possuem correlação nula.
a correlação é invariante por mudanças lineares de parâmetros, mas não é invariante por mudanças monotônicas de variáveis gerais, ou seja, em geral $\rho (X,Y)\neq \rho (f(X),g(Y))$ . Isso significa que uma mera mudança de escala pode mudar sua conclusão a respeito da intensidade da dependência, o que é algo indesejável.
além disso em geral não é possível demonstrar que uma correlação máxima ( $|\rho (X,Y)|=1$ ) implica uma dependência monotônica entre as variáveis $X$ e $Y$ .

Renyi estipulou um conjunto de exigências ou requisitos do que é razoável supor sobre boas medidas de dependência.^[1]^[2] Segundo essa lista de exigências, uma medidas de dependência $\delta (X,Y)$ é um funcional da distribuição conjunta de qualquer par de variáveis X e Y com as seguintes propriedades:

O funcional é simétrico na permutação de X e Y: $\delta \left(X,Y\right)=\delta (Y,X)$ ;
$0\leq \delta \left(X,Y\right)\leq 1$ , com $\delta \left(X,Y\right)=0$ se e somente se X e Y são estatisticamente independentes e $\delta \left(X,Y\right)=1$ se e somente se Y é, quase certamente, uma função estritamente monotônica de X;
se f(.) e g(.) são duas funções estritamente monotônicas de seus argumentos, então $\delta \left(X,Y\right)=\delta (f(X),g(Y))$ ;
no caso em que a distribuição conjunta de X e Y é uma distribuição normal, $\delta (X,Y)$ deve ser uma função monotônica do módulo da correlação;
se a sequencia $(X_{n},Y_{n})$ converge para $(X,Y)$ então $\delta (X_{n},Y_{n})$ converge para $\delta (X,Y)$ .

Pode-se adaptar esses requisitos para medidas de concordância ajustando-se apenas os (2 - 4) da seguinte forma:

2.

-1\leq \delta \left(X,Y\right)\leq 1

, com

\delta \left(X,Y\right)=0

se e somente se X e Y são estatisticamente independentes,

\delta \left(X,Y\right)=1

se e somente se Y é quase certamente uma função monotônica crescente de X e

\delta \left(X,Y\right)=-1

se e somente se Y é, quase certamente, uma função monotônica decrescente de X.

3. Se f(.) e g(.) são funções monotônicas sendo ambas crescentes ou ambas decrescentes, então

\delta \left(X,Y\right)=\delta (f(X),g(Y))

. Caso uma das funções seja decrescente e a outra crescente, então

\delta \left(X,Y\right)=-\delta (f(X),g(Y))

.

4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal,

\delta (X,Y)

deve ser uma função monotônica crescente da correlação;

Relação com teoria de Cópulas

Diversas medidas de concordância e dependência podem ser facilmente relacionadas às respectivas cópulas. De fato, pode-se argumentar que toda boa medida de concordância ou dependência deve ser unicamente um funcional da cópula e ser independente das distribuições marginais.^[3]

Exemplos de medidas de dependência

Tau de Kendall

O tau de Kendall é definido como:

\tau ={\frac {n_{c}-n_{d}}{{\frac {1}{2}}{n(n-1)}}}

onde $n_{c}$ é o número de pares concordantes, e $n_{d}$ é o número de pares discordantes do conjunto de dados. Alternativamente, $\tau$ é a probabilidade de que dois pontos sorteados da distribuição conjunta sejam concordantes, ou seja:

\tau =\operatorname {Prob} \left[(X-X')(Y-Y')>0\right]

O Tau de Kendall pode ser escrito como um funcional da cópula:

\tau =4\int C(u,v)dC(u,v)

Rho de Spearman

O coeficiente de correlação rho de Spearman é definido como a correlação entre os postos de X e Y. Pode ser escrito como função da cópula da seguinte forma:

\rho =12\int uvdC(u,v)-3

Informação Mútua

A informação mútua é definida da seguinte forma:

I=\int dxdyP(x,y)\log {\frac {P(x,y)}{P(x)P(y)}}=S(X)+S(Y)-S(X,Y)=S(X)-S(X|Y)

,

onde S(.) é a entropia de Shannon. A informação mútua possui muitas interpretações do ponto de vista de teoria da informação, e pode ser compreendida como a diminuição na incerteza de uma das variáveis proporcionada pelo conhecimento da outra. A informação mútua pode ser estimada a partir de amostras de X e Y através do algoritmo de k-vizinhos de Kraskov-Stogbauer- Grassberger.^[4]

Dependência nas caudas

Duas variáveis chamadas dependência na cauda superior e dependência na cauda inferior (upper and lower tail dependence) são usadas para caracterizar o aumento de dependência entre duas variáveis quando ocorrem eventos extremos. A dependência na cauda superior é definida como:

\lambda _{\mathrm {sup} }=\lim _{u\rightarrow 1}\operatorname {Prob} \left[X>F_{X}^{-1}(u)|Y>F_{Y}^{-1}(u)\right]

,

ou seja, a probabilidade de que se observe um valor de X maior no u-ésimo quantil dado que Y foi observado no u-ésimo quantil, no limite em que u se aproxima de 1. A dependência na cauda inferior é definida de forma similar.

Em função da cópula, as dependências na cauda são escritas como:

\lambda _{\mathrm {sup} }=\lim _{u\rightarrow 1}{\frac {1-2u+C(u,u)}{1-u}}

\lambda _{\mathrm {inf} }=\lim _{u\rightarrow 0}{\frac {C(u,u)}{u}}

Veja também

Referências

↑ Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451
↑ Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885
↑ Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Tese de Ph.D. apresentada à universidade de Londres
↑ Kraskov, A.; Stogbauer, H. and Grassberger, P. (2004). «Estimating mutual information.». Phys. Rev. E (em inglês). 69. 066138 páginas

Este artigo é um esboço. Você pode ajudar a Wikipédia expandindo-o.

Editor: considere marcar com um esboço mais específico.

Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451

[2] Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885

[Dimitri-3] Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Tese de Ph.D. apresentada à universidade de Londres

[4] Kraskov, A.; Stogbauer, H. and Grassberger, P. (2004). «Estimating mutual information.». Phys. Rev. E (em inglês). 69. 066138 páginas

[1]

[2]

[3]

[4]