Medidas de dependência
Uma medida de dependência é um parâmetro associado a um par de variáveis aleatórias que codifica em seu valor a intensidade da dependência estatística entre as variáveis. Similarmente uma medida de concordância é um parâmetro que, além de dar informação a respeito da dependência estatística, também é capaz de informar a respeito da correlação entre a direção de movimento dessas variáveis.
Critérios de Renyi
[editar | editar código-fonte]De maneira informal e grosseira, uma medida de dependência diz quanta informação se obtém a respeito de uma variável quando o valor de outra variável é conhecido. Exemplos de candidatos à medida de dependência são a covariância e a correlação (a rigor a correlação seria candidata a medida de concordância e seu módulo a medida de dependência). Ambas carregam alguma informação a respeito de quanto o conhecimento de uma variável informa sobre sobre o valor da outra. Entretanto há algumas ressalvas a esse respeito:
- é possível obter variáveis que não são estatísticamente independentes e no entanto possuem correlação nula.
- a correlação é invariante por mudanças lineares de parâmetros, mas não é invariante por mudanças monotônicas de variáveis gerais, ou seja, em geral . Isso significa que uma mera mudança de escala pode mudar sua conclusão a respeito da intensidade da dependência, o que é algo indesejável.
- além disso em geral não é possível demonstrar que uma correlação máxima () implica uma dependência monotônica entre as variáveis e .
Renyi estipulou um conjunto de exigências ou requisitos do que é razoável supor sobre boas medidas de dependência.[1][2] Segundo essa lista de exigências, uma medidas de dependência é um funcional da distribuição conjunta de qualquer par de variáveis X e Y com as seguintes propriedades:
- O funcional é simétrico na permutação de X e Y: ;
- , com se e somente se X e Y são estatisticamente independentes e se e somente se Y é, quase certamente, uma função estritamente monotônica de X;
- se f(.) e g(.) são duas funções estritamente monotônicas de seus argumentos, então ;
- no caso em que a distribuição conjunta de X e Y é uma distribuição normal, deve ser uma função monotônica do módulo da correlação;
- se a sequencia converge para então converge para .
Pode-se adaptar esses requisitos para medidas de concordância ajustando-se apenas os (2 - 4) da seguinte forma:
- 2. , com se e somente se X e Y são estatisticamente independentes, se e somente se Y é quase certamente uma função monotônica crescente de X e se e somente se Y é, quase certamente, uma função monotônica decrescente de X.
- 3. Se f(.) e g(.) são funções monotônicas sendo ambas crescentes ou ambas decrescentes, então . Caso uma das funções seja decrescente e a outra crescente, então .
- 4. no caso em que a distribuição conjunta de X e Y é uma distribuição normal, deve ser uma função monotônica crescente da correlação;
Relação com teoria de Cópulas
[editar | editar código-fonte]Diversas medidas de concordância e dependência podem ser facilmente relacionadas às respectivas cópulas. De fato, pode-se argumentar que toda boa medida de concordância ou dependência deve ser unicamente um funcional da cópula e ser independente das distribuições marginais.[3]
Exemplos de medidas de dependência
[editar | editar código-fonte]Tau de Kendall
[editar | editar código-fonte]O tau de Kendall é definido como:
onde é o número de pares concordantes, e é o número de pares discordantes do conjunto de dados. Alternativamente, é a probabilidade de que dois pontos sorteados da distribuição conjunta sejam concordantes, ou seja:
O Tau de Kendall pode ser escrito como um funcional da cópula:
Rho de Spearman
[editar | editar código-fonte]O coeficiente de correlação rho de Spearman é definido como a correlação entre os postos de X e Y. Pode ser escrito como função da cópula da seguinte forma:
Informação Mútua
[editar | editar código-fonte]A informação mútua é definida da seguinte forma:
- ,
onde S(.) é a entropia de Shannon. A informação mútua possui muitas interpretações do ponto de vista de teoria da informação, e pode ser compreendida como a diminuição na incerteza de uma das variáveis proporcionada pelo conhecimento da outra. A informação mútua pode ser estimada a partir de amostras de X e Y através do algoritmo de k-vizinhos de Kraskov-Stogbauer- Grassberger.[4]
Dependência nas caudas
[editar | editar código-fonte]Duas variáveis chamadas dependência na cauda superior e dependência na cauda inferior (upper and lower tail dependence) são usadas para caracterizar o aumento de dependência entre duas variáveis quando ocorrem eventos extremos. A dependência na cauda superior é definida como:
- ,
ou seja, a probabilidade de que se observe um valor de X maior no u-ésimo quantil dado que Y foi observado no u-ésimo quantil, no limite em que u se aproxima de 1. A dependência na cauda inferior é definida de forma similar.
Em função da cópula, as dependências na cauda são escritas como:
Veja também
[editar | editar código-fonte]Referências
- ↑ Renyi, A. (1959). «On measures of dependence.». Acta. Math. Acad. Sci. Hungar. (em inglês). 10. pp. 441–451
- ↑ Schweizer, B.; Wolff, E. F. (1981). «On nonparametric measures of dependence for random variables.». The Annals of Statistics (em inglês). 9 (4). pp. 879–885
- ↑ Dimitris Nicoloutsopoulos (2005). Parametric and Bayesian non-parametric estimation of copulas. [S.l.]: Tese de Ph.D. apresentada à universidade de Londres
- ↑ Kraskov, A.; Stogbauer, H. and Grassberger, P. (2004). «Estimating mutual information.». Phys. Rev. E (em inglês). 69. 066138 páginas