Gráfico Q-Q

Em estatística, um gráfico Q-Q^[1] ("Q" significa quantil) é um gráfico de probabilidades, que é um método gráfico para comparar duas distribuições de probabilidade, traçando seus quantis uns contra os outros. Primeiro, o conjunto de intervalos para os quantis é escolhido. Um ponto $(x, y)$ no gráfico corresponde a um dos quantis da segunda distribuição (coordenada $y$ ) plotadas contra o mesmo mesmo quantil da primeira distribuição de (coordenada $x$ ). Portanto, a linha é uma curva paramétrica cujo parâmetro é o quantil de cada ponto.

Se as duas distribuições que estão sendo comparadas são semelhantes, os pontos no gráfico Q-Q vão repousar aproximadamente na linha $y = x$ . Se as distribuições são linearmente relacionadas, os pontos no gráfico Q-Q irão repousar aproximadamente em uma linha, mas não necessariamente na linha $y = x$ . Gráficos Q-Q também podem ser usados como meio gráfico de estimativa de parâmetros de dispersão e tendência central em uma família de distribuições.

Um gráfico Q-Q é usado para comparar as formas das distribuições, fornecendo uma exibição gráfica de como as propriedades, tais como medidas de tendência central, dispersão e assimetria são semelhantes ou diferentes nas duas distribuições. Gráficos Q-Q podem ser usados para comparar conjuntos de dados ou distribuições teóricas. O uso de gráficos Q-Q para comparação de duas amostras de dados pode ser visto como uma abordagem não-paramétrica para comparação de suas distribuições subjacentes. Um gráfico Q-Q geralmente é uma abordagem mais poderosa para fazer essa comparação do que a técnica comum de comparação de histogramas das duas amostras, mas requer mais habilidade para interpretar. Gráficos Q-Q são comumente usados para comparar um conjunto de dados com um modelo teórico.^[2] Isto pode fornecer uma avaliação de qualidade do ajuste (goodness of fit) que é gráfica, ao invés de reduzir a uma exibição numérica. Gráficos Q-Q também são usados para comparar duas distribuições teóricas entre si. Uma vez que gráficos Q-Q compararam distribuições, não há necessidade de observar os valores como pares, como em um gráfico de dispersão, nem há necessidade mesmo serem iguais o número de valores nos dois grupos a serem comparados.

O termo "gráfico de probabilidades" às vezes, refere-se especificamente a um gráfico Q-Q, e menos comumente o gráfico P-P. O coeficiente de correlação do gráfico de probabilidade é uma grandeza derivada da ideia de gráficos Q-Q, que mede a concordância de uma distribuição ajustada com os dados observados e que às vezes é usada como um meio de ajuste de uma distribuição de dados.

Posições de plotagem[editar | editar código-fonte]

A escolha dos quantis de uma distribuição teórica pode depender do contexto e do propósito. Uma escolha, dada uma amostra de tamanho $n$ , é $k / n$ para $k = 1, \dots, n$ , pois estes são os quantis que a distribuição amostral analisa. O último deles, $n / n$ , corresponde ao percentil 100 (o valor máximo da distribuição teórica, que às vezes é infinito). Outras opções são o uso de $(k - 0.5) / n$ , ou espaçar os pontos uniformemente na distribuição uniforme, usando $k /(n + 1)$ .^[3]

Muitas outras escolhas foram sugeridas, tanto formais quanto heurísticas, baseadas em teoria ou simulações. As subseções a seguir discutem algumas delas.

Heurística[editar | editar código-fonte]

Várias fórmulas diferentes foram usadas ou propostas como posições de plotagem. Tais fórmulas têm a forma $(k - a) / (n + 1 - 2 a)$ para algum valor de $a$ no intervalo de 0 a 1, que dá um intervalo entre $k / (n + 1)$ e $(k - 1) / (n - 1)$ ^[4] .^[5]

As expressões incluem:

$k / (n + 1)$
$(k - 0,3) / (n + 0,4)$ .^[6]
$(k - 0.3175) / (n + 0.365)$ .^[7]^{[nota 1]}
$(k - 0.326) / (n + 0.348)$ .^[8]
$(k - ⅓) / (n + ⅓)$ .^{[nota 2]}
$(k - 0.375) / (n + 0.25)$ .^{[nota 3]}
$(k - 0.4) / (n + 0.2)$ .^[9]
$(k - 0.44) / (n + 0.12)$ .^{[nota 4]}
$(k - 0.5) / n$ .^[11]
$(k - 0.567) / (n - 0.134)$ .^[12]
$(k - 1) / (n - 1)$ .^{[nota 5]}

Para tamanho de amostra com $n$ grande, há pouca diferença entre essas várias expressões.

Um exemplo: Comparando uma amostra com a distribuição normal[editar | editar código-fonte]

Existem diversas distribuições populacionais teóricas, cada uma com características próprias. Os gráficos Q-Q podem utilizar qualquer uma delas, ou duas delas. De maneira mais geral, o teste de Shapiro–Wilk usa os valores esperados das estatísticas de ordem da distribuição dada; o gráfico e a linha resultantes produzem a estimativa de mínimos quadrados generalizados para localização e dispersão (da intercepto e inclinação da linha ajustada).^[13]

O uso comum de gráficos Q–Q é comparar a distribuição de uma amostra com uma distribuição teórica, como a distribuição normal padrão $N (0,1)$ .^[14]

Para exemplificar a construção de uma gráfico Q-Q, a partir desse ponto são apresentadas as funções matemáticas relacionadas com a distribuição normal, que é uma das distribuições estatísticas mais utilizadas.

Sendo a função de densidade de probabilidade da distribuição normal (com média $\mu$ e desvio-padrão $\sigma$ ):

f.d.p. $={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}$

A função ${\mbox{erf}}(x)$ é a função erro, utilizada para se integrar a função da distribuição normal padrão, com $\mu =0$ e $\sigma =1$ :

${\mbox{erf}}(x)={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt$

Sendo ${\mbox{erfc}}(x)+{\mbox{erf}}(x)=1$ , portanto ${\mbox{erfc}}(x)$ é complementar à função erro ${\mbox{erf}}(x)$ .

${\mbox{erfc}}(x)={\frac {2}{\sqrt {\pi }}}\int _{x}^{\infty }e^{-t^{2}}\,dt$

Sendo A um conjunto de dados amostrais de tamanho $n$ , ordenado crescentemente, no qual estão contidos os valores a₁, a₂, ...,a_k, ..., a_n, que apresentam média ${\overline {a}}$ e desvio-padrão $s$ . Serão calculados quantis correspondentes q₁, q₂, ...,q_k, ..., q_n.

Seja $\Phi$ a função distribuição acumulada (f.d.a.) da distribuição normal padrão. Então a função distribuição acumulada para o $k$ -ésimo elemento é:

${\mbox{f.d.a}}=\Phi (a_{k})={\frac {1}{2}}\left[1+{\mbox{erf}}\left({\dfrac {a_{k}-{\overline {a}}}{s{\sqrt {2}}}}\right)\right]$

Outra forma de se calcular a f.d.a. é:

${\mbox{f.d.a.}}=\Phi (a_{k})={\frac {1}{2}}\,{\mbox{erfc}}\left({\dfrac {a_{k}-{\overline {a}}}{s{\sqrt {2}}}}\right)$

A inversa da função erro complementar é: ${\mbox{erfc}}^{-1}(z)$

que se relaciona com inversa da função erro^[15]: ${\mbox{erf}}^{-1}(z)={\mbox{erfc}}^{-1}(1-z)$

Escolhendo uma regra para um gráfico Q-Q bicaudal[editar | editar código-fonte]

As fórmulas das posições de plotagem (descritas numa seção acima) são definidas para o intervalo [0,1]. Mas para as posições de plotagem abrangerem o domínio [-1,1] é necessário multiplicar a fórmula por dois, e subtrair uma unidade. Ou seja, $[-1,1]\sim$ $2((k - a) / (n + 1 - 2 a)) -1$ . Essa fórmula garante que a mediana (percentil 50) recaia exatamente quando a f.d.a. for 1/2 e ${\mbox{erf}}^{-1}(0)=0$ .

Coordenada $x_{k}=z_{\mbox{esperado}}={\sqrt {2}}\,{\mbox{erf}}^{-1}\left({\frac {2(k-a)}{(n+1-2a)}}-1\right)$

A tunagem^[16] das posições de plotagem para a distribuição normal[editar | editar código-fonte]

Acima, foi fixado o ponto central da curva (percentil 50). O valor de $a$ altera a dispersão dos quantis, sem alterar a posição do ponto central. É necessário garantir que a dispersão dos quantis seja idêntica à dispersão dos percentis. Para isso ocorrer, precisamos definir o valor de $a$ , que é o mesmo para todos os percentis diferentes de percentil 50.

Segundo Wolfram,^[17] o percentil "p" é calculado na posição $k={\frac {p(n+1)}{100}}$ .

Assim, é escolhido arbitrariamente o terceiro quartil, ou percentil 75, cuja f.d.a. é 3/4, situação em que o escore-z^[18] $\approx 0{,}674489741$ e ${\mbox{erf}}^{-1}(1/2)\approx 0{,}47693627$ . Para se encontrar o valor de $a$ da regra bicaudal das posições de plotagem utilizamos:

${\frac {2(k-a)}{(n+1-2a)}}-1\;\;\;\;(1)$

e $k={\frac {75(n+1)}{100}}.\;\;\;\;(2)$

Substituindo (2) em (1):

${\frac {2\left({\frac {75(n+1)}{100}}-a\right)}{(n+1-2a)}}-1$

Assim, neste exemplo, atribui-se arbitrariamente a regra bicaudal das posições de plotagem ao percentil 75, fazendo:

${\frac {2\left({\frac {75(n+1)}{100}}-a\right)}{(n+1-2a)}}-1={\frac {1}{2}}$

Resolvendo a equação acima, encontra-se que $a$ =0, que corresponde:

Coordenada $x_{k}=z_{\mbox{esperado}}={\sqrt {2}}\,{\mbox{erf}}^{-1}\left({\frac {2{\mbox{k}}}{n+1}}-1\right)$ ^{[nota 6]}

Coordenada $y_{k}=z_{\mbox{obtido}}=q_{k}={\frac {a_{k}-{\overline {a}}}{s}}$

Interpretação[editar | editar código-fonte]

Os pontos plotados em um gráfico Q–Q são sempre crescentes quando vistos da esquerda para a direita. Se as duas distribuições comparadas forem idênticas, o gráfico Q–Q segue a linha de 45° $y = x$ . Se as duas distribuições concordarem depois de transformar linearmente os valores em uma das distribuições, então o gráfico Q–Q segue alguma linha, mas não necessariamente a linha $y = x$ . Se a inclinação geral do gráfico Q–Q for mais plana que a linha $y = x$ , a distribuição plotada no eixo horizontal é mais disperso do que a distribuição plotada no eixo vertical. Por outro lado, se a inclinação geral do gráfico Q–Q for mais íngreme do que a linha $y = x$ , a distribuição plotada no eixo vertical é mais dispersa do que a distribuição plotada no eixo horizontal. Os gráficos Q–Q são frequentemente arqueados, ou em forma de "S", indicando que uma das distribuições é mais assimétrica que a outra, ou que uma das distribuições tem caudas mais pesadas que a outra.

A intercepção e inclinação de uma regressão linear entre os quantis dá medidarelativas da localização e da dispersão das amostras. Se a mediana da distribuição plotada no eixo horizontal for 0, a interceptação de uma linha de regressão é uma medida de localização e a inclinação é uma medida de dispersão. A distância entre as medianas é outra medida de localização relativa refletida em um gráfico Q–Q. O "coeficiente de correlação do gráfico de probabilidade" (gráfico PPCC) é o coeficiente de correlação entre os quantis. Quanto mais próximo o coeficiente de correlação estiver de 1, mais próximas as distribuições estarão de serem versões deslocadas e escalonadas uma das outra.

Notas[editar | editar código-fonte]

↑ Observe que isso também usa uma expressão diferente para o primeiro e o último pontos. [1] cita o trabalho original de (Filliben 1975). Esta expressão é uma estimativa das medianas de $U (k)$ .
↑ Uma fórmula simples (e fácil de lembrar) para traçar posições; usado em BMDP statistical package.
↑ Esta é a aproximação mais antiga de (Blom 1958) e é a expressão usada em MINITAB.
↑ Esta posição de plotagem foi usada por Irving I. Gringorten^[10] para traçar pontos em testes para a distribuição de Gumbel.
↑ Usados por Filliben (1975), esses posições de plotagem são iguais aos modos de $U (k)$ .
↑ Para evitar vieses de análise no gráfico Q-Q, o valor de $a$ da regra bicaudal das posições de plotagem deve ser calculado para cada distribuição estatística teórica, com a finalidade de que cada quantil recaia exatamente no percentil correspondente.

Referências[editar | editar código-fonte]

↑ Wilk, M.B.; Gnanadesikan, R. (1968). «Probability plotting methods for the analysis of data». Biometrika Trust. 55 (1): 1–17. JSTOR 2334448. PMID 5661047. doi:10.1093/biomet/55.1.1
↑ Gnanadesikan, R. (1977). Methods for Statistical Data Analysis of Multivariate Observations. New Brunswick, New Jersey: John Wiley & Sons, Inc. p. 199
↑ Weibull, Waloddi (1939), «The Statistical Theory of the Strength of Materials», IVA Handlingar, Royal Swedish Academy of Engineering Sciences (151)
↑ Madsen, H.O.; et al. (1986), Methods of Structural Safety
↑ Makkonen, L. (2008), «Bringing closure to the plotting position controversy», Communications in Statistics – Theory and Methods, 37 (3): 460–467, doi:10.1080/03610920701653094
↑ Benard & Bos-Levenbach (1953). The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. doi:10.1111/j.1467-9574.1953.tb00821.x. (em neerlandês)
↑ «1.3.3.21. Normal Probability Plot». itl.nist.gov. Consultado em 16 de fevereiro de 2022
↑ Distribution free plotting position, Yu & Huang
↑ Cunnane (1978).
↑ Gringorten, Irving I. (1963). «A plotting rule for extreme probability paper». Journal of Geophysical Research (em inglês). 68 (3): 813–814. Bibcode:1963JGR....68..813G. ISSN 2156-2202. doi:10.1029/JZ068i003p00813
↑ Hazen, Allen (1914), «Storage to be provided in the impounding reservoirs for municipal water supply», Transactions of the American Society of Civil Engineers (77): 1547–1550
↑ Larsen, Curran & Hunt (1980).
↑ Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-2039-1089-4, p. 31
↑ (Thode 2002, Section 2.2.2, Quantile-Quantile Plots, p. 21)
↑ «Inverse error function». Consultado em 24 de outubro de 2022
↑ https://pt.wiktionary.org/wiki/tunagem
↑ Weisstein, Eric W. Percentile. MathWorld -- A Wolfram Web Resource. Consultado em 3/4/2007.
↑ Larson, Ron; Farber, Betsy (2004). Estatística aplicada. [S.l.]: Pearson Education do Brasil. 1 páginas

Conexões externas[editar | editar código-fonte]

O Commons possui uma categoria com imagens e outros ficheiros sobre Gráfico Q-Q

Probability plot
Descrição alternativa do gráfico Q-Q: http://www.stats.gla.ac.uk/steps/glossary/probability_distributions.html#qqplot

[8] Observe que isso também usa uma expressão diferente para o primeiro e o último pontos. [1] cita o trabalho original de (Filliben 1975). Esta expressão é uma estimativa das medianas de $U (k)$ .

[10] Uma fórmula simples (e fácil de lembrar) para traçar posições; usado em BMDP statistical package.

[11] Esta é a aproximação mais antiga de (Blom 1958) e é a expressão usada em MINITAB.

[14] Esta posição de plotagem foi usada por Irving I. Gringorten^[10] para traçar pontos em testes para a distribuição de Gumbel.

[17] Usados por Filliben (1975), esses posições de plotagem são iguais aos modos de $U (k)$ .

[24] Para evitar vieses de análise no gráfico Q-Q, o valor de $a$ da regra bicaudal das posições de plotagem deve ser calculado para cada distribuição estatística teórica, com a finalidade de que cada quantil recaia exatamente no percentil correspondente.

[1] Wilk, M.B.; Gnanadesikan, R. (1968). «Probability plotting methods for the analysis of data». Biometrika Trust. 55 (1): 1–17. JSTOR 2334448. PMID 5661047. doi:10.1093/biomet/55.1.1

[2] Gnanadesikan, R. (1977). Methods for Statistical Data Analysis of Multivariate Observations. New Brunswick, New Jersey: John Wiley & Sons, Inc. p. 199

[3] Weibull, Waloddi (1939), «The Statistical Theory of the Strength of Materials», IVA Handlingar, Royal Swedish Academy of Engineering Sciences (151)

[4] Madsen, H.O.; et al. (1986), Methods of Structural Safety

[5] Makkonen, L. (2008), «Bringing closure to the plotting position controversy», Communications in Statistics – Theory and Methods, 37 (3): 460–467, doi:10.1080/03610920701653094

[6] Benard & Bos-Levenbach (1953). The plotting of observations on probability paper. Statistica Neederlandica, 7: 163-173. doi:10.1111/j.1467-9574.1953.tb00821.x. (em neerlandês)

[7] «1.3.3.21. Normal Probability Plot». itl.nist.gov. Consultado em 16 de fevereiro de 2022

[9] Distribution free plotting position, Yu & Huang

[12] Cunnane (1978).

[13] Gringorten, Irving I. (1963). «A plotting rule for extreme probability paper». Journal of Geophysical Research (em inglês). 68 (3): 813–814. Bibcode:1963JGR....68..813G. ISSN 2156-2202. doi:10.1029/JZ068i003p00813

[15] Hazen, Allen (1914), «Storage to be provided in the impounding reservoirs for municipal water supply», Transactions of the American Society of Civil Engineers (77): 1547–1550

[16] Larsen, Curran & Hunt (1980).

[thode31-18] Testing for Normality, by Henry C. Thode, CRC Press, 2002, ISBN 978-0-2039-1089-4, p. 31

[thode21-19] (Thode 2002, Section 2.2.2, Quantile-Quantile Plots, p. 21)

[had2know-20] «Inverse error function». Consultado em 24 de outubro de 2022

[21] ttps://pt.wiktionary.org/wiki/tunagem

[22] Weisstein, Eric W. Percentile. MathWorld -- A Wolfram Web Resource. Consultado em 3/4/2007.

[Não_nomeado-xffb-1-23] Larson, Ron; Farber, Betsy (2004). Estatística aplicada. [S.l.]: Pearson Education do Brasil. 1 páginas

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[nota 1]

[8]

[nota 2]

[nota 3]

[9]

[nota 4]

[11]

[12]

[nota 5]

[13]

[14]

[15]

[16]

[17]

[18]

[nota 6]

[10]