Saltar para o conteúdo

Teste do sinal

Origem: Wikipédia, a enciclopédia livre.

O teste do sinal é um método estatístico para testar diferenças consistentes entre pares de observações, tal como o peso dos sujeitos antes e depois do tratamento. Dados os pares de observações (tal como peso pré e pós-tratamento) para cada sujeito, o teste do sinal determina se um membro do par (tal como o peso pré-tratamento) tende a ser maior do que (ou menor do que) o outro membro do par (tal como o peso pós-tratamento).

As observações pareadas podem ser designadas como e . Para comparações de observações pareadas , o teste do sinal é mais útil se as comparações puderem ser expressas apenas como , ou . Se, em vez disto, as observações puderem ser expressas como quantidades numéricas (, ) ou como postos (posto de º, posto de º), então, o teste t de Student[1] pareado ou teste de postos sinalizados de Wilcoxon[2] geralmente serão mais adequados do que o teste do sinal para detectar diferenças consistentes.

Se e forem variáveis quantitativas, o teste do sinal pode ser usado para testar a hipótese de que a diferença entre e tem mediana zero, pressupondo distribuições contínuas das duas variáveis aleatórias e , na situação em que podemos obter amostras pareadas a partir de e .[3]

O teste do sinal também pode testar se a mediana de uma coleção de números é significantemente maior ou menor que um valor especificado. Por exemplo, dada uma ista de notas de alunos em uma sala, o teste do sinal pode determinar se a mediada das notas é significantemente diferentes de, por exemplo, 75 de 100.

O teste do sinal é um teste não paramétrico que faz poucas pressuposições sobre a natureza das distribuições sob o teste – isto significa que ele tem uma aplicabilidade muito generalizada, mas pode não ter a potência estatística de testes alternativos.

As duas condições para o teste do sinal de amostra pareada são que a amostra deve ser aleatoriamente selecionada a partir de cada população e que as amostras devem ser dependentes ou pareadas. Amostras independentes não podem ser significantemente pareadas. Já que o teste é não paramétrico, as amostras não precisam vir de populações normalmente distribuídas. Além disto, o teste funciona para testes com cauda à esquerda, cauda à direita e bicaudais.[4]

Considere e então teste a hipótese nula . Em outras palavras, a hipótese nula afirma que, dado um par aleatório de medidas (), é igualmente provável que e sejam uma maior que a outra.

Para testar a hipótese nula, os pares independentes de dados amostrais são coletados a partir das populações . Pares para os quais não há nenhuma diferença são omitidos de modo que haja a possibilidade de uma amostra reduzida de pares .

Então, considere . o número de pares para os quais . Pressupondo que é verdadeira, então, segue uma distribuição binomial .[5]

Considere para .

  1. Pressupõe-se que as diferenças são independentes.
  2. Cada vem da mesma população contínua.
  3. Os valores que e representam são ordenados (pelo menos na escala ordinal), de modo que as comparações "maior que", "menor que" e "igual a" tenham sentido.[5]

Teste de significância

[editar | editar código-fonte]

Já que se espera que a estatística do teste siga uma distribuição binomial, o teste binomial padrão é usado para calcular a significância. A aproximação normal à distribuição binomial pode ser usada para amostras grandes com .[6]

O valor da cauda à esquerda é computado por , que é o valor-p para a alternativa . Esta alternativa significa que as medidas de tendem a ser maiores.

O valor da cauda à direita é computado por , que é o valor-p para a alternativa . Esta alternativa significa que as medidas de tendem a ser maiores.

Para uma alternativa bicaudal , o valor-p é o dobro do menor valor de cauda.

Exemplo de teste do sinal bilateral para pares emparelhados

[editar | editar código-fonte]

Jerold H. Zar dá o seguindo exemplo de teste de sinal para pares emparelhados. Os dados coletados dizem respeito ao comprimento da pata esquerda traseira e da pata esquerda dianteira de 10 cervos.[7]

Cervo Comprimento da pata traseira (cm) Comprimento da pata dianteira (cm) Diferença
1 142 138 +
2 140 136 +
3 144 147
4 144 139 +
5 142 143
6 146 141 +
7 149 143 +
8 150 145 +
9 142 136 +
10 148 146 +

A hipótese nula é que não há diferença entre os comprimentos da pata traseira e da pata dianteira do cervo. A hipótese alternativa é que há uma diferença entre os comprimentos da pata traseira e da pata dianteira. Note que este é um teste bicaudal. Para o teste bicaudal. a hipótese alternativa é de que o comprimento da pata traseira pode ser maior ou menor do que pata dianteira. Um teste monocaudal poderia avaliar se o comprimento da pata traseira é maior do que o da pata dianteira, de modo que a diferença só pode ser em uma direção (maior que).

Há 10 cervos. Há 8 diferenças positivas e 2 diferenças negativas. Se a hipótese nula for verdadeira, ou seja, não houver diferença entre os comprimentos da pata traseira e da pata dianteira, então, o número esperado de diferenças positivas é 5 de 10. Qual é a probabilidade de que o resultado observado de 8 diferenças positivas ou um resultado mais extremo ocorra se não houver diferença nos comprimentos das patas?

Já que o teste é bilateral, um resultado igualmente ou mais extremo que 8 diferenças positivas inclui os resultados de 8, 9 ou 10 diferenças positivas e os resultados de 0, 1 ou 2 diferenças positivas. A probabilidade de 8 ou mais diferenças positivas entre 10 cervos ou 2 ou menos diferenças positivas entre 10 cervos é igual à probabilidade 8 ou mais caras ou 2 ou menos caras em dez jogos de cara ou coroa com uma moeda justa. As probabilidades podem ser calculadas usando o teste binomial, com a probabilidade de caras e de coroas iguais a 0,5.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 2 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 8 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.

A probabilidade bilateral de um resultado tão extremo quanto 8 de 10 diferenças positivas é a soma destas probabilidades:

Assim, a probabilidade de observar resultados tão extremos como 8 de 10 diferenças positivas nos comprimentos das patas, se não houver diferença nos comprimentos das patas, é . A hipótese nula não é rejeitada ao nível de significância de . Como uma amostra de tamanho maior, a evidência pode ser suficiente para rejeitar a hipótese nula.

Já que as observações podem ser expressas como quantidades numéricas (comprimento real da pata), o teste t pareado ou o teste de postos sinalizados de Wilcoxon terão geralmente maior potência do que o teste do sinal para detectar diferenças consistentes. Para este exemplo, o teste t pareado para diferenças indica que há uma diferença significante entre o comprimento da pata traseira e o comprimento da pata dianteira ().

Se o resultado observado fosse 9 diferenças positivas em 10 comparações, o teste do sinal pode ser significante. Apenas jogos de cara ou coroa com 0, 1, 9 ou 10 seriam igualmente ou mais extremos que o resultado observado.

  • Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
  • Probabilidade de 1 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
  • Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00977.
  • Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00098.

A probabilidade de um resultado tão extremo quanto 9 ou 10 diferenças positivas é igual à soma destas probabilidades:

Em geral, 8 de 10 diferenças positivas não é significante (), mas 9 de 10 diferenças positivas é significante ().

Exemplo de teste do sinal unilateral para pares emparelhados

[editar | editar código-fonte]

W. J. Conover dá o seguinte exemplo usando um teste do sinal unilateral para pares emparelhados.[8] Um fabricante faz dois produtos, A e B. O fabricante deseja saber se os consumidores preferem o produto B ao produto A. Em uma amostra de 10 consumidores, cada um recebe um produto A e um produto B e diz qual produto prefere.

A hipótese nula é que os consumidores não preferem o produto B ao produto A. A hipótese alternativa é que os consumidores preferem o produto B ao produto A. Note que este é um teste unilateral, ou seja, com uma única direção.

No fim do estudo, 8 consumidores preferiram o produto B, 1 consumidor preferiu o produto A e um consumidor disse não ter preferência.

  • Número de casos positivos (que preferiram B) = 8.
  • Número de casos negativos (que preferiram A) = 1.
  • Número de empates (nenhuma preferência) = 1.

O empate é excluído da análise, o que torna , o número de casos positivos e negativos, igual a 9,

Qual é a probabilidade de um resultado tão extremo quanto 8 positivos em favor de B em 9 pares, sendo que a hipótese nula diz que os consumidores não preferem B a A? Isto é igual à probabilidade 8 ou mais caras em 9 jogos de cara ou coroa com uma moeda justa e pode ser calculado usando a distribuição binomial com a probabilidade de caras e a probabilidade de coroas iguais a 0,5.

A probabilidade de 8 ou 9 caras em 9 jogos de cara ou coroa com uma moeda justa é igual a 0,0195. A hipótese nula é rejeitada e o operário conclui que os consumidores preferem o produto B ao produto A.

Exemplo de teste do sinal para mediana de uma única amostra

[editar | editar código-fonte]

P. Sprent dá o seguinte exemplo de um teste do sinal para uma mediana.[9] Em um ensaio clínico, o tempo de sobrevivência (em semanas) é coletado para 10 sujeitos com linfoma não Hodgkin. O tempo de sobrevivência exato não é conhecido para um sujeito que ainda estava vivo 362 semanas depois, quando o estudo terminou. Os tempos de sobrevivência dos sujeitos foram:

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+.

O sinal de mais indica o sujeito ainda vivo no fim do estudo. O pesquisador desejava determina se a mediana do tempo de sobrevivência era menor ou maior que 200 semanas.

A hipótese nula é que a mediana da sobrevivência é igual a 200 semanas. A hipótese alternativa é que a mediana da sobrevivência não é 200 semanas. Nota que este é um teste bilateral: a hipótese alternativa é que a mediana pode ser maior ou menor que 200 semanas.

Se a hipótese nula for verdadeira, ou seja, a mediana da sobrevivência for igual a 200 semanas, então, em uma amostra aleatória, aproximadamente metade dos sujeitos deve sobreviver menos de 200 semanas e aproximadamente metade deve sobreviver mais de 200 semanas. Observações abaixo de 200 recebem um sinal de menos (-); observações acima de 200 recebem um sinal de mais (+). Para os tempos de sobrevivência dos sujeitos, há 7 observações abaixo de 200 semanas (-) e 3 observações acima de 200 semanas (+) para a amostra com 10 sujeitos.

Já que qualquer observação tem a mesma probabilidade de estar acima ou abaixo da mediana da população, o número de observações acima de 200 terá uma distribuição binomial com média igual a 0,5. Qual é a probabilidade de um resultado tão extremo quanto 7 em 10 sujeitos com tempos de sobrevivência abaixo da mediana? Isto é exatamente igual à probabilidade de um resultado tão extremo quanto 7 caras em 10 jogos de cara ou coroa com uma moeda justa. Já que este é um teste bilateral, um resultado extremo pode ser tanto três caras ou menos ou sete caras ou menos.

A probabilidade de observar caras em 10 jogos de cara ou coroa, sendo é dada pela fórmula binomial:

A probabilidade para cada valor de é dada na tabela abaixo:

0 1 2 3 4 5 6 7 8 9 10
0,0010 0,0098 0,0439 0,1172 0,2051 0,2461 0,2051 0,1172 0,0439 0,0098 0,0010

A probabilidade de 0, 1, 2, 3, 7, 8, 9 ou 10 caras em 10 jogos é igual à soma de suas probabilidades individuais:

Assim, a probabilidade de observar 3 ou menos sinais de mais ou 7 ou mais sinais de mais nos dados de sobrevivência, se a mediana da sobrevivência for igual a 200 semanas, é 0,3438. O número esperado de sinais de mais é igual a 5 se a hipótese nula for verdadeira. Observar 3 ou menos ou 7 ou mais sinais de mais não é significantemente diferente de 5. A hipótese nula não é rejeitada. Devido ao seu tamanho extremamente reduzido, esta amostra tem pouca potência para detectar uma diferença.

W. J. Conover e P. Sprent descrevem o uso de teste do sinal por John Arbuthnot em 1710.[8][9] Arbuthnot examinou certidões de nascimento em Londres para cada um dos 82 anos entre 1629 e 1710. Em todo ano, o número de homens nascidos em Londres superou o número de mulheres. Se a hipótese nula de números iguais de nascimentos de cada sexo for verdadeira, a probabilidade da observação esperada é , o que levou Arbuthnot a concluir que as probabilidades de nascimentos de homens e de mulheres não eram exatamente iguais.

Por suas publicações em 1692 e 1710, Arbuthnot é creditado pelo "primeiro uso de testes de significância",[10] pelo primeiro exemplo de raciocínio sobre significância estatística e certeza moral[11] e "talvez pelo primeiro relatório publicado com um teste não paramétrico".[8]

Anders Hald descreveu posteriormente o impacto da pesquisa de Arbuthnot da seguinte forma: "Entre 1710 e 1713, Nicholas Bernoulli completou a análise dos dados de Arbuthnot mostrando que a maior parte da variação do número anual de nascimentos de homens pode ser explicada como binomial com . Este é o primeiro exemplo de ajuste de uma binomial a dados. Assim, temos aqui um teste de significância que rejeita a hipótese seguido pela estimativa de e por uma discussão sobre qualidade do ajuste."[11]

Relação com outros testes estatísticos

[editar | editar código-fonte]

Teste de postos sinalizados de Wilcoxon

[editar | editar código-fonte]

O teste do sinal exige apenas que as observações em um par estejam ordenadas, por exemplo, . Em alguns casos, pode-se atribuir um valor de posto às observações para todos os sujeitos (1, 2, 3, ...). Se as observações puderem ser ranqueadas e cada observação em um par for uma amostra aleatória a partir de uma distribuição simétrica, então, o teste de postos sinalizados de Wilcoxon é apropriado. O teste de Wilcoxon geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparado ao teste de postos sinalizados de Wilcoxon, sob estas circunstâncias, é igual a 0,67.[8][12]

Teste t pareado

[editar | editar código-fonte]

Se as observações pareadas forem quantidades numéricas (tais como os comprimentos reais da pata traseira e da pata dianteira no exemplo acima) e as diferenças entre as observações pareadas forem amostras aleatórias a partir de uma única distribuição normal, entao, o teste t pareado é apropriado. O teste t pareado geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparada ao teste t pareado, sob estas circunstâncias, é igual a 0,637. Entretanto, se a distribuição das diferenças entre os pares não for normal, mas, em vez disso, tiver uma curtose muito baixo (distribuição platicúrtica), o teste do sinal pode ter maior potência do que o teste t pareado, como eficiência relativa assintótica igual a 2 comparado ao teste t pareado e igual a 1,3 comparado o teste do posto sinalizado de Wilcoxon.[8][12]

Teste de McNemar

[editar | editar código-fonte]

Em algumas aplicações, as observações no interior de cada par podem apenas assumir os valores 0 ou 1. Por exemplo, 0 pode indicar fracasso e 1 pode indicar sucesso. Há quatro pares possíveis: , , , . Nestes casos, o mesmo procedimento do teste do sinal é usado, mas é conhecido como teste de McNemar.[8]

Teste de Friedman

[editar | editar código-fonte]

Em vez de observações pareadas tais como , os dados podem consistir em três ou mais níveis, como . Se as observações individuais puderem ser ordenadas de forma igual à do teste do sinal, por exemplo, , então, o teste de Friedman pode ser usado.[7]

  1. Thomas., Baguley, (2012). Serious Stats. [S.l.]: Palgrave Macmillan. ISBN 9780230363557. OCLC 965718721 
  2. 1972-, Corder, Gregory W.,. Nonparametric statistics : a step-by-step approach Second ed. Hoboken, New Jersey: [s.n.] ISBN 9781118840429. OCLC 862222362 
  3. «The Sign Test for a Median | STAT 414 / 415». onlinecourses.science.psu.edu (em inglês). Consultado em 28 de setembro de 2017 
  4. 1938-, Gibbons, Jean Dickinson, (2003). Nonparametric statistical inference 4th ed. New York: M. Dekker. ISBN 9780824755225. OCLC 53893359 
  5. a b J., Kitchens, Larry (2003). Basic statistics and data analysis. Pacific Grove, CA: Thomson/Brooks/Cole. ISBN 9780534384654. OCLC 51223638 
  6. William., Mendenhall,; L., Scheaffer, Richard (1990). Mathematical statistics with applications 4th ed. Boston: PWS-Kent Pub. Co. ISBN 0534920268. OCLC 19776139 
  7. a b 1941-, Zar, Jerrold H., (1999). Biostatistical analysis 4th ed. Upper Saddle River, N.J.: Prentice Hall. ISBN 013081542X. OCLC 39498633 
  8. a b c d e f J., Conover, W. (1999). Practical nonparametric statistics 3rd ed. New York: Wiley. ISBN 0471160687. OCLC 39261809 
  9. a b Peter., Sprent, (1993). Applied nonparametric statistical methods 2nd ed. London: Chapman & Hall. ISBN 0412449803. OCLC 27071041 
  10. C., Heyde, C.; 1941-, Seneta, E. (Eugene), (2001). Statisticians of the centuries. New York: Springer. ISBN 0387953299. OCLC 46791088 
  11. a b Hald, Anders (22 de abril de 1998). A history of mathematical statistics from 1750 to 1930 (em inglês). [S.l.]: Wiley. ISBN 9780471179122 
  12. a b 1917-, Lehmann, E. L. (Erich Leo), (2006). Nonparametrics : statistical methods based on ranks Rev. 1st ed. New York: Springer. ISBN 9780387352121. OCLC 71747543