Saltar para o conteúdo

Usuário(a):Wernerwill/Testes

Origem: Wikipédia, a enciclopédia livre.

P-hacking é um termo amplo usado em pesquisa científica para descrever vários tipos de manipulação comumente empregados na análise de dados que levam a resultados estatisticamente significativos mas equivocados ou enganosos.

Os testes convencionais de significância são baseados na probabilidade de que um resultado particular foi obtido puramente por sorte, isso é, não há uma relação real entre os resultados. Dessa forma, eles necessariamente aceitam risco de conclusões equivocadas. Esse nível de risco é chamado de significância (α). Quando vastas quantidades de testes são executados ao mesmo tempo, alguns desses produzem falsos resultados desse tipo, portanto 5% das hipóteses escolhidas ao acaso são estatisticamente significantes a um valor α de 5%. Quanto hipóteses suficientes são testadas, é virtualmente certo que algumas delas serão estatísticamente significantes mas ilusórias, visto que praticamente todo conjunto de dados com qualquer grau de aleatoriedade pode conter correlações espúrias. Se não tomarem cuidado, pesquisadores que usam técnicas de mineração de dados podem ser facilmente enganados por esses resultados.

Tirando conclusões dos dados

[editar | editar código-fonte]

O procedimento convencional de Inferência frequencista consiste em formular uma hipótese de teste, como por exemplo "pessoas de classes sociais mais altas vivem por mais tempo", coletar dados relevantes e então formular um teste de hipótese para ver quão prováveis esses resultados são de serem obtidos simplesmente por acaso.

Um ponto importante em uma análise estatística feita corretamente é testar uma hipótese com evidência (dados) que não foram utilizados na construção da hipótese. Isso é um aspecto crítico porque todo conjunto de dados contém alguns padrões dados inteiramente por acaso. Se a hipótese não é testada num conjunto diferente da mesma população, é impossível saber a probabilidade de que o acaso puramente produza tais padrões.

Por exemplo, o lançamento de uma moeda cinco vezes, com o resultado de 2 caras e 3 coroas, pode levar alguém a supor que a moeda favorece caras em uma proporção de 3/5 para 2/5. Se essa hipótese é então testada no conjunto existente, ela será confirmada, embora essa confirmação não tenha nenhum significado real. O procedimento adequado seria formular uma hipótese sobre qual é a probabilidade de se obter coroas, e depois lançar a moeda diversas vezes para verificar se a hipótese é rejeitada ou não. Se três coroas e duas caras são observadas, outra hipótese - de que a probabilidade de coroas é 3/5, pode ser formulada, embora possa apenas ser testada por um novo conjunto de lançamentos de moedas. É importante notar que significância estatística sobre os procedimentos incorretos é completamente enganosa - testes de significância não protegem contra p-hacking.

Antes de se iniciar um experimento deve-se definir os critérios metodológicos que serão adotados, qualquer desvio dos critérios previamente estabelecidos visando a manipulação dos resultados levará a P-hacking e a uma maior probabilidade de obtenção de resultados falso positivos.[1] A explicação para pesquisadores recorrerem ao uso de P-hacking em suas pesquisas se deve a existência de viés de publicação que favorece estudos com resultados estatisticamente significativos, fazendo com que estes pesquisadores se sintam naturalmente pressionados a encontrarem resultados estatisticamente significativo em seus experimentos.[2]

Referências

  1. Michael Williams, Michael Curtis, Kevin Mullane. Research in the Biomedical Sciences: Transparent and Reproducible. Academic Press, 2017 - 382 páginas, p. 140
  2. Rick Gurnsey. Statistics for Research in Psychology: A Modern Approach Using Estimation. SAGE Publications, 2017 - 720 páginas, parte 431 no Google Livros.


Ícone de esboço Este artigo sobre estatística é um esboço. Você pode ajudar a Wikipédia expandindo-o.