Teste de Chauvenet
O teste de Chauvenet (ou critério de Chauvenet) permite determinar se um valor amostral (resultante de uma medida) é discrepante (ou, no termo em inglês, outlier) em relação aos demais valores restantes da amostra, supondo-se que esta amostra é retirada de uma distribuição normal.[1]
Havendo medidas : ,
e tendo,
- como valor médio :
- como desvio-padrão :
- e como valor "suspeito" : ,
a probabilidade de existir um valor que se afaste de mais do que em relação à média é:
Com base numa lei de distribuição (distribuição normal), obtém-se o número de medida:
Se este número for inferior a 0,5, pode-se considerar como valor aberrante (e eliminá-lo).
É necessário garantir que a aplicação deste teste não elimina demasiados valores da amostra.
Exemplo: lendo os valores 9, 10, 10, 10, 11, e 50, a média amostral é 16,7 e o desvio padrão 16,34.
50 difere de 16,7 em 33,3, o que é pouco mais que a média mais dois desvios padrão. A probabilidade de extrair valores nesta região (mais que média mais duas vezes o desvio padrão) consulta-se numa tabela, e é cerca de 0,05.
Com seis valores medidos, a estatística dá 6 × 0,05 = 0,3. Como 0,3 < 0,5, de acordo com o teste de Chauvenet, o valor de 50 deverá ser removido (passando a nova média amostra a ser de 10, e o desvio padrão de 0,7).
Aplicação prática em planilhas eletrônicas[editar | editar código-fonte]
O exemplo acima pode ser reproduzido em uma planilha eletrônica Excel da seguinte maneira:
Valor da Amostra (x) | z-score (z) | Distribuição normal padrão (N) | índice | |
---|---|---|---|---|
Fórmula | = (x - μ) / σ | = DIST.NORMP.N(z;FALSO) | = N*n | |
9 | -0,4691 | 0,3574 | 2,1442 | |
10 | -0,4079 | 0,3671 | 2,2025 | |
10 | -0,4079 | 0,3671 | 2,2025 | |
10 | -0,4079 | 0,3671 | 2,2025 | |
11 | -0,3468 | 0,3757 | 2,2540 | |
50 | 2,0397 | 0,0498 | 0,2990 | |
Nº de Amostras (n) | 6 | |||
Média (μ) | 16,667 | |||
Desvio Padrão* (σ) | 16,342 | |||
Média Final (μf) | 10,000 | |||
Desvio Padrão Final (σf) | 0,707 |
* No exemplo citado, o cálculo de desvio padrão foi amostral (função DESVPAD.A). Por se tratar de um cálculo feito a partir de todas os valores disponíveis (o número de amostras é igual ao número da população), deveria ter sido aplicada a função DESVPAD.P, que retornaria 14,918 em vez de 16,342. O resultado continuaria excluindo o valor 50.
Referências
- ↑ Análise da variabilidade espacial de pontos amostrais da curva de retenção da água no solo, na Revista Brasileira de Ciência do Solo