Amostragem estratificada

Origem: Wikipédia, a enciclopédia livre.

Em estatística, a amostragem estratificada é um método de amostragem de uma população que pode ser dividida em subpopulações.

Exemplo de amostragem estratificada

Em pesquisas estatísticas, quando as subpopulações dentro de uma população geral variam, pode ser vantajoso amostrar cada subpopulação (estrato) independentemente. A estratificação é o processo de dividir os membros da população em subgrupos homogêneos antes da amostragem. Os estratos devem definir uma partição da população. Ou seja, deve ser coletivamente exaustivo e mutuamente exclusivo: cada elemento da população deve ser atribuído a um e apenas um estrato. Em seguida, a amostragem aleatória simples é aplicada dentro de cada estrato. O objetivo é melhorar a precisão da amostra reduzindo o erro amostral. Pode produzir uma média ponderada que tem menos variabilidade do que a média aritmética de uma amostra aleatória simples da população.[1]

Em estatística computacional, a amostragem estratificada é um método de redução de variância quando os métodos de Monte Carlo são usados para estimar estatísticas populacionais de uma população conhecida. [2]

Exemplo[editar | editar código-fonte]

Suponha que precisamos estimar o número médio de votos para cada candidato em uma eleição. Suponha que um país tenha 3 cidades: a cidade A tem 1 milhão de trabalhadores fabris, a cidade B tem 2 milhões de trabalhadores de escritório e a cidade C tem 3 milhões de aposentados. Podemos optar por obter uma amostra aleatória de tamanho 60 em toda a população, mas há alguma chance de que a amostra aleatória resultante seja mal equilibrada entre essas cidades e, portanto, seja tendenciosa, causando um erro significativo na estimativa (quando o resultado de interesse tem uma distribuição diferente, em termos do parâmetro de interesse, entre os municípios). Em vez disso, se escolhermos uma amostra aleatória de 10, 20 e 30 da cidade A, B e C, respectivamente, podemos produzir um erro menor na estimativa para o mesmo tamanho total da amostra. Este método é geralmente usado quando uma população não é um grupo homogêneo.

Vantagens[editar | editar código-fonte]

As razões para usar amostragem estratificada em vez de uma amostragem aleatória simples incluem [3]

  1. Se as medições dentro dos estratos tiverem um desvio padrão mais baixo (em comparação com o desvio padrão geral na população), a estratificação fornece um erro menor na estimativa.
  2. Para muitas aplicações, as medições se tornam mais gerenciáveis e/ou mais baratas quando a população é agrupada em estratos.
  3. Quando é desejável ter estimativas de parâmetros populacionais para grupos dentro da população - a amostragem estratificada verifica se temos amostras suficientes dos estratos de interesse.

Desvantagens[editar | editar código-fonte]

A amostragem estratificada não é útil quando a população não pode ser exaustivamente particionada em subgrupos disjuntos. Seria uma aplicação errônea da técnica tornar os tamanhos das amostras dos subgrupos proporcionais à quantidade de dados disponíveis dos subgrupos, em vez de dimensionar os tamanhos das amostras para os tamanhos dos subgrupos (ou para suas variações, se souberem que variam significativamente - por exemplo, por meio de um Teste F). Os dados que representam cada subgrupo são considerados de igual importância se a suspeita de variação entre eles justificar uma amostragem estratificada. Se as variâncias dos subgrupos diferirem significativamente e os dados precisarem ser estratificados pela variância, não é possível tornar simultaneamente o tamanho da amostra de cada subgrupo proporcional ao tamanho do subgrupo dentro da população total. O problema da amostragem estratificada no caso de classes a priori desconhecidas (razão de subpopulações em toda a população) pode ter efeito deletério no desempenho de qualquer análise no conjunto de dados, por exemplo, classificação. A esse respeito, a razão de amostragem minimax pode ser usada para tornar o conjunto de dados robusto em relação à incerteza no processo de geração de dados subjacente.

Média e erro padrão[editar | editar código-fonte]

A média e a variância da amostragem aleatória estratificada são dadas por: [3]

Onde,

número de estratos
a soma de todos os tamanhos de estratos
tamanho do estrato
média amostral do estrato
número de observações no estrato
desvio padrão da amostra do estrato

Ver também[editar | editar código-fonte]

Referências

  1. Shahrokh Esfahani, Mohammad; Dougherty, Edward R. (2014). «Effect of separate sampling on classification accuracy». Bioinformatics. 30 (2): 242–250. PMID 24257187. doi:10.1093/bioinformatics/btt662Acessível livremente 
  2. Botev, Z.; Ridder, A. (2017). «Variance Reduction». Wiley StatsRef: Statistics Reference Online: 1–6. ISBN 9781118445112. doi:10.1002/9781118445112.stat07975 
  3. a b «6.1 How to Use Stratified Sampling | STAT 506». onlinecourses.science.psu.edu. Consultado em 23 de julho de 2015