Conteúdo verificado

Amostragem (estatísticas)

Assuntos Relacionados: Matemática

Sobre este escolas selecção Wikipedia

Esta seleção wikipedia foi escolhido por voluntários que ajudam Crianças SOS da Wikipedia para este Seleção Wikipedia para as escolas. Todas as crianças disponíveis para apadrinhamento de crianças de Crianças SOS são cuidadas em uma casa de família pela caridade. Leia mais ...

A amostragem é que parte da prática estatística relacionada com a selecção de observações individuais destinados a proporcionar algum conhecimento sobre um população de interesse, especialmente para os fins de inferência estatística. Cada observação mede uma ou mais propriedades (peso, localização, etc.) de uma entidade observável enumerados para distinguir objetos ou indivíduos. Pesos de levantamento necessitam frequentemente de ser aplicada aos dados de ajustar para o desenho da amostra. Os resultados da teoria da probabilidade e teoria estatística são utilizados para orientar a prática.

O processo de amostragem é composta por várias etapas:

  • Definir a população de preocupação
  • Especificando um quadro de amostragem , um conjunto de itens ou eventos possíveis para medir
  • Especificando um método de amostragem para selecionar itens ou eventos a partir do quadro
  • Determinação do tamanho da amostra
  • Aplicar o plano de amostragem
  • Amostragem e coleta de dados
  • Revendo o processo de amostragem

Definição população

Estatística prática bem sucedida baseia-se focado definição do problema. Normalmente, nós procuramos tomar medidas sobre alguns população, por exemplo, quando um lote de material a partir de produção deve ser liberado para o cliente ou condenado para a sucata ou retrabalho.

Alternativamente, buscamos o conhecimento sobre o causa do sistema de que a população é um resultado, por exemplo, quando um investigador realiza um experimento em ratos com a intenção de obter insights sobre bioquímica que podem ser aplicados para o benefício de seres humanos . Neste último caso, a população de interesse pode ser difícil de especificar, uma vez que é, no caso da medição de alguma característica física, tal como a condutividade eléctrica do cobre .

No entanto, em todos os casos, o tempo gasto em fazer a população de preocupação preciso é muitas vezes bem gasto, muitas vezes porque levanta muitas questões, ambiguidades e questões que teriam sido negligenciadas nesta fase.

Base de amostragem

No caso mais simples, tais como a condenação de um lote de material de produção ( amostragem de aceitação por lotes), é possível identificar e medir cada item único na população e para incluir qualquer um deles em nossa amostra. No entanto, no caso mais geral, isto não é possível. Não há maneira de identificar todos os ratos no conjunto de todos os ratos. Não há maneira de identificar cada eleitor numa próxima eleição (antes da eleição).

Estas populações imprecisas não são passíveis de recolha de amostras em qualquer uma das formas abaixo e para que se possa aplicar a teoria estatística.

Como um remédio, buscamos um quadro de amostragem que tem a propriedade de que podemos identificar cada elemento e incluir qualquer em nossa amostra. Por exemplo, numa pesquisa de opinião, possíveis quadros de amostragem incluem:

  • Registo eleitoral
  • Lista telefônica
  • Shoppers em Anytown, High Street na tarde segunda-feira antes da eleição.

A base de amostragem deve ser representativa da população e esta é uma questão fora do escopo da teoria estatística exigindo o julgamento de especialistas no assunto em particular matéria que está sendo estudada. Todos os quadros acima omitir algumas pessoas que vão votar na próxima eleição e contêm algumas pessoas que não vão. As pessoas não no quadro não tem nenhuma perspectiva de serem amostrados. Teoria estatística nos fala sobre as incertezas na extrapolação a partir de uma amostra para o quadro. Na extrapolação de quadro a população, o seu papel é motivacional e sugestivo.

Não é, no entanto, uma forte divisão de pontos de vista sobre a aceitabilidade de uma amostragem representativa em diferentes domínios de estudo. Para o filósofo, o procedimento de amostragem representativa não tem justificação alguma, porque não é como a verdade é perseguido em filosofia. "Para o cientista, no entanto, a amostragem representativa é o único procedimento justifica-se por escolher objetos individuais para o uso como base de generalização, e por isso é geralmente a única base aceitável para averiguar a verdade." (Andrew A. Marino) . É importante entender essa diferença para orientar clara de receitas confusas encontrados em muitas páginas da web.

Na definição do quadro, prático, questões econômicas, éticas e técnicas precisam ser abordadas. A necessidade de obter resultados em tempo útil pode evitar o alargamento do quadro em um futuro distante.

As dificuldades podem ser extremas, quando a população eo quadro são disjuntos. Este é um problema particular nas previsão onde inferências sobre o futuro são feitos de histórico dados. Na verdade, em 1703, quando Jacob Bernoulli proposto para Gottfried Leibniz a possibilidade de utilizar dados de mortalidade históricos para prever a probabilidade de morte precoce de um homem vivo, Gottfried Leibniz reconheceu o problema em responder:

"A natureza estabeleceu padrões originários do retorno dos acontecimentos, mas apenas para a maior parte. Novos doenças inundar a raça humana, de modo que não importa quantas experiências que você tem feito em cadáveres, você não lhes impôs um limite sobre a natureza dos eventos de modo que no futuro não podiam variar. "

Tendo estabelecido a estrutura, há um número de formas de organização para melhorar a eficiência e eficácia.

É nesta fase que o pesquisador deve decidir se a amostra é de fato a ser toda a população e, portanto, seria um censo.

Método de amostragem

Em qualquer dos tipos de estrutura, acima identificados, uma variedade de métodos de amostragem podem ser utilizados, individualmente ou em combinação.

Amostragem por quotas

Na amostragem por quotas, a população é segmentada em primeiro subgrupos mutuamente exclusivos, assim como no amostragem estratificada. Em seguida, o julgamento é usado para selecionar os sujeitos ou unidades de cada segmento com base em uma determinada proporção. Por exemplo, um entrevistador pode ser dito para provar 200 fêmeas e 300 machos com idade entre 45 e 60.

É este segundo passo, que faz com que a uma técnica de amostragem não-probabilidade. Em contingente amostragem da selecção da amostra é não- aleatória. Por exemplo entrevistadores poderiam ser tentados a interrogar aqueles que olham mais útil. O problema é que estas amostras podem ser tendenciosa, porque nem todo mundo tem a chance de seleção. Este elemento aleatório é a sua maior fraqueza e quota em relação probabilidade tem sido um tema de controvérsia durante muitos anos.

Amostragem aleatória simples

Em um simples amostra aleatória de um dado tamanho, todas essas sub-grupos da armação são dadas a mesma probabilidade. Cada elemento da armação tem assim uma probabilidade igual de selecção: a moldura não é subdividida ou repartida. É possível que a amostra não irá estar completamente aleatória.

Amostragem estratificada

Onde a população abraça uma série de categorias distintas, o quadro pode ser organizado por essas categorias em separado "estratos". A amostra é então seleccionada a partir de cada "estrato" separadamente, um produzindo amostra estratificada. As duas principais razões para usar um projeto de amostragem estratificada são [1] para assegurar que os grupos específicos dentro de uma população estão adequadamente representadas na amostra, e para melhorar a eficiência, ganhando maior controle sobre a composição da amostra. No segundo caso, grandes ganhos em eficiência (ou tamanhos de amostra mais baixos ou mais elevada precisão) pode ser conseguida através da variação do fração de amostragem de estrato para estrato. O tamanho da amostra é geralmente proporcional ao tamanho relativo dos estratos. No entanto, se variâncias diferem significativamente entre os estratos, tamanhos de amostra deve ser feita proporcional ao estrato desvio padrão . Estratificação desproporcional pode proporcionar uma melhor precisão do que a estratificação proporcional. Tipicamente, os estratos devem ser escolhidas:

  • tem meios que diferem substancialmente um do outro
  • minimizar variância dentro de estratos e maximizar a variação entre estratos.

Amostragem Cluster

Às vezes é mais barato "cluster" da amostra, de alguma forma, por exemplo, selecionando os entrevistados de apenas algumas áreas, ou certas apenas períodos de tempo-. (Quase todas as amostras são, em algum sentido "cluster" no tempo -. Embora isso raramente é tido em conta na análise)

Amostragem Cluster é um exemplo de ' em duas fases de amostragem "ou" amostragem de vários estágios ': na primeira fase, uma amostra de áreas é escolhido; na segunda fase, uma amostra de respondente dentro destas áreas é seleccionado.

Isso pode reduzir as viagens e outros gastos administrativos. Isso também significa que não é preciso um quadro de amostragem para toda a população, mas apenas para os grupos selecionados. Cluster de amostragem geralmente aumenta a variabilidade das estimativas de exemplo acima que numa amostragem aleatória simples, dependendo de como os clusters diferem entre si, em comparação com a variação dentro do cluster.

A amostragem aleatória

Na amostragem aleatória, também conhecido como amostragem probabilidade, cada combinação de elementos da armação, ou estrato, tem uma probabilidade de ocorrência conhecida, mas estas probabilidades não são necessariamente iguais. Com qualquer forma de amostragem, há um risco de que a amostra não pode representar adequadamente a população, mas com amostragem aleatória existe um grande corpo de teoria estatística que quantifica o risco e, portanto, permite uma amostra de tamanho apropriado a ser escolhido. Além disso, uma vez que a amostra foi colhida a erro de amostragem associada com os resultados das medições pode ser calculado. Com a amostragem não aleatória não há nenhuma medida do erro de amostragem associada. Embora tais métodos podem ser mais barato este é, em grande parte sem sentido, uma vez não há nenhuma medida de qualidade. Existem várias formas de amostragem aleatória. Por exemplo, em amostragem aleatória simples, cada elemento tem uma probabilidade igual de ser selecionada. Outra forma de amostragem aleatória é Amostragem de Bernoulli, em que cada elemento tem uma probabilidade igual de ser selecionada, como na amostragem aleatória simples. No entanto, a amostragem de Bernoulli leva a uma variável tamanho da amostra, enquanto que durante a amostragem aleatória simples o tamanho da amostra permanece constante. Amostragem de Bernoulli é um caso especial de Amostragem de Poisson em que cada elemento pode ter uma probabilidade de ser seleccionado diferente. Outros exemplos de amostragem probabilística incluem amostragem estratificada e amostragem de múltiplos estágios ..

Amostragem aleatória Matched

Um método de atribuir participantes a grupos nos quais pares de participantes são primeiro combinados em alguma característica e, em seguida, atribuídas individualmente aleatoriamente para grupos. (Brown, Cozby, Kee, & Worden, 1999, p.371).

O Processo de amostragem aleatória Matched pode ser informado com as seguintes contextos,

a) Duas amostras em que os membros são claramente emparelhados, ou são combinados de forma explícita pelo pesquisador. Por exemplo, medições de QI ou pares de gêmeos idênticos.

b) As amostras em que o mesmo atributo, ou variável, é medido duas vezes em cada sujeito, em circunstâncias diferentes. Comumente chamado de medidas repetidas. Os exemplos incluem os tempos de um grupo de atletas de 1500m antes e depois de uma semana de treinamento especial; as produções de leite de vacas antes e depois de serem alimentados com uma dieta especial. Babu HM

Amostragem sistemática

A seleção de (digamos) a cada 10 th nome do diretório de telefone é chamado de cada 10ª amostra, o que é um exemplo de amostragem sistemática. É um tipo de amostragem probabilística , a menos que o próprio diretório não é randomizados. Ele é fácil de implementar e o estratificação induzida pode torná-lo eficiente, mas é especialmente vulneráveis a periodicidades na lista. Se periodicidade está presente e o período é um múltiplo de 10, então viés vai resultar. É importante que o primeiro nome escolhido não é simplesmente o primeiro na lista, mas é escolhida para ser (por exemplo) o th 7, em que 7 é um número aleatório na gama de 1, ..., 10 -1. Todo dia 10 de amostragem é especialmente útil para amostragem eficiente de bancos de dados.

Amostragem mecânica

Amostragem mecânica é tipicamente utilizado na amostragem de sólidos , líquidos e gases , utilizando dispositivos tais como garras, colheres, sondas ladrão, o COLIWASA e divisor de espingarda.

É necessário cuidado para assegurar que a amostra é representativa do quadro. Muito trabalho nesta área foi desenvolvido por Pierre Gy.

Amostragem de conveniência

Às vezes chamado de garra ou de amostragem oportunidade, este é o método de escolha de itens arbitrariamente e de forma não estruturada a partir do quadro. Embora quase impossíveis de tratar com rigor, é o método mais comummente utilizado em muitas situações práticas. Na pesquisa em ciências sociais, amostragem bola de neve é uma técnica semelhante, onde os sujeitos do estudo existentes são utilizados para recrutar mais indivíduos na amostra.

Amostragem intercepção linha

Amostragem intersecção da linha é um método de amostragem em elementos de uma região em que um elemento é amostrados se um segmento de linha escolhida, chamado um "corte transversal", intersecta o elemento.

Tipos de dados

Categórica e numérica

Há dois tipos de variáveis aleatórias:. Categóricos e numéricos variáveis aleatórias categóricas deu respostas como "sim" ou "não". As variáveis categóricas pode render mais de duas respostas possíveis. Por exemplo: "Que dia da semana é você mais provável para lavar a roupa? 'Variáveis aleatórias numéricos deu respostas numéricas, como a sua altura em centímetros.

Há dois tipos de variáveis numéricas:. Discretas e contínuas variáveis aleatórias discretas produzir respostas numéricas de um processo de contagem. Um exemplo é "quantas vezes você visita a máquina de dinheiro em um mês típico? 'Variáveis aleatórias contínuas produzir respostas de um processo de medição. Altura é um exemplo de uma variável contínua, porque a resposta assume um valor a partir de um intervalo. A precisão do instrumento (s) de medição pode levar a observações amarrados. Uma observação amarrado ocorre quando o dispositivo de medição não é sensível ou sofisticado o suficiente para detectar diferenças incrementais nos dados experimental ou pesquisa.

Geralmente variável aleatória contínua requer menos do que amostras da variável aleatória discreta. Isso pode ser justificado pela referindo-se ao Teorema do Limite Central

Amostragem e coleta de dados

Bom coleta de dados envolve:

  • Seguindo o processo de amostragem definida
  • Manter os dados em ordem de tempo
  • Observando comentários e outros eventos contextuais
  • Gravação de não respostas

A maioria dos livros de amostragem e os artigos escritos por não-estatísticos concentrar apenas no aspecto de coleta de dados, que é apenas uma pequena parte do processo de amostragem.

Revisão do processo de amostragem

Após amostragem, uma avaliação deve ser realizada do processo seguido na amostragem exacta, em vez do que o pretendido, de forma a estudar os efeitos que quaisquer divergências pode ter na análise subsequente. Um problema particular é o de não respostas.

Não-resposta

Em amostragem pesquisa, muitos dos indivíduos identificados como parte da amostra podem não estar dispostos a participar ou impossível entrar em contato. Neste caso, existe um risco de diferenças, entre (por exemplo) o dispostos e dispostos, levando a viés de seleção nas conclusões. Isso é muitas vezes abordada por estudos de acompanhamento que fazem uma tentativa repetida de contactar a responder e para caracterizar as suas semelhanças e diferenças com o resto do quadro. Os efeitos também podem ser mitigados através da ponderação dos dados populacionais quando benchmarks estão disponíveis.

Ponderações do estudo

Em muitas situações, a fracção da amostra pode ser variada por estrato e de dados terão de ser ponderados para representar correctamente a população. Assim, por exemplo, uma amostra aleatória simples de indivíduos no Reino Unido pode incluir alguns em ilhas escocesas remotos que seria excessivamente caro para amostra. Um método mais barato seria a utilização de uma amostra estratificada com estratos urbano e rural. A amostra rural poderia ser sub-representadas na amostra, mas ponderados-se de forma adequada na análise para compensar.

De modo mais geral, os dados devem ser ponderados geralmente se o desenho amostral não dar a cada indivíduo uma chance igual de ser selecionada. Por exemplo, quando as famílias têm probabilidades de selecção iguais, mas uma pessoa é entrevistado a partir de dentro de cada agregado familiar, este dá às pessoas provenientes de grandes famílias uma menor chance de ser entrevistado. Isso pode ser contabilizado usando ponderações do estudo. Da mesma forma, as famílias com mais de uma linha de telefone têm uma maior chance de estar em uma amostra selecionada a discagem de dígitos aleatórios, e pesos pode ajustar para isso.

Pesos podem também servir para outras finalidades, como ajudar a corrigir a não-resposta.

História

A amostragem aleatória usando lotes é uma ideia antiga, mencionado várias vezes na Bíblia. Em 1786 Pierre Simon Laplace calculou a população da França através de uma amostra, juntamente com estimador razão. Ele também calculado estimativas probabilísticas de o erro. Estes não foram expressos como moderno intervalos de confiança, mas como o tamanho da amostra que seria necessário para alcançar um determinado limite superior sobre o erro de amostragem com probabilidade 1000/1001. Suas estimativas usadas Teorema de Bayes com um uniforme probabilidade anterior e assumiu sua amostra era a teoria random.The de estatísticas pequena amostra desenvolvido por William Sealy Gossett colocar o assunto de uma forma mais rigorosa no século 20. No entanto, a importância da amostragem aleatória não foi universalmente apreciados e nos EUA de 1936 Literary Digest previsão de uma vitória republicana na eleição presidencial correu mal errado, devido a grave viés. Uma amostra de um milhão foi obtido através de listas de assinaturas de revistas e listas telefónicas. Não foi apreciado que estas listas foram fortemente inclinado para os republicanos ea amostra resultante, embora muito grande, foi profundamente falho.

Retirado de " http://en.wikipedia.org/w/index.php?title=Sampling_(statistics)&oldid=208695328 "