Vérifié contenu

Échantillonnage (statistiques)

Sujets connexes: Mathématiques

À propos de ce écoles sélection Wikipedia

Cette sélection de wikipedia a été choisi par des bénévoles aidant les enfants SOS de Wikipedia pour cette sélection Wikipedia pour les écoles. Tous les enfants disponibles pour le parrainage de SOS Enfants des enfants sont pris en charge dans une maison de famille près de la charité. Lire la suite ...

L'échantillonnage est la partie de la pratique statistique concernée par la sélection des observations individuelles destinées à donner une certaine connaissance de la population de préoccupation, en particulier aux fins de inférence statistique. Chaque observation mesure une ou plusieurs propriétés (poids, localisation, etc.) d'une entité observable énumérés de distinguer des objets ou des personnes. Les poids de sondage doivent souvent être appliqué aux données pour tenir compte de la conception de l'échantillon. Les résultats de la théorie des probabilités et théorie statistique sont utilisées pour guider la pratique.

Le processus d'échantillonnage comprend plusieurs étapes:

  • Définition de la population de préoccupation
  • Spécification d'une base de sondage , un un ensemble d'éléments ou d'événements possibles pour mesurer
  • Spécification d'une méthode d'échantillonnage pour sélectionner des éléments ou des événements du cadre
  • Détermination de la taille de l'échantillon
  • Mise en œuvre du plan d'échantillonnage
  • Échantillonnage et collecte des données
  • Revoir le processus d'échantillonnage

définition de la population

Pratique statistique succès est basé sur ciblée définition du problème. Typiquement, nous cherchons à agir sur certains population, par exemple lorsqu'un lot de matières à partir de la production doit être libéré au client ou condamné à la ferraille ou de reprise.

Sinon, nous cherchons des connaissances sur le système de cause dont la population est le résultat, par exemple quand un chercheur effectue une expérience sur des rats avec l'intention de gagner un aperçu de la biochimie qui peuvent être appliqués au bénéfice de l'homme . Dans ce dernier cas, la population concernée peut être difficile à spécifier, comme dans le cas de la mesure de certaines caractéristiques physiques telles que la conductivité électrique de cuivre .

Cependant, dans tous les cas, le temps passé à faire la population de préoccupation précise est souvent bien passé, souvent parce qu'il soulève de nombreuses questions, les ambiguïtés et les questions qui, autrement, auraient été négligés à ce stade.

Base de sondage

Dans le cas le plus simple, comme la condamnation d'un lot de matières de la production ( l'échantillonnage d'acceptation par lots), il est possible d'identifier et de mesurer chaque article dans la population et d'inclure l'un d'eux dans notre échantillon. Toutefois, dans le cas plus général, ce ne est pas possible. Il ne existe aucun moyen d'identifier tous les rats dans l'ensemble de tous les rats. Il n'y a pas moyen d'identifier chaque électeur à une élection prochaine (avant l'élection).

Ces populations imprécises ne se prêtent pas à l'échantillonnage dans l'une des façons ci-dessous et à laquelle nous avons pu appliquer la théorie statistique.

Pour y remédier, nous cherchons une base de sondage qui a la propriété que nous pouvons identifier chaque élément et inclure tout dans notre échantillon. Par exemple, dans un sondage d'opinion, bases de sondage possibles incluent:

  • Registre électoral
  • Annuaire téléphonique
  • Shoppers dans Anytown, High Street le lundi après-midi avant l'élection.

La base de sondage doit être représentatif de la population et ce est une question en dehors du champ de la théorie statistique qui exige le jugement des experts dans le sujet particulier à l'étude. Tous les cadres ci-dessus omettent certaines personnes qui vont voter à la prochaine élection et contenir certaines personnes qui ne veulent pas. Les gens ne sont pas dans le cadre ne ont aucune chance d'être échantillonnés. La théorie statistique nous renseigne sur les incertitudes dans l'extrapolation d'un échantillon au châssis. En extrapolant à partir de cadre à la population, son rôle est de motivation et suggestif.

Il ya, cependant, une forte division de vues sur l'acceptabilité d'un échantillonnage représentatif à travers différents domaines d'études. Pour le philosophe, la procédure d'échantillonnage représentatif n'a aucune justification car il ne est pas la façon dont la vérité est poursuivi en philosophie. "Pour le scientifique, cependant, un échantillonnage représentatif est la seule procédure justifiée pour le choix des objets individuels pour une utilisation comme base de généralisation, et est donc généralement la seule base acceptable pour déterminer la vérité." (Andrew A. Marin) . Il est important de comprendre cette différence d'orienter clairement de prescriptions confusion trouvés dans de nombreuses pages web.

En définissant le cadre, pratique, les questions économiques, éthiques et techniques doivent être abordées. La nécessité d'obtenir des résultats en temps opportun peut empêcher l'extension de la trame loin dans l'avenir.

Les difficultés peuvent être extrêmes lorsque la population et le cadre sont disjoints. Ce est un problème particulier dans prévisions où des inférences fondées sur l'avenir sont fabriqués à partir historique données. En fait, dans 1703, lorsque Jacob Bernoulli proposé de Gottfried Leibniz la possibilité d'utiliser les données de mortalité historiques pour prédire la probabilité de décès prématuré d'un homme vivant, Gottfried Leibniz a reconnu le problème en répondant:

«La nature a créé des modèles originaires de la déclaration des événements, mais seulement pour la plupart. Les nouvelles maladies inondent la race humaine, de sorte que peu importe combien vous avez fait des expériences sur des cadavres, vous ne avez pas de ce fait imposé une limite sur la nature des événements de sorte que dans l'avenir, ils ne pouvaient pas varier. "

Après avoir établi le cadre, il ya un certain nombre de moyens pour l'organisation à améliorer l'efficacité et l'efficacité.

Ce est à ce stade que le chercheur doit décider si l'échantillon est en fait d'être ensemble de la population et serait donc un recensement.

Méthode d'échantillonnage

Dans ne importe lequel des types de trame identifiée ci-dessus, une variété de méthodes d'échantillonnage peut être utilisée, individuellement ou en combinaison.

L'échantillonnage par quotas

Dans l'échantillonnage par quotas, la population est d'abord segmenté en sous-groupes mutuellement exclusifs, tout comme dans échantillonnage stratifié. Puis jugement est utilisé pour sélectionner les sujets ou les unités de chaque segment sur la base d'un pourcentage déterminé. Par exemple, un intervieweur peut être dit pour échantillonner 200 femelles et 300 mâles âgés de 45 et 60.

Ce est cette deuxième étape qui rend la technique un des échantillonnage non probabiliste. Dans échantillonnage par quotas la sélection de l'échantillon est non aléatoire. Par exemple enquêteurs pourraient être tentés d'interroger ceux qui regardent le plus utile. Le problème est que ces échantillons peuvent être biaisée parce que tous ne obtient une chance de la sélection. Cet élément aléatoire est sa plus grande faiblesse et de quotas par rapport probabilité a été un sujet de controverse depuis de nombreuses années.

L'échantillonnage aléatoire simple

Dans un échantillon aléatoire simple d'une taille donnée, tous les sous-ensembles de la trame sont donnés une probabilité égale. Chaque élément du cadre a donc une probabilité égale de sélection: le cadre ne est pas subdivisé ou partagé. Il est possible que l'échantillon ne sera pas complètement aléatoire.

L'échantillonnage stratifié

Lorsque la population embrasse un certain nombre de catégories distinctes, le cadre peut être organisé par ces catégories dans séparé "strates". Un échantillon est ensuite sélectionné dans chaque «strate» séparément, produisant un échantillon stratifié. Les deux principales raisons pour utiliser un plan d'échantillonnage stratifié sont [1] pour se assurer que des groupes particuliers au sein d'une population soient adéquatement représentés dans l'échantillon, et pour améliorer l'efficacité en acquérant un plus grand contrôle sur la composition de l'échantillon. Dans le second cas, des gains importants en matière d'efficacité (soit tailles inférieures d'échantillon ou une plus grande précision) peuvent être obtenus en faisant varier la fraction d'échantillonnage d'une strate à. La taille de l'échantillon est en général proportionnelle à la taille relative des strates. Toutefois, si les écarts diffèrent sensiblement entre les strates, les échantillons devraient être proportionnelle à la strate écart-type . Stratification disproportionnée peut fournir une meilleure précision que la stratification proportionnelle. Typiquement, les strates devraient être choisis pour:

  • avoir des moyens qui diffèrent sensiblement les uns des autres
  • minimiser la variance dans les strates et de maximiser la variance entre les strates.

L'échantillonnage en grappes

Parfois, il est moins cher de «cluster» l'échantillon d'une certaine manière, par exemple en sélectionnant répondants provenant de certaines zones seulement, ou certains seulement périodes de temps. (Presque tous les échantillons sont en quelque sorte «cluster» dans le temps -. Bien que ce est rarement prise en compte dans l'analyse)

L'échantillonnage en grappes est un exemple de " deux étapes d'échantillonnage »ou« échantillonnage à plusieurs degrés »: dans la première étape d'un échantillon de zones est choisi; dans la deuxième étape d'un échantillon de répondants dans ces zones est sélectionné.

Cela peut réduire Voyage et d'autres coûts administratifs. Cela signifie également que l'on n'a pas besoin d'un base de sondage pour l'ensemble de la population, mais seulement pour les grappes sélectionnées. L'échantillonnage en grappes augmente généralement la variabilité des estimations de l'échantillon ci-dessus que l'échantillonnage aléatoire simple, selon la façon dont les groupes diffèrent entre eux, par rapport à la variation intra-cluster.

L'échantillonnage aléatoire

Dans l'échantillonnage aléatoire, aussi connu comme l'échantillonnage probabiliste, chaque combinaison d'éléments du cadre, ou strate, a une probabilité connue de se produire, mais ces probabilités ne sont pas nécessairement égale. Avec toute forme de prélèvement il ya un risque que l'échantillon peut ne pas représenter adéquatement la population mais avec échantillonnage aléatoire, il est un grand corps de la théorie statistique qui quantifie le risque et permet ainsi un échantillon de taille appropriée pour être choisi. En outre, une fois que l'échantillon a été pris la l'erreur d'échantillonnage associée aux résultats mesurés peut être calculée. Avec l'échantillonnage non aléatoire, il ne existe aucune mesure de l'erreur d'échantillonnage associée. Bien que ces méthodes peuvent être moins cher ce est en grande partie vide de sens car il n'y a pas de mesure de la qualité. Il ya plusieurs formes d'échantillonnage aléatoire. Par exemple, dans échantillonnage aléatoire simple, chaque élément a une probabilité égale d'être sélectionné. Une autre forme de l'échantillonnage aléatoire est Échantillonnage de Bernoulli dans lequel chaque élément a une probabilité égale d'être sélectionné, comme dans l'échantillonnage aléatoire simple. Toutefois, l'échantillonnage de Bernoulli conduit à une variable taille de l'échantillon, tandis que lors de l'échantillonnage aléatoire simple de la taille de l'échantillon reste constante. Échantillonnage de Bernoulli est un cas particulier de Échantillonnage de Poisson dans lequel chaque élément peut avoir une autre probabilité d'être choisi. D'autres exemples comprennent de l'échantillonnage probabiliste échantillonnage stratifié et échantillonnage à plusieurs degrés ..

Échantillonnage aléatoire apparié

Procédé d'affectation participants à des groupes dans lesquels les participants sont des paires de premier correspond à une caractéristique et ensuite affectés au hasard à des groupes individuellement. (Brown, Cozby, Kee, et Worden, 1999, p.371).

La procédure pour l'échantillonnage aléatoire peut être assortie informé avec les contextes suivants,

a) Deux échantillons dans lesquels les membres sont clairement jumelés, ou sont en correspondance explicitement par le chercheur. Par exemple, des mesures ou des paires de jumeaux identiques IQ.

b) Les échantillons dans lesquels le même attribut, ou variable, est mesurée deux fois sur chaque sujet, dans des circonstances différentes. Communément appelé mesures répétées. Les exemples incluent les temps d'un groupe d'athlètes pour 1500 avant et après une semaine de formation spéciale; les rendements laitiers de vaches avant et après avoir été nourris avec un régime alimentaire particulier. Babu HM

L'échantillonnage systématique

Sélection (par exemple) tous les 10 e nom de l'annuaire téléphonique est appelé toutes les 10 échantillons, ce qui est un exemple de échantillonnage systématique. Ce est un type de l'échantillonnage probabiliste à moins que le répertoire lui-même ne est pas randomisé. Il est facile à mettre en œuvre et de la stratification induite peut rendre efficace, mais elle est particulièrement vulnérable aux périodicités dans la liste. Si la périodicité est présente et la période est un multiple de 10, puis partialité en découlera. Il est important que le premier nom choisi ne est pas simplement la première dans la liste, mais est choisie (par exemple) le 7,7 est un nombre entier aléatoire compris entre 1, ..., 10 -1. Chaque ième échantillonnage 10 est particulièrement utile pour le prélèvement efficace de bases de données.

Échantillonnage mécanique

Échantillonnage mécanique est généralement utilisé dans échantillonnage solides , liquides et gaz , utilisant des dispositifs tels que grappins, godets, sondes de voleur, le COLIWASA et diviseur à rifles.

Il faut faire attention à se assurer que l'échantillon est représentatif de la trame. Beaucoup de travail dans ce domaine a été développé par Pierre Gy.

Échantillonnage de commodité

Parfois appelé benne ou d'échantillonnage d'opportunité, ce est la méthode de choix d'articles arbitrairement et de manière non structurée du cadre. Bien que presque impossible de traiter avec rigueur, ce est la méthode la plus couramment employée dans de nombreuses situations pratiques. Dans la recherche en sciences sociales, échantillonnage boule de neige est une technique similaire, où les sujets d'étude existants soient utilisés pour recruter plus de sujets dans l'échantillon.

Ligne à l'origine d'échantillonnage

Ligne d'intersection échantillonnage est une méthode d'éléments d'échantillonnage dans une région où un élément est échantillonnée si un segment de ligne choisi, appelé «transect», l'élément de coupe.

Types de données

Catégorique et numérique

Il existe deux types de variables aléatoires:. Catégoriques et numériques variables aléatoires catégoriques donnent des réponses telles que «oui» ou «non». Les variables catégoriques peuvent produire plus de deux réponses possibles. Par exemple: «Quel jour de la semaine vous êtes le plus susceptible de laver les vêtements? 'Variables aléatoires numériques donnent des réponses numériques, tels que votre taille en centimètres.

Il existe deux types de variables numériques:. Discrètes et continues des variables aléatoires discrètes produisent des réponses numériques à partir d'un processus de comptage. Un exemple est «combien de fois visitez-vous la machine de trésorerie dans un mois habituel? 'Variables aléatoires continues produisent des réponses à partir d'un processus de mesure. La hauteur est un exemple d'une variable continue parce que la réponse prend une valeur à partir d'un intervalle. Précision de l'instrument (s) de mesure peut conduire à des observations liées. Une observation liée se produit lorsque l'appareil de mesure ne est pas sensible ou assez sophistiqué pour détecter les différences supplémentaires dans les données expérimentales ou de l'enquête.

Généralement variable aléatoire continue nécessite moins d'échantillons que de la variable aléatoire discrète. Cela peut être justifiée par référence à la Théorème central limite

Échantillonnage et collecte de données

Bonne collecte de données implique:

  • Après le processus d'échantillonnage défini
  • Garder les données par ordre chronologique
  • Notant commentaires et autres événements contextuels
  • Enregistrement non-réponses

La plupart des livres d'échantillonnage et des documents écrits par des non-statisticiens se concentrent uniquement dans l'aspect de la collecte de données, qui est juste une petite partie du processus d'échantillonnage.

Examen du processus d'échantillonnage

Après le prélèvement, un examen doit être tenu du processus exact suivie dans l'échantillonnage, plutôt que celui prévu, afin d'étudier les effets que les divergences pourraient avoir sur l'analyse ultérieure. Un problème particulier est celui des non-réponses.

La non-réponse

En échantillonnage de l'enquête, la plupart des personnes identifiées comme faisant partie de l'échantillon peut ne pas être disposés à participer ou impossible à contacter. Dans ce cas, il ya un risque de différences entre (par exemple) le vouloir et ne veulent pas, conduisant à biais de sélection dans les conclusions. Ce est souvent adressée par des études de suivi qui font une tentative répétée de contacter le insensible et de caractériser leurs similitudes et les différences avec le reste de la trame. Les effets peuvent également être atténués en pondérant les données lorsque repères démographiques sont disponibles.

Poids d'enquête

Dans de nombreuses situations de la fraction d'échantillon peut être modifiée par strate et des données devra être pondéré pour représenter correctement la population. Ainsi, par exemple, un échantillon aléatoire simple de personnes au Royaume-Uni pourrait inclure certains dans les îles écossaises éloignées qui seraient excessivement coûteux à déguster. Une méthode moins coûteuse serait d'utiliser un échantillon stratifié avec strates urbaines et rurales. L'échantillon rural pourrait être sous-représentés dans l'échantillon, mais pondérée de manière appropriée dans l'analyse pour compenser.

Plus généralement, les données doivent généralement être pondérés si la conception de l'échantillon ne donne pas chaque individu une chance égale d'être sélectionné. Par exemple, lorsque les ménages ont des probabilités de sélection égales, mais une personne est interviewé au sein de chaque ménage, ce qui donne des gens de ménages de grande taille une moindre chance d'être interviewé. Cela peut être comptabilisée en utilisant les poids de sondage. De même, les ménages avec plus d'une ligne de téléphone ont une plus grande chance de d'être sélectionné dans un échantillon de composition aléatoire, et les poids peuvent ajuster pour cela.

Les poids peuvent également servir à d'autres fins, comme aider à corriger la non-réponse.

Histoire

L'échantillonnage aléatoire en utilisant beaucoup est une vieille idée, mentionnée à plusieurs reprises dans la Bible. En 1786, Pierre Simon Laplace estime la population de la France en utilisant un échantillon, avec estimateur par le ratio. Il a également calculé les estimations probabilistes de l'erreur. Elles ne ont pas exprimé aussi moderne intervalles de confiance, mais que la taille de l'échantillon qui serait nécessaire pour obtenir une supérieure particulière liée à l'erreur d'échantillonnage avec une probabilité 1000/1001. Ses estimations utilisées Le théorème de Bayes avec un uniforme probabilité a priori et il a assumé son échantillon était la théorie random.The des statistiques de petits échantillons développé par William Sealy Gossett mis le sujet sur une base plus rigoureuse dans le 20e siècle. Cependant, l'importance de l'échantillonnage aléatoire ne était pas universellement appréciée et aux Etats-Unis en 1936 Prévision Digest littéraire d'une victoire républicaine à la élection présidentielle se est mal passé mal, en raison de graves partialité. Une taille d'un million de l'échantillon a été obtenu par les listes d'abonnés de magazines et annuaires téléphoniques. Il ne était pas apprécié que ces listes ont été fortement sollicités vers les républicains et l'échantillon obtenu, bien que très grande, était profondément vicié.

Récupéré à partir de " http://en.wikipedia.org/w/index.php?title=Sampling_(statistics)&oldid=208695328 "