Vérifié contenu

Histogramme

Sujets connexes: Mathématiques

Saviez-vous ...

SOS Enfants, qui se déroule près de 200 sos écoles dans le monde en développement, a organisé cette sélection. Pour comparer les organismes de bienfaisance de parrainage ce est le meilleur lien de parrainage .

Un exemple histogramme des hauteurs de 31 Arbres Black Cherry.

Dans les statistiques , un histogramme est un affichage graphique des tableaux fréquences. Un histogramme est la version graphique d'un tableau qui montre quelle proportion des cas entrant dans chacune de plusieurs ou beaucoup ont spécifié catégories. L'histogramme est différent d'un histogramme en ce qu'elle est la zone de la barre qui indique la valeur, pas la hauteur, une distinction cruciale lorsque les catégories ne sont pas de largeur uniforme (Lancaster, 1974). Les catégories sont généralement spécifiées comme non-chevauchement intervalles de certaines variables. Les catégories (bars) doivent être adjacentes.

Le mot histogramme est dérivé de grec : histos de la chose mis debout »(comme les mâts d'un navire, la barre d'un métier, ou les barres verticales d'un histogramme); 'dessin, dossier, écrit Gramma. L'histogramme est l'un des sept outils de base de contrôle de la qualité, qui comprennent aussi le Diagramme de Pareto, vérifier avec la feuille, carte de contrôle, diagramme et de cause à effet, organigramme, et diagramme de dispersion. Une généralisation de l'histogramme est noyau techniques de lissage. Ce sera la construction d'un très lisse fonction de densité de probabilité à partir des données fournies.

Exemples

Comme exemple, nous considérons les données recueillies par le Bureau du recensement des États-Unis à temps pour se rendre au travail (recensement de 2000, , Tableau 5). Le recensement a révélé que il y avait 124 millions de personnes qui travaillent à l'extérieur de leurs maisons. Les gens ont été demandé combien de temps il leur faut pour se rendre au travail, et leurs réponses ont été divisés en catégories: moins de 5 minutes, plus de 5 minutes et moins de 10, plus de 10 minutes et moins de 15, et ainsi de suite. Les tableaux montrent le nombre de personnes par catégorie en milliers, de sorte que 4180 signifie 4180000.

Les données dans les tableaux suivants sont affichés graphiquement par histogrammes. Une caractéristique intéressante de deux diagrammes est la pointe dans la catégorie 30 minutes. Il semble probable que ce est un artefact: une demi-heure est une unité de mesure commune de temps informelle, afin que les gens dont les temps de Voyage étaient peut-être un peu moins ou un peu plus que 30 minutes pourraient être enclins à répondre à "30 minutes". Cet arrondi est un phénomène commun lors de la collecte des données de personnes.

Histogramme de temps de Voyage, recensement américain 2000. L'aire sous la courbe est égal au nombre total de cas. Ce schéma utilise Q / largeur de la table.
Données en chiffres absolus
Intervalle Largeur Quantité Quantité / largeur
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Cet histogramme montre le nombre de cas par intervalle unité afin que la hauteur de chaque barre est égale à la proportion de personnes au total dans l'enquête qui tombent dans cette catégorie. L'aire sous la courbe représente le nombre total de cas (124 000 000). Ce type d'histogramme montre nombres absolus.


Histogramme de temps de Voyage, recensement américain 2000. Aire sous la courbe est égal à 1. Ce schéma utilise Q / totale / largeur de la table.
Données par part
Intervalle Largeur Quantité (Q) Q / totale / largeur
0 5 4180 0,0067
5 5 13687 0,0220
10 5 18618 0,0300
15 5 19634 0,0316
20 5 17981 0,0289
25 5 7190 0,0115
30 5 16369 0,0263
35 5 3212 0,0051
40 5 4122 0,0066
45 15 9200 0,0049
60 30 6461 0,0017
90 60 3435 0,0004

Cet histogramme diffère de la première que dans la échelle verticale. La hauteur de chaque barre est le pourcentage du total décimal qui représente chaque catégorie, et la surface totale de toutes les barres est égale à 1, l'équivalent décimal de 100%. La courbe affichée est simple estimation de la densité. Cette version montre proportions, et est également connu comme un histogramme de surface unitaire.

En d'autres termes un histogramme représentant une distribution de fréquence au moyen de rectangles dont les largeurs représentent des intervalles de classe et dont les zones sont proportionnelles aux fréquences correspondantes. Ils ne placent les barres ensemble pour rendre plus facile de comparer les données.

Activités et manifestations

Le Pages de ressources Socr contiennent un certain nombre de mains sur les activités interactives démontrant le concept d'un histogramme, histogramme construction et manipulation aide d'applets Java et charts.

Définition mathématique

Dans un sens plus général mathématique, un histogramme est un mappage m_i qui compte le nombre d'observations qui tombent dans plusieurs catégories disjointes (appelés bacs), tandis que la courbe d'histogramme est simplement une manière de représenter un histogramme. Ainsi, si nous laissons n le nombre total d'observations et k le nombre total d'intervalles, l'histogramme m_i remplit les conditions suivantes:

n = \ sum_ {i = 1} ^ k {} m_i.

Histogramme cumulatif

Un histogramme cumulatif est une application qui compte le nombre cumulé de l'ensemble des observations dans les bacs jusqu'au réceptacle spécifié. Autrement dit, l'histogramme cumulé M_i d'un histogramme m_i est défini comme:

M_i = \ sum_ {j = 1} ^ i {} m_j

Nombre de bacs et la largeur

Il n'y a pas «meilleur» nombre de bacs, et différentes tailles de poubelles peut révéler des caractéristiques différentes des données. Certains théoriciens ont tenté de déterminer un nombre optimal de classes, mais ces méthodes généralement faire des hypothèses fortes sur la forme de la distribution. Vous devriez toujours expérimenter avec des largeurs de casier avant de choisir un (ou plusieurs) qui illustrent les principales caractéristiques de vos données.

Le nombre de bacs k peut être calculée directement, ou à partir d'une largeur de casier suggéré h :

k = \ left \ lceil \ frac {\ max x - \ min x} {h} \ right \ rceil

Les accolades indiquent la fonction de plafond.

La formule de Sturges
k = \ lceil \ log_2 n + 1 \ rceil

qui fonde implicitement les tailles bin sur la gamme des données, et peut effectuer mal si n <30 .

Le choix de Scott
h = \ frac {3,5} s {n ^ {1/3}}

où h est la largeur commune bin, et s l'échantillon est l'écart type .

Le choix de Freedman-Diaconis
h = 2 \ frac {\ operatorname {IQR} (x)} {n ^ {1/3}}

qui est basé sur la gamme interquartile

Continue des données

L'idée d'un histogramme peut être généralisée à des données continues. Laisser f \ in L ^ 1 (R) (Voir Lebesgue espace), l'opérateur de l'histogramme cumulatif H peut être défini par:

H (f) (y) = avec seulement un nombre fini des intervalles de monotonie cela peut être réécrite comme
h (f) (y) = \ sum _ {\ xi \ in \ {x: f (x) = y \}} \ frac {1} {| f '(\ xi) |} .

H (f) (y) est indéfini si y est la valeur d'un point fixe.

Récupéré à partir de " http://en.wikipedia.org/w/index.php?title=Histogram&oldid=203161357 "