Conteúdo verificado

Histograma

Assuntos Relacionados: Matemática

Você sabia ...

Crianças SOS, que corre cerca de 200 sos escolas no mundo em desenvolvimento, organizado esta selecção. Para comparar instituições de caridade de patrocínio esta é a melhor ligação de patrocínio .

Um exemplo histograma das alturas de 31 ?rvores da cereja preta.

Em estatísticas , um histograma é um exibição gráfica de tabulados frequências. Um histograma é a versão gráfica de uma tabela que mostra qual a proporção de casos de cair em cada um dos vários ou muitos especificado categorias. O histograma é diferente de um em gráfico de barras que representa a área da barra que indica o valor, e não a altura, uma distinção fundamental quando as categorias não são de largura uniforme (Lancaster, 1974). As categorias são normalmente especificado como não-sobreposição intervalos de alguns variável. As categorias (bares) devem ser adjacentes.

A palavra é derivada do histograma grega : histos 'qualquer coisa colocado verticalmente "(como os mastros de um navio, o bar de um tear, ou as barras verticais de um histograma);' desenho, registro, escrevendo 'Gramma. O histograma é um dos sete ferramentas básicas de controle de qualidade, que também incluem o Diagrama de Pareto, Folha de Verificação, carta de controle, diagrama de causa e efeito, fluxograma, e diagrama de dispersão. Uma generalização do histograma está Kernel técnicas de alisamento. Isto irá construir um muito bom função densidade de probabilidade a partir dos dados fornecidos.

Exemplos

Como exemplo, vamos considerar dados recolhidos por os EUA Census Bureau em vez de viajar para o trabalho (censo de 2000, , Tabela 5). O censo descobriu que havia 124 milhões de pessoas que trabalham fora de suas casas. Pessoas foram convidados quanto tempo leva-los para chegar ao trabalho, e as suas respostas foram divididas em categorias: menos de 5 minutos, mais de 5 minutos e menos de 10, mais de 10 minutos e menos de 15, e assim por diante. As tabelas mostram o número de pessoas por categoria, em milhares, de modo que 4180 significa 4.180.000.

Os dados apresentados nas tabelas seguintes são apresentados graficamente por histogramas. Uma característica interessante dos dois diagramas é o pico na categoria 30 minutos. Parece provável que esta é uma Artefato: meia hora é uma unidade comum de medição do tempo informal, para que as pessoas cujos tempos de viagens foram talvez um pouco menos do que, ou um pouco maior que 30 minutos pode estar inclinado a responder "30 minutos". Este arredondamento é um fenômeno comum na recolha de dados das pessoas.

Histograma de tempo de viagem, US censo de 2000. A área sob a curva é igual ao número total de casos. Este diagrama utiliza Q / largura da mesa.
Dados por números absolutos
Intervalo Largura Quantidade Quantidade / largura
0 5 4180 836
5 5 13687 2737
10 5 18618 3723
15 5 19.634 3926
20 5 17981 3596
25 5 7190 1438
30 5 16.369 3273
35 5 3212 642
40 5 4122 824
45 15 9200 613
60 30 6461 215
90 60 3435 57

Este histograma mostra o número de casos por intervalo de unidade de modo que a altura de cada barra é igual à proporção de pessoas no total na pesquisa que se enquadram nessa categoria. A área sob a curva representa o número total de casos (124,000,000). Este tipo de histograma mostra números absolutos.


Histograma de tempo de viagem, US censo de 2000. A área sob a curva é igual a 1. Este diagrama utiliza Q / Total / largura da mesa.
Os dados de proporção
Intervalo Largura Quantidade (Q) Q / Total / largura
0 5 4180 0,0067
5 5 13687 0,0220
10 5 18618 0,0300
15 5 19.634 0,0316
20 5 17981 0,0289
25 5 7190 0,0115
30 5 16.369 0,0263
35 5 3212 0,0051
40 5 4122 0,0066
45 15 9200 0,0049
60 30 6461 0,0017
90 60 3435 0,0004

Este histograma difere da primeira somente na escala vertical. A altura de cada barra representa a percentagem do total decimal que representa cada categoria, e a área total de todas as barras é igual a 1, o equivalente decimal de 100%. A curva apresentada é uma simples estimativa de densidade. Esta versão mostra proporções, e também é conhecido como uma unidade de área histograma.

Em outras palavras, um histograma representa uma distribuição de frequência por meio de retângulos cujas larguras representam intervalos de classe e cujas áreas são proporcionais às frequências correspondentes. Eles só colocar as barras em conjunto para tornar mais fácil a comparação de dados.

Atividades e manifestações

O Recursos páginas SOCR contêm uma série de hands-on atividades interativas que demonstram o conceito de um histograma, histograma construção e manipulação usando applets Java e gráficos.

Definição matemática

Em um sentido matemático mais geral, um histograma é um mapeamento m_i que conta o número de observações que se enquadram em várias categorias disjuntos (conhecidos como caixas), ao passo que o gráfico de um histograma é meramente uma forma de representar um histograma. Assim, se nós deixarmos n ser o número total de observações e k ser o número total de caixas, o histograma m_i satisfizer as seguintes condições:

n = \ sum_ {i = 1} ^ {k m_i}.

Histograma cumulativo

Um histograma cumulativo é um mapeamento que conta o número cumulativo de observações em todas as posições até a bandeja especificada. Isto é, o histograma acumulado M_i de um histograma m_i é definido como:

M_i = \ sum_ {j = 1} ^ {i} m_j

Número de caixas e largura

Não existe "melhor" número de compartimentos, e diferentes tamanhos de depósitos pode revelar diferentes características dos dados. Alguns teóricos tentaram determinar um número óptimo de recipientes, mas estes métodos geralmente tornam fortes hipóteses sobre a forma da distribuição. Você deve sempre experimentar com larguras bin antes de escolher um (ou mais) que ilustram as principais características em seus dados.

O número de caixas k pode ser calculada directamente, ou a partir de uma largura bin sugerido h :

k = \ left \ lceil \ frac {\ max x - \ min x} {h} \ right \ rceil

As cintas indicar o função teto.

Sturges fórmula '
k = \ lceil \ log_2 n + 1 \ rceil

que implicitamente baseia os tamanhos de depósitos no intervalo de dados, e pode executar mal se n <30 .

A escolha de Scott
h = \ frac {3,5} {s n ^ {1/3}}

onde h é a largura bin comum, e s a amostra é o desvio padrão .

Escolha Freedman-Diaconis '
h = 2 \ frac {\ operatorname {} IQR (x)} {n ^ {1/3}}

que se baseia na intervalo interquartil

Contínua de dados

A idéia de um histograma pode ser generalizado para dados contínuos. Deixar f \ in L ^ 1 (R) (Veja Lebesgue espaço), então o operador histograma acumulado H pode ser definida por:

H (f), (y) = com apenas um número finito de intervalos de monotonia este pode ser reescrita como
h (f) (y) = \ sum _ {\ xi \ in \ {x: f (x) = y \}} \ frac {1} {| f '(\ xi) |} .

h (f), (y) é indefinido se y é o valor de um ponto estacionário.

Retirado de " http://en.wikipedia.org/w/index.php?title=Histogram&oldid=203161357 "