A Estatística é um ramo da matemática bastante amplo e documentado.
Este curso básico foi elaborado baseado referências boas e confiáveis disponíveis na internet, que se complementam e confirmam as informações.
Referências:
Capes - Educapes
Matemática: Estatística e Probabilidade
Jorge Luiz de Castro e Silva, Maria Wilda Fernandes e Rosa Lívia Freitas de Almeida
Estatística é o ramo da Matemática que trata da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos, também significando um conjunto de dados numéricos.
A palavra Estatística é derivada do termo latino “status” (Estado).
Esse termo provém do primeiro uso da Estatística que tinha como função o registro de dados (nº de habitantes da população, nº de casamentos etc) e a elaboração de tabelas e gráficos para descrever resumidamente um determinado país em números.
A palavra Estatística também designa o ramo da Matemática que analisa dados estatísticos, abrangendo a Estatística Descritiva e a Inferência Estatística.
Entretanto, mais importante do que defini-la é poder identificar sua importância e o aumento de sua utilização, pois a Estatística evoluiu, tornando-se uma ciência ampla e complexa, tirando conclusões sobre o conjunto todo a partir de amostras representativas, o que faz com que as decisões sejam baseadas na incerteza.
Uma boa definição de Estatística é a de ser um conjunto de métodos apropriados para a coleta, para a apresentação (organização, resumo e descrição), para a análise e para a interpretação de dados de observação, tendo como objetivo a compreensão de uma realidade específica para a tomada da decisão. Assim sendo, a Estatística se preocupa com:
A Estatística é bastante utilizada em diversos ramos da atividade humana, no intuito de realizar pesquisas, colher dados e processá-los, analisar informações, apresentar situações através de gráficos de fácil compreensão. Os meios de comunicação, ao utilizarem gráficos, deixam a leitura mais agradável.
Em reportagens de jornais e revistas, pesquisas de opinião, recenseamentos, em ciências tais como a geografia, a economia, a medicina etc, são utilizados números para descrever e representar fatos observados. Esses números assim empregados são dados estatísticos.
O IBGE (Instituto Brasileiro de Geografia e Estatística) é considerado um órgão importante e conceituado na área.
Roberto Teixeira
Betobyte
Cientista de Dados
CIEDA
cieda.com.br
roberto@cieda.com.br
Carlos Delfino
Arduino
Cientista de Dados
Basicão da Eletrônica
www.carlosdelfino.eti.br
consultoria@carlosdelfino.eti.br
Historicamente, o desenvolvimento da Estatística pode ser compreendido a partir de dois fenômenos: a necessidade de governos coletarem dados censitários e o desenvolvimento da teoria do cálculo das probabilidades.
As primeiras aplicações da Estatística estavam voltadas para as necessidades do Estado na formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração pública.
Há indícios de que 3000 anos a.C. já se faziam censos na Babilônia, China e Egito e até mesmo o 4º livro do Velho Testamento faz referência à instrução dada a Moisés, para que fizesse um levantamento dos homens de Israel que estivessem aptos para guerrear.
Usualmente, essas informações eram utilizadas para a taxação de impostos ou para o alistamento militar. O Imperador César Augusto, por exemplo, ordenou que se fizesse o censo de todo o Império Romano.
O primeiro levantamento estatístico de que se tem conhecimento se deve a Heródoto e se refere a um estudo da riqueza da população do Egito, cuja finalidade era averiguar quais eram os recursos humanos e econômicos disponíveis para a construção das pirâmides, isso no ano de 3050 a. C.
No ano de 2238 a. C., o Imperador Chinês Yao ordenou a realização de uma Estatística com fins industriais e comerciais.
No ano de 1400 a. C., o famoso faraó egípcio Ramsés II ordenou um levantamento das terras do Egito. Existem ainda, outros casos de Estatísticas no período antigo da civilização.
A Estatística está ligada a vários ramos da atividade humana. Seu estudo e aperfeiçoamento também foram impulsionados por essas atividades, como é o caso da biologia e, em particular, da genética.
Estudos de pesquisadores, como os britânicos Karl Pearson (1857 – 1936), professor de eugenia na Universidade de Londres, e Ronald A. Fisher (1890 – 1962), não foram únicos. Além de deixarem contribuições valiosas como geneticistas, desenvolveram, paralelamente, alguns trabalhos em Estatística.
A Estatística, como todas as ciências, tem suas raízes na história do homem.
Fisher refere-se à Estatística como o ramo da Matemática Aplicada dedicada à análise de dados de observação.
Independentemente das críticas que essa concepção possa merecer, ela evidencia claramente dois aspectos importantes do método estatístico: o tratamento quantitativo a ser aplicado ao fenômeno e a observação, tomada em seu sentido mais amplo.
Desde a Antiguidade, vários povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, cobravam impostos, distribuíam equitativamente terras aos povos, realizavam inquéritos quantitativos por processos etc, que, atualmente, denominaríamos de “estatísticas”.
Na Idade Média colhiam-se informações, comumente com finalidades tributárias ou bélicas.
A partir do século XVI começaram a aparecer as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos.
Os fundamentos matemáticos da Estatística iniciaram-se no século XVII com o desenvolvimento da teoria das probabilidades por Pascal e Fermat, surgida com o estudo dos jogos de azar.
O uso de computadores modernos tem permitido a computação de dados estatísticos em larga escala e também tornaram possível novos métodos antes impraticáveis.
Segundo alguns autores, o marco inicial da Estatística é atribuído à publicação das “Observações sobre os Sensos de Mortalidade” (1662), de John Graunt.
No século XVIII o estudo de tais fatos foi adquirindo, aos poucos, aspecto verdadeiramente científico.
Godofredo Achenwall batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências.
A abrangência da Estatística aumentou no início do século XIX para incluir a acumulação e análise de dados de maneira geral. Hoje, a Estatística é largamente aplicada nas ciências naturais, e sociais, inclusive na administração pública e privada.
As tabelas tornaram-se mais complexas, surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostras).
Atualmente, informações numéricas são necessárias para cidadãos e organizações de qualquer natureza, de todas as partes do mundo globalizado.
Pode-se sintetizar as preocupações com a Estatística em quatro fases:
Muitos conhecimentos foram obtidos na Antiguidade por acaso e, outros, por necessidades práticas, sem aplicação de um método.
Hoje em dia, quase todo acréscimo de conhecimento resulta da observação e do estudo, embora muito desse conhecimento possa ter sido observado inicialmente por acaso.
A verdade é que são desenvolvidos processos científicos para seu estudo e para se adquirir tais conhecimentos.
Pode-se afirmar que: método é um conjunto de meios dispostos convenientemente para se chegar a um fim que se deseja.
Uma definição simples: método é a maneira como se faz alguma coisa.
A metodologia científica tem sua origem no pensamento de Descartes, que foi posteriormente desenvolvido empiricamente pelo físico inglês Isaac Newton.
René Descartes propôs chegar à verdade através da dúvida sistemática e da decomposição do problema em pequenas partes, características que definiram a base da pesquisa científica.
O método científico refere-se a um aglomerado de regras de como se deve agir a fim de produzir conhecimento dito científico, seja este um novo conhecimento, ou seja, produto de uma totalidade, evolução ou um aumento da área de incidência de conhecimentos previamente existentes.
A maioria das disciplinas científicas consiste em juntar evidências empíricas verificáveis, fundamentadas na observação sistemática e controladas, na maioria das vezes, resultantes de experiências ou pesquisa de campo, e analisá-las com o uso da lógica. Para muitos autores o método científico nada mais é do que a lógica aplicada à ciência.
Dos métodos científicos, convém destacar o método experimental e o estatístico.
Para que um pesquisador realize e avalie uma pesquisa corretamente, um bom conhecimento de Estatística é essencial, sobretudo para compreender as potencialidades e as limitações das técnicas utilizadas.
O método experimental consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam.
Observação: É o método preferido no estudo da Física, da Química, etc.
Por exemplo, para fazer café pode-se usar ½ litro de água, 3 colheres de café, um coador, 4 colheres de açúcar. Repetindo-se esta receita diversas vezes, provavelmente, em todas as vezes acontecerá o mesmo resultado. Contudo, se for alterado algum dos fatores, como aumentar a quantidade de água, o café ficará mais aguado; se aumentar o açúcar, ficará mais doce e assim por diante.
Diversas vezes tem-se a necessidade de descobrir fatos em um campo em que o método experimental não se aplica (como nas ciências sociais), já que os vários fatores que afetam o fenômeno em estudo não podem permanecer constantes enquanto se variar a causa que, naquele momento, interessa à pesquisa.
Exemplificando pode-se citar a determinação das causas que definem o preço de uma mercadoria.
Para se aplicar o método experimental, precisa-se fazer variar a quantidade da mercadoria e verificar se tal fato iria influenciar no preço da mesma.
No entanto, seria necessário que não houvesse alteração nos outros fatores.
Dessa forma, deveria existir, no momento da pesquisa, uma uniformidade dos salários, o gosto dos consumidores deveria permanecer constante, seria necessária a fixação do nível geral dos preços das outras necessidades, etc. Mas isso tudo é impossível. Nesses casos, lança-se mão de outro método, embora mais difícil e menos preciso, denominado método estatístico.
O método estatístico, diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas.
O método estatístico é o mais usado pela Estatística, nele é impossível manter as causas ou fatores constantes, assim sendo deve-se admitir os valores dessas variáveis e analisá-los, procurando determinar qual é a influência que cada fator apresenta no resultado final.
Exemplo: Uma empresa teve uma queda nas vendas no mês de julho. Os estudos indicam que nesse mês aconteceu recesso escolar, aumentou o fluxo de turistas na região, no entanto fez mais frio, o concorrente baixou o preço e o produto da empresa perdeu qualidade. Qual desses fatores poderia ter feito as vendas da empresa despencarem?
A Estatística é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para o emprego dos mesmos na tomada de decisões.
Em outras palavras, a Estatística é um conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos.
Estatística é a ciência que se preocupa com a coleta, a organização, descrição (apresentação), análise e interpretação de dados experimentais e tem como objetivo fundamental o estudo de uma população.
Esse estudo pode ser realizado de duas maneiras: investigando todos os elementos da população ou por amostragem, ou seja, selecionando alguns elementos da população.
De um lado, a Estatística, basicamente, coleta, organiza e descreve os dados e, de outro, analisa e interpreta esses dados.
Estatística: Pirâmide da Definição.
A coleta, a organização e a descrição dos dados estão sob a responsabilidade da Estatística Descritiva, enquanto a análise e a interpretação desses dados ficam por conta da Estatística Indutiva ou Inferencial.
Geralmente, as pessoas se referem ao termo “estatística” no sentido da organização e descrição dos dados (estatística do Ministério da Educação, estatística do Ministério da Saúde, estatística dos acidentes de trânsito, etc), desconhecendo que o aspecto essencial da Estatística é o de proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente.
Dessa forma, a análise e a interpretação dos dados estatísticos tornam possível o diagnóstico de uma empresa (por exemplo, de uma escola), o conhecimento de seus problemas (condições de funcionamento, produtividade), a formulação de soluções apropriadas e um planejamento objetivo de ação.
Através da análise e interpretação dos dados estatísticos é possível ter o conhecimento de uma realidade, de seus problemas, bem como, a formulação de soluções apropriadas por meio de um planejamento objetivo da ação, excluindo os “achismos” e “casuísmos” comuns.
A Estatística é dividida em Estatística Descritiva e Estatística Indutiva.
É aquela que se preocupa com a coleta, organização, classificação, apresentação, interpretação e análise de dados referentes ao fenômeno por meio de gráficos e tabelas, além de calcular medidas que permitam descrever o fenômeno.
É aquela que, partindo de uma amostra, estabelece hipóteses, tira conclusões sobre a população de origem e formula previsões fundamentando-se na teoria das probabilidades.
A estatística indutiva cuida da análise e interpretação dos dados.
O processo de generalização do método indutivo está associado a uma margem de incerteza.
Isso se deve ao fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados quanto a determinadas características comuns baseia-se em uma parcela do total de observações.
Quando se pretende empreender um estudo estatístico completo, existem diversas fases do trabalho que devem ser desenvolvidos para se chegar aos resultados finais do estudo. Essas etapas ou operações são chamadas fases do trabalho estatístico e são de âmbito da Estatística Descritiva.
As fases do método estatístico são:
A seguir uma breve descrição sobre cada fase.
A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado.
Além de considerar detidamente o problema objeto do estudo, deve-se examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que se necessita pode, muitas vezes, ser encontrada dessa forma.
Como o próprio nome já diz essa é a fase em que se define o porquê de usar o método estatístico.
Qual será a sua pesquisa?
Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema.
Exemplo: Um fabricante de sabonete, que deseja lançar um produto novo no mercado, poderia estar interessado em um estudo sobre as características dos consumidores atuais.
Não havendo estudos semelhantes, ele deverá formular o problema com base em sua própria experiência.
Uma lista de fatores relevantes deverá resultar dessa investigação preliminar: número de unidades consumidas por família em cada ano, número médio de pessoas que compõe cada família, número de membros adultos da família, as marcas preferidas e assim por diante.
Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema.
O passo seguinte, após a definição do problema, compreende a fase do planejamento, que consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo.
Elaborar como fazer o levantamento dos dados.
É preciso planejar o trabalho a ser realizado, tendo em vista o objetivo que se pretende atingir. Mais especificamente, na fase do planejamento a preocupação maior reside na escolha das perguntas, bem como sua correta formulação, qualquer que seja a modalidade de coleta de dados.
É nesta fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento.
Outros elementos importantes que devem ser tratados nesta fase são o cronograma das atividades, através do qual são fixados os prazos para as várias fases, os custos envolvidos, o exame das informações disponíveis, o delineamento da amostra, a forma como serão escolhidos os dados e assim por diante.
O terceiro passo é essencialmente operacional, compreendendo a coleta das informações propriamente ditas.
Formalmente, a coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado.
Exemplo: Uma empresa pode valer-se de diversas fontes ao utilizar os dados em seus trabalhos estatísticos.
Assim, os seus registros contábeis podem conter muitas informações úteis para outros fins, que não meramente o da avaliação do ativo, do passivo e do patrimônio, e a determinação dos lucros e perdas.
Os vários departamentos de uma organização, no curso de sua atividade normal, mantêm igualmente registros de natureza estatística. Pode ocorrer, entretanto, que os registros da própria empresa não proporcionem toda a informação necessária para resolver determinado problema.
Por exemplo, para uma empresa saber se a queda nas vendas está sendo experimentada também por outras empresas do mesmo setor industrial em que opera, não poderá recorrer simplesmente a seus registros internos.
Poderá haver algum organismo especializado que reúna os dados e os distribua em forma de publicações ou de outra maneira.
Assim, os registros internos não serão suficientes nesta situação, necessitando a empresa recorrer a fontes externas para obter as informações desejadas.
Se a empresa precisasse saber a opinião dos consumidores sobre algum aspecto particular do seu produto, um exame direto sobre ele seria recomendável.
É possível distinguir dois tipos de fontes externas, as quais dão origem a duas espécies de dados: dados primários e dados secundários.
Um conjunto de dados é primário ou secundário em relação a alguém.
As tabelas do Censo Demográfico são fontes primárias.
Quando determinado jornal publica estatísticas extraídas de várias fontes e relacionadas com diversos setores industriais, os dados são secundários para quem desejar utilizar-se deles em alguma pesquisa que esteja desenvolvendo.
Embora muitas vezes possa ser conveniente recorrer a fontes secundárias, é mais seguro trabalhar com fontes primárias, por várias razões:
Essas informações proporcionam ao usuário uma ideia do grau de garantia que os dados oferecem.
Uma coleta de dados pode ser realizada de duas formas: direta ou indiretamente.
A coleta é direta quando é obtida diretamente da fonte, como no caso da empresa que realiza uma pesquisa para saber a preferência dos consumidores pela sua marca.
Há três tipos de coleta direta:
A coleta dos dados é indireta quando inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão. É feita, portanto, por deduções e conjeturas, podendo ser realizada:
Complementando: a coleta de dados que pode ser de dois tipos:
Dados obtidos diretamente na fonte originária (coleta direta).
Exemplo: Preferência dos consumidores por um determinado produto.
Métodos de coleta de dados primários: é importante garantir que a coleta de dados primários seja executada de maneira estatisticamente correta, senão os resultados podem ser tendenciosos.
Observação: o pesquisador não pergunta, observa. Por exemplo: pesquisa de observação para diagnosticar as necessidades de trânsito de uma cidade.
Levantamento: É o método mais comum de se coletar dados. O instrumento pode ser um questionário estruturado ou um roteiro de itens em que o entrevistado disserta à vontade sobre cada item da pesquisa.
Principais formas de levantamento, resumindo as vantagens e desvantagens:
Dados obtidos de algo já disposto. Provém da coleta direta. Exemplo: Pesquisa sobre a mortalidade infantil, que é feita através de dados colhidos por outras pesquisas.
Observação: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o grande risco de erros de transcrição.
Após os dados serem obtidos eles são analisados para conferir se há erros, para que não ocorram distorções que interfiram no resultado final.
Obtidos os dados, eles devem ser cuidadosamente criticados, à procura de possíveis falhas e imperfeições, a fim de não incorrermos erros grosseiros ou de certo vulto, que possam influir sensivelmente nos resultados.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação das perguntas que lhe foram feitas; é interna quando visa observar os elementos originais dos dados da coleta.
Antes de começar a analisar os dados, é conveniente que lhes seja dado algum tratamento prévio, a fim de torná-los mais expressivos.
Esta etapa, apuração ou sumarização, consiste em resumir os dados, através de sua contagem e agrupamento.
É um trabalho de condensação e de tabulação dos dados, que chegam ao analista de forma desorganizada, tornando impossível a tarefa de apreender todo o significado pela simples leitura.
Há várias formas de se fazer a apuração, dependendo das necessidades e dos recursos disponíveis do interessado: manual, mecânica, eletromecânica e eletrônica.
A apuração é manual quando não se recorre a qualquer máquina para ser realizada.
Quando a apuração for feita com o auxílio de máquinas mecânicas, como as de somar e de calcular, ela será mecânica.
A apuração eletromecânica é realizada com máquinas diferentes das anteriores pelo fato de suas engrenagens internas serem movidas a energia elétrica.
As máquinas eletrônicas efetuam as operações através de impulsos elétricos dispensando qualquer tipo de engrenagem, o que lhes confere uma velocidade infinitamente maior que a das anteriores.
Através da apuração tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números, o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade.
A apuração nada mais é que a soma e o processamento dos dados obtidos.
Contudo, a contrapartida da melhor apreciação dos dados em seu conjunto é a perda correspondente de detalhes, uma vez que se trata de um processo de sintetização.
Há duas formas de apresentação dos dados, que não se excluem mutuamente: tabular e gráfica.
Apresentação numérica dos dados.
Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado, seguindo algumas regras práticas adotadas pelos diversos sistemas estatísticos.
De maneira mais formal, define-se como tabela a disposição escrita que se obtém, fazendo-se referir uma coleção de dados numéricos a uma determinada ordem de classificação.
Embora a apresentação tabular seja de extrema importância, no sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como a conseguida através de um gráfico, com a apresentação geométrica dos dados.
A última fase do trabalho estatístico é a mais importante e também a mais delicada.
Nesta etapa, o interesse maior reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema.
A análise dos dados estatísticos está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno.
Assim, o conjunto de dados a ser analisado pode ser expresso por números-resumos, as estatísticas, que evidenciam características particulares desse conjunto.
O significado exato de cada um dos valores obtidos através do cálculo das várias medidas estatísticas disponíveis deve ser bem interpretado.
É possível, nesta fase, arriscar algumas generalizações, as quais envolverão, naturalmente, algum grau de incerteza, porque não se pode estar seguro de que o que foi constatado para aquele conjunto de dados (a amostra) se verificará igualmente para a população.
O processo de generalização constitui um campo mais avançado da Estatística Indutiva ou Inferência Estatística.
Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o fenômeno (estatística descritiva). Na estatística indutiva a interpretação dos dados se fundamenta na teoria da probabilidade.
Observação: Estatística Descritiva se preocupa com a coleta, organização, classificação, apresentação, interpretação e análise de dados experimentais. Estatística Indutiva se preocupa com as hipóteses e conclusões sobre a população.