Estatística Básica
Carregando, aguarde alguns segundos.

7 - Medidas de Dispersão ou de Variabilidade

As medidas de dispersão ou variabilidade são empregadas para descobrir o grau de variabilidade ou dispersão dos valores observados em torno da média aritmética.

Servem para medir a representatividade da média e destacam o nível de homogeneidade ou heterogeneidade dentro de cada grupo estatístico analisado.

Quando se trata de interpretar dados estatísticos é necessário ter-se uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas.

Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores.

“Se uma pessoa comeu dois salgadinhos e outra não comeu nenhum, em média cada uma comeu um salgadinho".

Essa frase, que tem relação com a Estatística, não agradou muito àquele que ficou com fome. Ao se fazer a média, há sempre informação que se perde.

A média, apesar de ser uma medida muito usada em Estatística, é muitas vezes insuficiente para caracterizar uma distribuição.

A moda e a mediana também são medidas que não informam muito sobre como as variáveis se alteram. Por isso, foi preciso encontrar outro indicador que informasse sobre a maneira como os dados se distribuem em torno da média.

Exemplo: um empresário deseja comparar o desempenho de dois empregados, com base na produção diária de determinada peça, durante cinco dias.

Empregado A: 70, 71, 69, 70, 70 --> 70

Empregado B: 60, 80, 70, 62, 83 --> 71

O desempenho médio do empregado A é de 70 peças produzidas diariamente, enquanto que a do empregado B é de 71 peças. Com base na média aritmética, verifica-se que o desempenho de B é melhor do que o de A.

No entanto, observando bem os dados, percebe-se que a produção de “A” varia apenas de 69 a 71 peças, ao passo que a de “B” varia de 60 a 83 peças, o que revela que o desempenho de A é bem mais uniforme do que o de B.

Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão.

Dessas medidas, serão destacadas neste estudo a amplitude total, a variância, o desvio padrão e o coeficiente de variação.

7.1 - Amplitude Total

7.1.1 - Dados não-agrupados

A amplitude total é a diferença entre o maior e o menor valor observado: AT = x(máx) – x(mín)

Exemplos:

a) Para os valores: 40, 45, 48, 52, 54, 62 e 70

Tem-se: AT = 70 – 40 = 30

b) Para a situação sugerida anteriormente.

Empregado A: 70, 71, 69, 70, 70 --> AT = 71-69 = 2

Empregado A: 60, 80, 70, 62, 83 --> AT = 83-60 = 23

Resumo:

A amplitude total é a medida mais simples de dispersão.

A desvantagem dessa medida é que leva em conta apenas os valores mínimo e máximo do conjunto. Se ocorrer qualquer variação no conjunto de dados, a amplitude total não nos dá qualquer indicação dessas mudanças.

A amplitude total também sofre a influência de um valor atípico na distribuição (um valor muito elevado ou muito baixo em relação ao conjunto).

7.1.2 - Dados agrupados

7.1.2.1 - Sem intervalos de classe

Neste caso, tem-se: AT = x(máx) – x(mín)

Considerando a tabela abaixo.

$x_i$ 0 1 2 3 4
$f_i$ 2 6 12 7 3

AT = 4 – 0 = 4

7.1.2.2 - Com intervalos de classe

Neste caso, a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe.

AT = L(máx) - l(min)

Considerando a tabela abaixo.

i Estaturas (cm) $f_i$ $F_i$
1 150 |-- 154 4 4
2 154 |-- 158 9 13
3 158 |-- 162 11 24
4 162 |-- 166 8 32
5 166 |-- 170 5 37
6 170 |-- 174 3 40
∑ = 40

AT = 174 – 150 = 24, logo AT = 24 cm.

A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado.

Ela é apenas uma indicação aproximada da dispersão ou variabilidade.

Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido, e quando a compreensão popular é mais importante que a exatidão e a estabilidade.

7.2 - Desvio Médio ($D_m$)

Vamos verificar o desvio do valor que representa a produção diária de cada empregado em relação à média aritmética.

O desvio médio é calculado pela média aritmética dos valores absolutos dos desvios.

Exemplo:

Empregado A: 70, 71, 69, 70, 70

AT = 71 - 69 = 2

Empregado A: 60, 80, 70, 62, 83

AT = 83 - 60 = 23

$D_m$ = $\frac{|70-70|+|71-70|+|69-70|+|70-70|+|70-70|}{5}$ = $\frac{\text{0+1+1+0+0}}{5}$ = $\frac{2}{5}$ = 0,4

$D_m$ = $\frac{|60-71|+|80-71|+|70-71|+|62-71|+|83-71|}{5}$ = $\frac{11+9+1+9+1}{5}$ = $\frac{42}{5}$ = 8,4

Há duas medidas estatísticas, a variância e o desvio padrão, que informam sobre a maior ou menor dispersão dos dados em torno da média.

Para obter essas medidas de dispersão, parte-se da diferença que cada valor tem em relação à média.

Essa diferença chama-se desvio.

O significado do desvio em Estatística é o mesmo atribuído a esse termo na linguagem comum.

Quando se diz, por exemplo, que um navio desviou de sua rota, isso significa que havia um percurso a ser seguido e que o navio se desviou dele.

Em Estatística, considerando a Média Aritmética como referência, ela seria o valor provável para todos os dados, mas eles se desviam da média.

7.3 - Variância ($V_{ar}$)

O desvio médio é uma boa medida de dispersão porque dá a distância média de cada número em relação à média.

No entanto, para muitas finalidades, é mais conveniente elevar ao quadrado cada desvio e tomar a média de todos esses quadrados.

Essa grandeza é chamada variância.

Exemplo:

Empregado A: 70, 71, 69, 70, 70

$\bar{x}$ = 70

Empregado A: 60, 80, 70, 62, 83

$\bar{x}$ = 71

$D_m$ = $\frac{|70-70|^2+|71-70|^2+|69-70|^2+|70-70|^2+|70-70|^2}{5}$ = $\frac{0+1+1+0+0}{5}$ = $\frac{2}{5}$ = 0,4

$D_m$ = $\frac{|60-71|^2+|80-71|^2+|70-71|^2+|62-71|^2+|83-71|^2}{5}$ = $\frac{11^2+9^2+1^2+9^2+12^2}{5}$ = $\frac{121+81+1+81+144}{5}$ = $\frac{428}{5}$ = 85,6

Notas:

  • Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão distante cada valor desse conjunto está do valor central (médio).
  • Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela é, mais os valores estão distantes da média.

Observações:

  • Se os valores dos dados se repetirem na amostra, então a variância da amostra será zero.
  • Se os dados estiverem muito espalhados, então a variância acusará um número positivo elevado. Assim, uma grande variância significa uma grande dispersão dos dados em relação à média.
  • A variância é uma medida que tem pouca utilidade na estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.

7.4 - Desvio Padrão ($D_p$)

A variância é uma boa medida de dispersão, mas tem uma desvantagem: é difícil interpretar o valor numérico da variância.

Uma variância de 85,6 significa uma grande dispersão ou uma pequena dispersão?

Parte do problema se deve à questão das unidades: a variância é medida em uma unidade que é o quadrado da unidade de medida.

Em geral, é mais conveniente calcular a raiz quadrada da variância, chamada desvio padrão.

Quanto maior for o desvio padrão, maior será a heterogeneidade entre os valores que estão sendo analisados.

Isso significa, portanto, que quanto maior for o desvio padrão, maior será a variação entre os valores.

Exemplo:

Empregado A: (70, 71, 69, 70, 70), $\bar{x}$ = 70

Empregado A: (60, 80, 70, 62, 83), $\bar{x}$ = 71

$D_m$ = $\frac{|70-70|^2+|71-70|^2+|69-70|^2+|70-70|^2+|70-70|^2}{5}$ = $\frac{0+1+1+0+0}{5}$ = $\frac{2}{5}$ = 0,4

$D_p$ = $\sqrt{0,4}$ = 0,63

$D_m$ = $\frac{|60-71|^2+|80-71|^2+|70-71|^2+|62-71|^2+|83-71|^2}{5}$ = $\frac{11^2+9^2+1^2+9^2+12^2}{5}$ = $\frac{121+81+1+81+144}{5}$ = $\frac{428}{5}$ = 85,6

$D_p$ = $\sqrt{85,6}$ = 9,25

Observações:

  • Quanto menor o desvio padrão, mais os valores da variável se aproximam de sua média.
  • Quanto maior o desvio padrão, mais significativa a heterogeneidade entre os elementos de um conjunto, ou seja, maior será a variação entre os valores.

7.4.1 - Aplicação prática do desvio padrão

O desvio padrão é um parâmetro muito usado em Estatística e indica o grau de variação de um conjunto de elementos.

Exemplificando:

Se medirmos a temperatura máxima durante três dias em uma cidade e obtivermos os seguintes valores, 28º, 29º e 30º, podemos dizer que a média desses três dias foi 29º.

Em outra cidade, as temperaturas máximas nesses mesmos dias podem ter sido 22º, 29º e 35º. No segundo caso, a média dos três dias também foi 29º.

As médias têm o mesmo valor, mas os moradores da primeira cidade viveram três dias de calor, enquanto os da segunda tiveram dois dias de calor e um de frio.

Para diferenciar uma média da outra, foi criada a noção de desvio padrão, que serve para dizer o quanto os valores dos quais se extraiu a média são próximos ou distantes da própria média.

No exemplo acima, o desvio padrão da segunda cidade é muito maior que o da primeira.

Uma das aplicações mais comuns do desvio padrão é para cálculo da classificação no vestibular.

Se dois candidatos ao mesmo curso tiram nota 7 em provas diferentes, o peso desse resultado vai depender do desvio padrão de cada exame.

Digamos que a média das notas nas duas provas tenha sido 5.

Aquele que obteve 7 na prova cujo desvio padrão foi menor, será mais considerado porque significa que ele conseguiu um 7 em um exame em que quase todo mundo ficou próximo a 5.

Enquanto o outro conquistou um 7 em uma prova na qual muitos outros também tiraram notas altas.

7.4.2 - Aplicação da fórmula de Desvio Padrão

$D_p$ = $\sqrt{V_{ar}}$ = $\sqrt{\frac{\sum_{} (x_i-\bar{x})^2}{n}}$

Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade.

O uso de uma ou de outra dependerá da finalidade que se tenha em vista.

A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.

Se bem que a fórmula dada para o cálculo do desvio seja a que torna mais fácil a sua compreensão, ela não é uma boa fórmula para fins de computação, pois em geral, a média aritmética ($\bar{x}$) é um número fracionário, o que torna pouco prático o cálculo das quantidades $(x_i-\bar{x})^2$.

Os cálculos podem ser simplificados fazendo uso da igualdade:

$\sum_{} (x_i-\bar{x})^2 = \sum_{} x_i^2 - \frac{(\sum_{} x_i)^2}{n}$

Assim, substituindo $\sum_{} (x_i-\bar{x})^2$ por seu equivalente obtém-se:

$D_p$ = $\sqrt{\sum_{} x_i^2 - \frac{(\sum_{} x_i)^2}{n}}$ = $\sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{(\sum_{} x_i)}{n})^2}$

7.4.3 - Desvio Padrão (DP) com Dados Não-Agrupados

Exemplo: Considerar o conjunto de valores da variável x: 40,45, 48, 52, 54, 62,70.

O modo mais prático para se obter o desvio padrão é formar uma tabela com duas colunas: uma para $x_i$ e outra para $x_i^2$. Assim:

$x_i$ $x_i^2$
40 1600
45 2025
48 2304
52 2704
54 2916
62 3844
70 4900
∑ = 371 ∑ = 20293

$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$

Como n = 7, tem–se:

$D_p$ = $\sqrt{\frac{20293}{7} - (\frac{371}{7})^2}$ = $\sqrt{2899 - 53^2}$ = $\sqrt{2899 - 2809}$ = $\sqrt{90}$ = 9,486

Logo, o desvio padrão é 9,49.

7.4.4 - Desvio Padrão (DP) com Dados Agrupados

7.4.4.1 - Sem intervalos de classe

Como, neste caso, tem-se a presença de frequências, deve-se levá-las em consideração, resultando a fórmula:

$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$

Exemplo: considerando a distribuição da tabela abaixo, calcular o desvio padrão.

$x_i$ 0 1 2 3 4
$f_i$ 2 6 12 7 3

O modo mais prático para se calcular o desvio padrão é abrir, na tabela dada, uma coluna para os produtos $f_i x_i$ e outra para $f_i$ $x_i^2$.

Para obter $f_i$ $x_i^2$ multiplique $f_i$ $x_i$ pelo respectivo $x_i$.

Assim:

$x_i$ 0 1 2 3 4
$f_i$ 2 6 12 7 3
$f_i$ $x_i$ 0 6 24 21 12
$f_i$ $x_i^2$ 0 6 48 63 48

$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$ = $\sqrt{\frac{165}{30} - (\frac{65}{30})^2}$ = $\sqrt{5,5 - 4,41}$ = $\sqrt{1,09}$ =1,044

Logo: $D_p = 1,04$

7.4.4.2 - Com intervalos de classe

Exemplo:

Considerando a distribuição da tabela abaixo, calcular o desvio padrão.

i Estaturas (cm) $f_i$ $x_i$ $f_i x_i$ $f_i x_i^2$
1 150 |-- 154 4 152 608 92.416
2 154 |-- 158 9 156 1.404 219.024
3 158 |-- 162 11 160 1.760 281.600
4 162 |-- 166 8 164 1.312 215.168
5 166 |-- 170 5 168 840 141.120
6 170 |-- 174 3 172 516 88.752
∑ = 40 ∑ = 6440 ∑ = 1038080

$D_p$ = $\sqrt{\frac{1038080}{40} - (\frac{6440}{40})^2}$ = $\sqrt{25952-25921}$ = $\sqrt{30}$ = 5,567

Logo, o desvio padrão é 5,57cm.

7.4.5 - Desvio Padrão (DP) pelo processo breve

Baseados na mudança da variável x por outra y, tal que

$y_i$ = $\frac{x_i-x_0}{h}$

pode-se obter um processo breve de cálculo com a aplicação da seguinte fórmula.

$D_p = \sqrt{\frac{\sum_{} f_i y_i^2}{n} - (\frac{\sum_{} f_i x_i}{n})^2}$

Exemplo:

Considerando a distribuição da tabela abaixo, calcular o desvio padrão.

i Estaturas (cm) $f_i$ $x_i$ $y_i$ $f_i y_i$ $f_i y_i^2$
1 150 |-- 154 4 152 -2 -8 16
2 154 |-- 158 9 156 -1 -9 9
3 158 |-- 162 11 160 0 0 0
4 162 |-- 166 8 164 1 8 8
5 166 |-- 170 5 168 2 10 20
6 170 |-- 174 3 172 3 9 27
∑ = 40 ∑ = 10 ∑ = 80

$D_p$ = $4 \times \sqrt{\frac{80}{40} - (\frac{10}{40})^2}$ = $4 \times \sqrt{2-0.0625}$ = $4 \times \sqrt{1,9375}$ = $4 \times 1,3919$ = $5,5676$

Logo: $D_p$ = 5,57 cm.

Fases para o cálculo do desvio padrão pelo processo breve:

  • 1) Abrimos uma coluna para os valores xi (ponto médio).
  • 2) Escolhemos um dos pontos médios (de preferência o de maior frequência) para o valor de x0.
  • 3) Abrimos uma coluna para os valores de y1 e escrevemos zero na linha correspondente a classe onde se encontra o valor de x0; a sequência -1, -2, -3, ..., logo acima do zero, e a sequência 1, 2, 3, ..., logo abaixo.
  • 4) Abrimos uma coluna para os valores do produto fiyi, conservando os sinais + ou -, e, em seguida, somamos algebricamente esses produtos.
  • 5) Abrimos uma coluna para os valores do produto fiyi 2, obtidos multiplicando cada fiyi pelo seu respectivo yi, e, em seguida, somamos esses produtos.
  • 6) Aplicamos a fórmula.

7.5 - Coeficiente de Variação (CV)

O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.

Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.

Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação (CV).

Exemplo:

Considerando a distribuição da tabela abaixo, na qual a média é 161 cm e o desvio padrão é igual a 5,57 cm, calcular o coeficiente de variação (CV).

i Estaturas $f_i$ $x_i$ $y_i$ $f_i y_i$ $f_i (y_i)^2$
2 150 |-- 154 4 152 -2 -8 16
3 154 |-- 158 9 156 -1 -9 9
4 158 |-- 162 11 160 0 0 0
5 162 |-- 166 8 164 1 8 8
6 166 |-- 170 5 168 2 10 20
7 170 |-- 154 3 172 3 9 27
h = 4 ∑ = 40 ∑ = 10 ∑ = 80

CV = $\frac{\text{desvio padrão}}{\text{média}} \times 100$ = $\frac{5,57}{161} \times 100$ = $0,03459 \times 100$ = $3,459$

Logo: CV = 3,5%

Exemplo:

Considerar os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos.

X s
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2 kg

Tem-se:

  • CVestatura = 5 / 175 x 100 = 2,85%
  • CVpeso = 2 / 68 x 100 = 2,94%

Logo, nesse grupo de indivíduos, os valores de peso apresentam maior grau de dispersão do que os valores das estaturas.

Nota:

Se bem que, para qualificar a dispersão de uma distribuição, seja mais proveitoso o coeficiente de variação, não devemos deduzir daí que a variância e o desvio padrão careçam de utilidade.

Pelo contrário, são medidas muito úteis no tratamento de assuntos relativos à inferência estatística.

Observações:

  • O coeficiente de variação fornece a variação dos dados obtidos em relação à média.
  • Quanto menor for o seu valor, mais homogêneos serão os dados.
  • O coeficiente de variação é considerado baixo (apontando um conjunto de dados bem homogêneos) quando for menor ou igual a 25%.
  • O fato de o coeficiente de variação ser dado em valor relativo nos permite comparar séries de valores que apresentam unidades de medida distintas.

Exemplo:

Compare a variabilidade relativa do tempo de reação de um analgésico A com a variabilidade do peso das pessoas que se submeteram à dosagem desse analgésico.

As médias e os desvios padrão foram:

  • Analgésico A: Média = 3 min e DP = 0,71
  • Peso das pessoas: Média = 58,25 kg e DP = 5,17

Solução: Vamos calcular o coeficiente de variação para cada item observado.

Cálculo para o tempo de reação do analgésico.

$CV = 100 \times \frac{0,71}{3} = 23,67\%$

Cálculo para o peso das pessoas.

$CV = 100 \times \frac{5,17}{58,253} = 8,88\%$

Comparando o coeficiente de variação do tempo de reação do analgésico e o do peso das pessoas, podemos concluir que os dados referentes ao peso são mais consistentes que os dados referentes ao tempo de reação do analgésico, ou ainda, que os dados referentes ao peso são mais homogêneos que os do tempo de reação do analgésico.

Observações:

Diz- se que uma distribuição tem:

  • Baixa dispersão: CV <= 15%
  • Média dispersão: 15% < CV <30%
  • Alta dispersão: CV >= 30%

Um coeficiente de variação maior ou igual a 30% revela que a série é heterogênea e a média tem pouco significado.

Se o coeficiente de variação for menor que 30% portanto a série é homogênea e a média tem grande significado.

Arduino
Coautor
Betobyte
Autor
Autores
||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Estatística Básica || Estatística Básica || Estatistica Avançada || Bayes || Aulas | Conceitos Fundamentais (Conceitos fundamentais e compreensão da estatística, tratando da coleta, da análise, da interpretação e da apresentação de massas de dados numéricos, também significando um conjunto de dados numéricos.) | População e Amostra (População e amostra como um conjuntos de objetos, itens ou eventos com alguma característica ou propriedade comum mensurável, ordenável ou comparável de acordo com os limites propostos e objetivos do estudo.) | Séries Estatísticas (Séries estatísticas como distribuição de conjuntos de dados estatísticos em função da época, do local ou da espécie (fenômeno).) | Gráficos Estatísticos (Representação gráfica estabelecendo correspondência entre os termos da série e determinada figura geométrica, de tal modo que cada elemento da série seja representado por uma figura proporcional.) | Distribuição de Frequência (Distribuição de Frequência como conjunto de dados em uma tabela conforme as frequências ou repartições de seus valores, podendo ser discreta ou contínua de uma série estatística em que permanecem constantes o fato, o local e a época em que o fenômeno ocorreu.) | Medidas de Posição (Medidas de posição com a localização da maior concentração de valores de uma distribuição, isto é, se ela se localiza no início, no meio ou no final, ou, ainda, se há uma distribuição por igual.) | Medidas de Dispersão (Medidas de dispersão ou variabilidade empregadas na descoberta do grau de variabilidade ou dispersão dos valores observados em torno da média aritmética, medindo a representatividade da média e destacam o nível de homogeneidade ou heterogeneidade dentro de cada grupo estatístico analisado.) | Medidas de Assimetria/Curtose (Medidas de forma por descreverem a forma da curva de distribuição dos dados, indicando o grau de assimetria de uma distribuição de frequências unimodal em relação a uma linha vertical que passa por seu ponto mais elevado ou o grau de achatamento de uma distribuição em relação a distribuição padrão denominada curva normal.) | Probabilidade (O cálculo de probabilidades é uma necessidade essencial para o estudo de Estatística Indutiva (ou Inferencial) pelo fato de a maioria dos fenômenos tratados na Estatística serem de natureza aleatória ou probabilística.) | Distribuição Binomial (A probabilidade de ocorrerem k sucessos e (n–k) fracassos dada pelo termo geral do Binômio de Newton.) |