As medidas de dispersão ou variabilidade são empregadas para descobrir o grau de variabilidade ou dispersão dos valores observados em torno da média aritmética.
Servem para medir a representatividade da média e destacam o nível de homogeneidade ou heterogeneidade dentro de cada grupo estatístico analisado.
Quando se trata de interpretar dados estatísticos é necessário ter-se uma ideia retrospectiva de como se apresentavam esses mesmos dados nas tabelas.
Assim, não é o bastante dar uma das medidas de posição para caracterizar perfeitamente um conjunto de valores.
“Se uma pessoa comeu dois salgadinhos e outra não comeu nenhum, em média cada uma comeu um salgadinho".
Essa frase, que tem relação com a Estatística, não agradou muito àquele que ficou com fome. Ao se fazer a média, há sempre informação que se perde.
A média, apesar de ser uma medida muito usada em Estatística, é muitas vezes insuficiente para caracterizar uma distribuição.
A moda e a mediana também são medidas que não informam muito sobre como as variáveis se alteram. Por isso, foi preciso encontrar outro indicador que informasse sobre a maneira como os dados se distribuem em torno da média.
Exemplo: um empresário deseja comparar o desempenho de dois empregados, com base na produção diária de determinada peça, durante cinco dias.
Empregado A: 70, 71, 69, 70, 70 --> 70
Empregado B: 60, 80, 70, 62, 83 --> 71
O desempenho médio do empregado A é de 70 peças produzidas diariamente, enquanto que a do empregado B é de 71 peças. Com base na média aritmética, verifica-se que o desempenho de B é melhor do que o de A.
No entanto, observando bem os dados, percebe-se que a produção de “A” varia apenas de 69 a 71 peças, ao passo que a de “B” varia de 60 a 83 peças, o que revela que o desempenho de A é bem mais uniforme do que o de B.
Portanto, para qualificar os valores de uma dada variável, ressaltando a maior ou menor dispersão ou variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão.
Dessas medidas, serão destacadas neste estudo a amplitude total, a variância, o desvio padrão e o coeficiente de variação.
A amplitude total é a diferença entre o maior e o menor valor observado: AT = x(máx) – x(mín) |
Exemplos:
a) Para os valores: 40, 45, 48, 52, 54, 62 e 70
Tem-se: AT = 70 – 40 = 30
b) Para a situação sugerida anteriormente.
Empregado A: 70, 71, 69, 70, 70 --> AT = 71-69 = 2
Empregado A: 60, 80, 70, 62, 83 --> AT = 83-60 = 23
Resumo:
A amplitude total é a medida mais simples de dispersão.
A desvantagem dessa medida é que leva em conta apenas os valores mínimo e máximo do conjunto. Se ocorrer qualquer variação no conjunto de dados, a amplitude total não nos dá qualquer indicação dessas mudanças.
A amplitude total também sofre a influência de um valor atípico na distribuição (um valor muito elevado ou muito baixo em relação ao conjunto).
Neste caso, tem-se: AT = x(máx) – x(mín)
Considerando a tabela abaixo.
$x_i$ | 0 | 1 | 2 | 3 | 4 |
$f_i$ | 2 | 6 | 12 | 7 | 3 |
AT = 4 – 0 = 4
Neste caso, a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe.
AT = L(máx) - l(min)
Considerando a tabela abaixo.
i | Estaturas (cm) | $f_i$ | $F_i$ |
---|---|---|---|
1 | 150 |-- 154 | 4 | 4 |
2 | 154 |-- 158 | 9 | 13 |
3 | 158 |-- 162 | 11 | 24 |
4 | 162 |-- 166 | 8 | 32 |
5 | 166 |-- 170 | 5 | 37 |
6 | 170 |-- 174 | 3 | 40 |
∑ = 40 |
AT = 174 – 150 = 24, logo AT = 24 cm.
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários, o que quase sempre invalida a idoneidade do resultado.
Ela é apenas uma indicação aproximada da dispersão ou variabilidade.
Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia ou no ano, no controle de qualidade ou como uma medida de cálculo rápido, e quando a compreensão popular é mais importante que a exatidão e a estabilidade.
Vamos verificar o desvio do valor que representa a produção diária de cada empregado em relação à média aritmética.
O desvio médio é calculado pela média aritmética dos valores absolutos dos desvios.
Exemplo:
Empregado A: 70, 71, 69, 70, 70
AT = 71 - 69 = 2
Empregado A: 60, 80, 70, 62, 83
AT = 83 - 60 = 23
$D_m$ = $\frac{|70-70|+|71-70|+|69-70|+|70-70|+|70-70|}{5}$ = $\frac{\text{0+1+1+0+0}}{5}$ = $\frac{2}{5}$ = 0,4
$D_m$ = $\frac{|60-71|+|80-71|+|70-71|+|62-71|+|83-71|}{5}$ = $\frac{11+9+1+9+1}{5}$ = $\frac{42}{5}$ = 8,4
Há duas medidas estatísticas, a variância e o desvio padrão, que informam sobre a maior ou menor dispersão dos dados em torno da média.
Para obter essas medidas de dispersão, parte-se da diferença que cada valor tem em relação à média.
Essa diferença chama-se desvio.
O significado do desvio em Estatística é o mesmo atribuído a esse termo na linguagem comum.
Quando se diz, por exemplo, que um navio desviou de sua rota, isso significa que havia um percurso a ser seguido e que o navio se desviou dele.
Em Estatística, considerando a Média Aritmética como referência, ela seria o valor provável para todos os dados, mas eles se desviam da média.
O desvio médio é uma boa medida de dispersão porque dá a distância média de cada número em relação à média.
No entanto, para muitas finalidades, é mais conveniente elevar ao quadrado cada desvio e tomar a média de todos esses quadrados.
Essa grandeza é chamada variância.
Exemplo:
Empregado A: 70, 71, 69, 70, 70
$\bar{x}$ = 70
Empregado A: 60, 80, 70, 62, 83
$\bar{x}$ = 71
$D_m$ = $\frac{|70-70|^2+|71-70|^2+|69-70|^2+|70-70|^2+|70-70|^2}{5}$ = $\frac{0+1+1+0+0}{5}$ = $\frac{2}{5}$ = 0,4
$D_m$ = $\frac{|60-71|^2+|80-71|^2+|70-71|^2+|62-71|^2+|83-71|^2}{5}$ = $\frac{11^2+9^2+1^2+9^2+12^2}{5}$ = $\frac{121+81+1+81+144}{5}$ = $\frac{428}{5}$ = 85,6
Notas:
Observações:
A variância é uma boa medida de dispersão, mas tem uma desvantagem: é difícil interpretar o valor numérico da variância.
Uma variância de 85,6 significa uma grande dispersão ou uma pequena dispersão?
Parte do problema se deve à questão das unidades: a variância é medida em uma unidade que é o quadrado da unidade de medida.
Em geral, é mais conveniente calcular a raiz quadrada da variância, chamada desvio padrão.
Quanto maior for o desvio padrão, maior será a heterogeneidade entre os valores que estão sendo analisados.
Isso significa, portanto, que quanto maior for o desvio padrão, maior será a variação entre os valores.
Exemplo:
Empregado A: (70, 71, 69, 70, 70), $\bar{x}$ = 70
Empregado A: (60, 80, 70, 62, 83), $\bar{x}$ = 71
$D_m$ = $\frac{|70-70|^2+|71-70|^2+|69-70|^2+|70-70|^2+|70-70|^2}{5}$ = $\frac{0+1+1+0+0}{5}$ = $\frac{2}{5}$ = 0,4
$D_p$ = $\sqrt{0,4}$ = 0,63
$D_m$ = $\frac{|60-71|^2+|80-71|^2+|70-71|^2+|62-71|^2+|83-71|^2}{5}$ = $\frac{11^2+9^2+1^2+9^2+12^2}{5}$ = $\frac{121+81+1+81+144}{5}$ = $\frac{428}{5}$ = 85,6
$D_p$ = $\sqrt{85,6}$ = 9,25
Observações:
O desvio padrão é um parâmetro muito usado em Estatística e indica o grau de variação de um conjunto de elementos.
Exemplificando:
Se medirmos a temperatura máxima durante três dias em uma cidade e obtivermos os seguintes valores, 28º, 29º e 30º, podemos dizer que a média desses três dias foi 29º.
Em outra cidade, as temperaturas máximas nesses mesmos dias podem ter sido 22º, 29º e 35º. No segundo caso, a média dos três dias também foi 29º.
As médias têm o mesmo valor, mas os moradores da primeira cidade viveram três dias de calor, enquanto os da segunda tiveram dois dias de calor e um de frio.
Para diferenciar uma média da outra, foi criada a noção de desvio padrão, que serve para dizer o quanto os valores dos quais se extraiu a média são próximos ou distantes da própria média.
No exemplo acima, o desvio padrão da segunda cidade é muito maior que o da primeira.
Uma das aplicações mais comuns do desvio padrão é para cálculo da classificação no vestibular.
Se dois candidatos ao mesmo curso tiram nota 7 em provas diferentes, o peso desse resultado vai depender do desvio padrão de cada exame.
Digamos que a média das notas nas duas provas tenha sido 5.
Aquele que obteve 7 na prova cujo desvio padrão foi menor, será mais considerado porque significa que ele conseguiu um 7 em um exame em que quase todo mundo ficou próximo a 5.
Enquanto o outro conquistou um 7 em uma prova na qual muitos outros também tiraram notas altas.
$D_p$ = $\sqrt{V_{ar}}$ = $\sqrt{\frac{\sum_{} (x_i-\bar{x})^2}{n}}$
Tanto o desvio padrão como a variância são usados como medidas de dispersão ou variabilidade.
O uso de uma ou de outra dependerá da finalidade que se tenha em vista.
A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.
Se bem que a fórmula dada para o cálculo do desvio seja a que torna mais fácil a sua compreensão, ela não é uma boa fórmula para fins de computação, pois em geral, a média aritmética ($\bar{x}$) é um número fracionário, o que torna pouco prático o cálculo das quantidades $(x_i-\bar{x})^2$.
Os cálculos podem ser simplificados fazendo uso da igualdade:
$\sum_{} (x_i-\bar{x})^2 = \sum_{} x_i^2 - \frac{(\sum_{} x_i)^2}{n}$
Assim, substituindo $\sum_{} (x_i-\bar{x})^2$ por seu equivalente obtém-se:
$D_p$ = $\sqrt{\sum_{} x_i^2 - \frac{(\sum_{} x_i)^2}{n}}$ = $\sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{(\sum_{} x_i)}{n})^2}$
Exemplo: Considerar o conjunto de valores da variável x: 40,45, 48, 52, 54, 62,70.
O modo mais prático para se obter o desvio padrão é formar uma tabela com duas colunas: uma para $x_i$ e outra para $x_i^2$. Assim:
$x_i$ | $x_i^2$ |
---|---|
40 | 1600 |
45 | 2025 |
48 | 2304 |
52 | 2704 |
54 | 2916 |
62 | 3844 |
70 | 4900 |
∑ = 371 | ∑ = 20293 |
$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$
Como n = 7, tem–se:
$D_p$ = $\sqrt{\frac{20293}{7} - (\frac{371}{7})^2}$ = $\sqrt{2899 - 53^2}$ = $\sqrt{2899 - 2809}$ = $\sqrt{90}$ = 9,486
Logo, o desvio padrão é 9,49.
Como, neste caso, tem-se a presença de frequências, deve-se levá-las em consideração, resultando a fórmula:
$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$
Exemplo: considerando a distribuição da tabela abaixo, calcular o desvio padrão.
$x_i$ | 0 | 1 | 2 | 3 | 4 |
$f_i$ | 2 | 6 | 12 | 7 | 3 |
O modo mais prático para se calcular o desvio padrão é abrir, na tabela dada, uma coluna para os produtos $f_i x_i$ e outra para $f_i$ $x_i^2$.
Para obter $f_i$ $x_i^2$ multiplique $f_i$ $x_i$ pelo respectivo $x_i$.
Assim:
$x_i$ | 0 | 1 | 2 | 3 | 4 |
$f_i$ | 2 | 6 | 12 | 7 | 3 |
$f_i$ $x_i$ | 0 | 6 | 24 | 21 | 12 |
$f_i$ $x_i^2$ | 0 | 6 | 48 | 63 | 48 |
$D_p = \sqrt{\frac{\sum_{} x_i^2}{n} - (\frac{\sum_{} x_i}{n})^2}$ = $\sqrt{\frac{165}{30} - (\frac{65}{30})^2}$ = $\sqrt{5,5 - 4,41}$ = $\sqrt{1,09}$ =1,044
Logo: $D_p = 1,04$
Exemplo:
Considerando a distribuição da tabela abaixo, calcular o desvio padrão.
i | Estaturas (cm) | $f_i$ | $x_i$ | $f_i x_i$ | $f_i x_i^2$ |
---|---|---|---|---|---|
1 | 150 |-- 154 | 4 | 152 | 608 | 92.416 |
2 | 154 |-- 158 | 9 | 156 | 1.404 | 219.024 |
3 | 158 |-- 162 | 11 | 160 | 1.760 | 281.600 |
4 | 162 |-- 166 | 8 | 164 | 1.312 | 215.168 |
5 | 166 |-- 170 | 5 | 168 | 840 | 141.120 |
6 | 170 |-- 174 | 3 | 172 | 516 | 88.752 |
∑ = 40 | ∑ = 6440 | ∑ = 1038080 |
$D_p$ = $\sqrt{\frac{1038080}{40} - (\frac{6440}{40})^2}$ = $\sqrt{25952-25921}$ = $\sqrt{30}$ = 5,567
Logo, o desvio padrão é 5,57cm.
Baseados na mudança da variável x por outra y, tal que
$y_i$ = $\frac{x_i-x_0}{h}$
pode-se obter um processo breve de cálculo com a aplicação da seguinte fórmula.
$D_p = \sqrt{\frac{\sum_{} f_i y_i^2}{n} - (\frac{\sum_{} f_i x_i}{n})^2}$
Exemplo:
Considerando a distribuição da tabela abaixo, calcular o desvio padrão.
i | Estaturas (cm) | $f_i$ | $x_i$ | $y_i$ | $f_i y_i$ | $f_i y_i^2$ |
---|---|---|---|---|---|---|
1 | 150 |-- 154 | 4 | 152 | -2 | -8 | 16 |
2 | 154 |-- 158 | 9 | 156 | -1 | -9 | 9 |
3 | 158 |-- 162 | 11 | 160 | 0 | 0 | 0 |
4 | 162 |-- 166 | 8 | 164 | 1 | 8 | 8 |
5 | 166 |-- 170 | 5 | 168 | 2 | 10 | 20 |
6 | 170 |-- 174 | 3 | 172 | 3 | 9 | 27 |
∑ = 40 | ∑ = 10 | ∑ = 80 |
$D_p$ = $4 \times \sqrt{\frac{80}{40} - (\frac{10}{40})^2}$ = $4 \times \sqrt{2-0.0625}$ = $4 \times \sqrt{1,9375}$ = $4 \times 1,3919$ = $5,5676$
Logo: $D_p$ = 5,57 cm.
Fases para o cálculo do desvio padrão pelo processo breve:
O desvio padrão por si só não nos diz muita coisa. Assim, um desvio padrão de duas unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada coeficiente de variação (CV).
Exemplo:
Considerando a distribuição da tabela abaixo, na qual a média é 161 cm e o desvio padrão é igual a 5,57 cm, calcular o coeficiente de variação (CV).
i | Estaturas | $f_i$ | $x_i$ | $y_i$ | $f_i y_i$ | $f_i (y_i)^2$ |
---|---|---|---|---|---|---|
2 | 150 |-- 154 | 4 | 152 | -2 | -8 | 16 |
3 | 154 |-- 158 | 9 | 156 | -1 | -9 | 9 |
4 | 158 |-- 162 | 11 | 160 | 0 | 0 | 0 |
5 | 162 |-- 166 | 8 | 164 | 1 | 8 | 8 |
6 | 166 |-- 170 | 5 | 168 | 2 | 10 | 20 |
7 | 170 |-- 154 | 3 | 172 | 3 | 9 | 27 |
h = 4 | ∑ = 40 | ∑ = 10 | ∑ = 80 |
CV = $\frac{\text{desvio padrão}}{\text{média}} \times 100$ = $\frac{5,57}{161} \times 100$ = $0,03459 \times 100$ = $3,459$
Logo: CV = 3,5%
Exemplo:
Considerar os resultados das medidas das estaturas e dos pesos de um mesmo grupo de indivíduos.
X | s | |
ESTATURAS | 175 cm | 5,0 cm |
PESOS | 68 kg | 2 kg |
Tem-se:
Logo, nesse grupo de indivíduos, os valores de peso apresentam maior grau de dispersão do que os valores das estaturas.
Nota:
Se bem que, para qualificar a dispersão de uma distribuição, seja mais proveitoso o coeficiente de variação, não devemos deduzir daí que a variância e o desvio padrão careçam de utilidade.
Pelo contrário, são medidas muito úteis no tratamento de assuntos relativos à inferência estatística.
Observações:
Exemplo:
Compare a variabilidade relativa do tempo de reação de um analgésico A com a variabilidade do peso das pessoas que se submeteram à dosagem desse analgésico.
As médias e os desvios padrão foram:
Solução: Vamos calcular o coeficiente de variação para cada item observado.
Cálculo para o tempo de reação do analgésico.
$CV = 100 \times \frac{0,71}{3} = 23,67\%$
Cálculo para o peso das pessoas.
$CV = 100 \times \frac{5,17}{58,253} = 8,88\%$
Comparando o coeficiente de variação do tempo de reação do analgésico e o do peso das pessoas, podemos concluir que os dados referentes ao peso são mais consistentes que os dados referentes ao tempo de reação do analgésico, ou ainda, que os dados referentes ao peso são mais homogêneos que os do tempo de reação do analgésico.
Observações:
Diz- se que uma distribuição tem:
Um coeficiente de variação maior ou igual a 30% revela que a série é heterogênea e a média tem pouco significado.
Se o coeficiente de variação for menor que 30% portanto a série é homogênea e a média tem grande significado.