Pandas
Carregando, aguarde alguns segundos.

5 - Correlações de dados

O método corr() encontra relacionamentos entre as colunas, combinando as númericas duas a duas, até combinar todos os pares possíveis, calculando a relação entre as coluna em seu conjunto de dados.

Baixe o arquivo dados6.csv, utilizado nos exemplos.

Mostre a relação entre as colunas:

import pandas as pd
df = pd.read_csv('dados6.csv')
print("------ dados")
print(df.to_string())
print()
print("------ correlações")
print(df.corr())

Note que o métodos corr() considera apenas as colunas de valores numéricos.

5.1 - Resultado explicado

O método corr() retorna uma tabela com linhas e colunas de números que representam o relacionamento entre duas colunas, em que quanto maior o valor, maior o relacionamento entre as colunas.

  • O número varia de -1 a 1.
  • 1 significa que existe uma relação de 1 para 1 (uma correlação perfeita), e para este conjunto de dados, cada vez que um valor subiu na primeira coluna, o outro também subiu.
  • 0,9 também é uma boa relação, e se você aumentar um valor, o outro provavelmente aumentará também.
  • -0,9 seria uma relação tão boa quanto 0,9, mas se você aumentar um valor, o outro provavelmente diminuirá.
  • 0,2 significa NÃO um bom relacionamento, o que significa que se um valor subir não significa que o outro subirá.

Uma boa correlação depende da aplicação, mas é seguro afirmar ser necessário um valor a partir de 0.6 (ou -0.6) para chamar de boa correlação.

  • Correlação Perfeita: O valor 1.0 da mesma coluna, como "Duracao" e "Duracao", indica uma relação perfeita consigo mesma.
  • Boa correlação: a correlação entre "Duracao" e "Calorias" é boa com alto valorigual a 0,88. Podemos prever que quanto mais você treina, mais calorias você queima. E vice-versa: se você queimou muitas calorias, você provavelmente teve um longo treino.
  • Correlação ruim: a correlação entre "Duracao" e "Pulsomax" é ruim com baixo valor igual a 0,02. Isto significa que não podemos prever o pulso máximo apenas observando a duração do treino e vice-versa.
Arduino
Coautor
Betobyte
Autor
Autores
||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Pandas || Python para Iniciantes || Python Básico || Matplotlib || Numpy || Seaborn || Pandas || Django || Estatística para Cientistas de Dados || Python com ML Básico || Python com ML Básico || Aulas | Introdução (introdução) | Series (Series) | Dataframes (Dataframes) | Limpeza (limpeza) | Correlações (correlações) | Plotagem Pandas (plotagem pandas) | Seleções Pandas (Seleções pandas) | Pandas x SQL (Pandas x SQL) |