9 - Scikit-learn, uma Biblioteca de ML em Python

Scikit-learn é uma biblioteca poderosa e amplamente utilizada para aprendizado de máquina em Python. Ela oferece uma vasta gama de algoritmos de modelagem, ferramentas de pré-processamento, e funções de avaliação de modelos.

Exemplo: Treinar e avaliar um modelo de regressão linear e um modelo de classificação usando Scikit-learn

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score

# Regressão Linear
# Criar um DataFrame de exemplo para regressão
data_reg = {
    'idade'   : [25, 30, 45, 40, 50],
    'salario' : [50000, 54000, 61000, 58000, 62000]}
df_reg = pd.DataFrame(data_reg)

# Definir variáveis independentes e dependentes
X_reg = df_reg[['idade']]
y_reg = df_reg['salario']

# Dividir os dados em conjuntos de treinamento e teste
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

# Treinar um modelo de regressão linear
modelo_reg = LinearRegression()
modelo_reg.fit(X_train_reg, y_train_reg)

# Fazer previsões e avaliar o modelo
y_pred_reg = modelo_reg.predict(X_test_reg)
erro_quadratico_medio = mean_squared_error(y_test_reg, y_pred_reg)
print(f'Mean Squared Error (Regressão Linear): {erro_quadratico_medio}')

# Classificação Logística
# Criar um DataFrame de exemplo para classificação
data_clf = {'idade': [25, 30, 45, 40, 50], 'renda': [20000, 30000, 50000, 40000, 60000], 'compra': [0, 0, 1, 0, 1]}
df_clf = pd.DataFrame(data_clf)

# Definir variáveis independentes e dependentes
X_clf = df_clf[['idade', 'renda']]
y_clf = df_clf['compra']

# Dividir os dados em conjuntos de treinamento e teste
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X_clf, y_clf, test_size=0.2, random_state=42)

# Treinar um modelo de classificação logística
modelo_clf = LogisticRegression()
modelo_clf.fit(X_train_clf, y_train_clf)

# Fazer previsões e avaliar o modelo
y_pred_clf = modelo_clf.predict(X_test_clf)
accuracy = accuracy_score(y_test_clf, y_pred_clf)
print(f'Accuracy (Classificação Logística): {accuracy}')

Mean Squared Error (Regressão Linear): 1562500.0
Accuracy (Classificação Logística): 1.0

Arduino

Coautor

Betobyte

Autor

Autores

||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Python com ML Básico || Python para Iniciantes || Python Básico || Matplotlib || Numpy || Seaborn || Pandas || Django || Estatística para Cientistas de Dados || Python com ML Básico || Python com ML Básico || Aulas | Introdução (Introdução) | Guia Rápido do Python (Guia Rápido do Python) | Aprendizado (Aprendizado supervisionado, não supervisionado e por reforço) | Modelos (Modelos de Regressão e Classificação) | Agrupamento (Algoritmos de Agrupamento) | Pre-processamento de Dados (Pré-processamento de dados e técnicas de engenharia de características) | Métricas (Métricas de avaliação para modelos de ML) | Treinamento e Avaliação (Funções para pré-processamento de dados, treinamento de modelos e avaliação) | Seaborn e Matplotlib (Seaborn e Matplotlib para visualização) | Pandas (Pandas para processamento) | Scikit-learn (Scikit-learn, uma biblioteca de ML em Python) | R (Pacotes dplyr, caret e vip para R) | Emsemble e RNA (Métodos de ensemble e redes neurais artificiais) | Aplicações (Aplicações de aprendizado de máquina) | Matemática (Fundamentos matemáticos para ML) | Otimização (Métodos de otimização e treinamento de modelos) | Problemas Comuns (Problemas comuns de ML e MLOps) | Ferramentas de Nuvem (Ferramentas baseadas em nuvem como GCP, AWS e Microsoft Azure) | Frameworks e Bibliotecas DL (Ferramentas de MLOps de código aberto como MLflow) | Ajustes de Hiperparâmetros (Técnicas de ajuste de hiperparâmetros como grid search e random search) | Frameworks e Biblioteca DL (Frameworks e bibliotecas de deep learning como PyTorch e TensorFlow) | Implementação (Implementar soluções de ML com conjuntos de dados do mundo real) | NLP (Visão computacional e Processamento de Linguagem Natural (NLP)) | Arquiteturas DL (Arquiteturas avançadas de deep learning como RNNs e GANs) | Arquiteturas LLM (Arquiteturas de transformadores em LLMs (BERT e GPT)) | Design (Design de aprendizado por reforço e RAG) | Ciclo de Vida de MLOps (Ciclo de vida de MLOps e últimas tendências de pesquisa em ML) | Provedores (Provedores de nuvem e ferramentas de código aberto para ciclo de vida completo de MLOps) | Frameworks RL (Frameworks de aprendizado por reforço como OpenAI Gym) | Ferramentas LLM (Langchain e ferramentas similares para LLMs customizados) | Repositórios LLKM (Desenvolver ou usar LLMs de repositórios como Hugging Face) | Arquitetura DL (Arquiteturas de deep learning com TensorFlow / PyTorch) |