23 - Arquiteturas de Transformadores em LLMs (BERT e GPT)

Transformadores são a base de muitos dos modelos de linguagem de última geração, como BERT e GPT. Eles são altamente eficientes para tarefas de NLP devido à sua capacidade de capturar dependências de longo alcance no texto.

Exemplo: Usar BERT para Classificação de Texto

from transformers import BertTokenizer, TFBertForSequenceClassification
from transformers import glue_convert_examples_to_features, glue_processors
import tensorflow as tf

# Carregar o modelo e o tokenizador BERT pré-treinados
modelo = TFBertForSequenceClassification.from_pretrained('bert-base-uncased')
tokenizador = BertTokenizer.from_pretrained('bert-base-uncased')

# Exemplo de dados
sentencas = ["I love this!", "I hate this!"]
rotulos = [1, 0]

# Tokenizar as entradas
ids_entrada = []
mascaras_atencao = []

for enviado in sentencas:
    dict_codificado = tokenizador.encode_plus(
        enviado,
        add_special_tokens = True,
        max_length = 64,
        pad_to_max_length = True,
        return_attention_mask = True,
        return_tensors = 'tf'
    )
    
    ids_entrada.append(dict_codificado['ids_entrada'])
    mascaras_atencao.append(dict_codificado['attention_mask'])

ids_entrada = tf.concat(ids_entrada, axis=0)
mascaras_atencao = tf.concat(mascaras_atencao, axis=0)
rotulos = tf.convert_to_tensor(rotulos)

# Treinar o modelo
otimizador = tf.keras.optimizers.Adam(learning_rate=2e-5, epsilon=1e-8)
perda = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
modelo.compile(optimizer=otimizador, loss=perda, metrics=['accuracy'])

modelo.fit(
    [ids_entrada, mascaras_atencao],
    rotulos,
    epochs=4,
    batch_size=8
)

# Avaliar o modelo
perda, acuracia = modelo.evaluate([ids_entrada, mascaras_atencao], rotulos)
print(f'Acurâcia: {acuracia}')

KeyError: 'ids_entrada' <traceback object at 0x0000018D53334BC0>

Arduino

Coautor

Betobyte

Autor

Autores

||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Python com ML Básico || Python para Iniciantes || Python Básico || Matplotlib || Numpy || Seaborn || Pandas || Django || Estatística para Cientistas de Dados || Python com ML Básico || Python com ML Básico || Aulas | Introdução (Introdução) | Guia Rápido do Python (Guia Rápido do Python) | Aprendizado (Aprendizado supervisionado, não supervisionado e por reforço) | Modelos (Modelos de Regressão e Classificação) | Agrupamento (Algoritmos de Agrupamento) | Pre-processamento de Dados (Pré-processamento de dados e técnicas de engenharia de características) | Métricas (Métricas de avaliação para modelos de ML) | Treinamento e Avaliação (Funções para pré-processamento de dados, treinamento de modelos e avaliação) | Seaborn e Matplotlib (Seaborn e Matplotlib para visualização) | Pandas (Pandas para processamento) | Scikit-learn (Scikit-learn, uma biblioteca de ML em Python) | R (Pacotes dplyr, caret e vip para R) | Emsemble e RNA (Métodos de ensemble e redes neurais artificiais) | Aplicações (Aplicações de aprendizado de máquina) | Matemática (Fundamentos matemáticos para ML) | Otimização (Métodos de otimização e treinamento de modelos) | Problemas Comuns (Problemas comuns de ML e MLOps) | Ferramentas de Nuvem (Ferramentas baseadas em nuvem como GCP, AWS e Microsoft Azure) | Frameworks e Bibliotecas DL (Ferramentas de MLOps de código aberto como MLflow) | Ajustes de Hiperparâmetros (Técnicas de ajuste de hiperparâmetros como grid search e random search) | Frameworks e Biblioteca DL (Frameworks e bibliotecas de deep learning como PyTorch e TensorFlow) | Implementação (Implementar soluções de ML com conjuntos de dados do mundo real) | NLP (Visão computacional e Processamento de Linguagem Natural (NLP)) | Arquiteturas DL (Arquiteturas avançadas de deep learning como RNNs e GANs) | Arquiteturas LLM (Arquiteturas de transformadores em LLMs (BERT e GPT)) | Design (Design de aprendizado por reforço e RAG) | Ciclo de Vida de MLOps (Ciclo de vida de MLOps e últimas tendências de pesquisa em ML) | Provedores (Provedores de nuvem e ferramentas de código aberto para ciclo de vida completo de MLOps) | Frameworks RL (Frameworks de aprendizado por reforço como OpenAI Gym) | Ferramentas LLM (Langchain e ferramentas similares para LLMs customizados) | Repositórios LLKM (Desenvolver ou usar LLMs de repositórios como Hugging Face) | Arquitetura DL (Arquiteturas de deep learning com TensorFlow / PyTorch) |