Estatistica Avançada
Carregando, aguarde alguns segundos.

15 - Métodos não paramétricos

15.1 Testes de hipóteses não paramétricos

15.2 Estimação de densidade e regressão não paramétrica

15.3 Métodos de bootstrap não paramétrico

15.4 Árvores de decisão e florestas aleatórias

15.5 Métodos não paramétricos avançados

Os métodos não paramétricos desempenham um papel fundamental na análise estatística quando as suposições sobre a distribuição dos dados não podem ser atendidas ou quando os modelos paramétricos são limitados em sua flexibilidade.

Esses métodos oferecem uma abordagem mais flexível e robusta para a análise de dados, permitindo que sejam aplicados em uma ampla variedade de cenários:

  • Os testes de hipóteses não paramétricos são utilizados quando não se pode assumir uma distribuição específica dos dados. Eles são baseados em estatísticas que não dependem de suposições sobre a forma da distribuição subjacente e são amplamente utilizados quando os dados não seguem uma distribuição normal. Esses testes permitem realizar inferências estatísticas sobre as diferenças entre grupos, associações entre variáveis e outras questões de interesse.
  • A estimação de densidade e regressão não paramétrica é útil quando se deseja obter uma estimativa da distribuição dos dados ou do relacionamento entre variáveis sem fazer suposições específicas sobre a forma funcional da relação. Esses métodos permitem estimar a função de densidade dos dados ou ajustar uma curva não paramétrica aos dados, fornecendo informações sobre as características gerais da distribuição ou sobre a relação entre as variáveis.
  • Os métodos de bootstrap não paramétrico são técnicas de reamostragem que permitem estimar a distribuição de um estimador sem assumir uma forma específica para a distribuição dos dados. Esses métodos são úteis para fornecer intervalos de confiança robustos e realizar testes de hipóteses quando as suposições paramétricas não podem ser atendidas.
  • As árvores de decisão e as florestas aleatórias são métodos não paramétricos de aprendizado de máquina que são amplamente utilizados em problemas de classificação e regressão. Esses métodos baseiam-se na construção de uma sequência de regras de decisão com base nas características dos dados, sem a necessidade de especificar um modelo paramétrico. Eles são flexíveis, adaptáveis e podem lidar com conjuntos de dados complexos, tornando-se ferramentas poderosas para análise e previsão.
  • Além dos métodos mencionados, existem muitos outros métodos não paramétricos avançados que podem ser aplicados em diferentes contextos, como métodos de classificação não paramétrica, análise de sobrevivência não paramétrica, entre outros.

Esses métodos oferecem abordagens flexíveis e robustas para a análise de dados, permitindo que sejam exploradas as relações e padrões nos dados sem depender de suposições paramétricas restritivas.

15.1 - Testes de hipóteses não paramétricos

Os testes de hipóteses não paramétricos são procedimentos estatísticos que não fazem suposições específicas sobre a distribuição dos dados ou sobre a forma funcional da relação entre as variáveis.

Eles são utilizados quando as suposições dos testes paramétricos tradicionais não podem ser atendidas, seja devido à falta de informações sobre a distribuição dos dados ou devido a dados que não seguem uma distribuição específica.

Esses testes são baseados em estatísticas que não dependem de suposições sobre a distribuição subjacente dos dados, como a normalidade.

Em vez disso, eles usam métodos de permutação, reamostragem ou estatísticas baseadas em ordem dos dados para realizar a inferência estatística.

Existem vários testes não paramétricos amplamente utilizados.

Alguns exemplos incluem:

  • Teste de Mann-Whitney: é usado para comparar duas amostras independentes e testar se elas vêm da mesma população ou têm distribuições iguais.
  • Teste de Wilcoxon: também conhecido como teste de sinais, é usado para comparar duas amostras relacionadas ou pareadas, testando se há diferença significativa entre as medições em pares.
  • Teste de Kruskal-Wallis: é uma extensão do teste de Mann-Whitney e é usado para comparar três ou mais amostras independentes.
  • Teste de Friedman: é uma extensão do teste de Wilcoxon para três ou mais amostras relacionadas.
  • Teste de Qui-quadrado: é utilizado para testar a independência ou associação entre duas variáveis categóricas.

Esses são apenas alguns exemplos de testes não paramétricos, e a escolha do teste adequado depende da natureza dos dados e da pergunta de pesquisa em questão.

Os testes não paramétricos fornecem uma abordagem flexível para a análise de dados quando as suposições paramétricas não podem ser satisfeitas, permitindo que sejam feitas inferências estatísticas robustas em uma ampla gama de situações.

15.1.1 - Tipos de testes de hipóteses não paramétricos

Os testes de hipóteses não paramétricos são procedimentos estatísticos que não dependem de pressuposições específicas sobre a distribuição dos dados.

Eles são úteis quando os dados não atendem aos pressupostos dos testes paramétricos tradicionais.

Aqui estão alguns tipos comuns de testes de hipóteses não paramétricos:

  • Teste de Mann-Whitney: também conhecido como teste U de Mann-Whitney ou teste de Wilcoxon-Mann-Whitney, é utilizado para comparar as distribuições de duas amostras independentes. É apropriado quando as distribuições não são necessariamente normais e quando a variável de interesse é de natureza ordinal.
  • Teste de Wilcoxon assinado: também chamado de teste de Wilcoxon pareado ou teste de sinais, é usado para comparar as distribuições de duas amostras pareadas. Ele é adequado para dados emparelhados ou quando a distribuição das diferenças entre as observações não é necessariamente normal.
  • Teste de Kruskal-Wallis: usado para comparar as distribuições de três ou mais grupos independentes. É uma extensão não paramétrica do teste ANOVA e é adequado quando as distribuições não são necessariamente normais.
  • Teste de Friedman: usado para comparar as distribuições de três ou mais grupos pareados. É uma extensão não paramétrica do teste ANOVA de medidas repetidas e é apropriado quando as distribuições não são necessariamente normais.
  • Teste de qui-quadrado: usado para testar a independência entre duas variáveis categóricas. É aplicado quando as células da tabela de contingência têm contagens esperadas adequadas.
  • Teste de sinal: usado para testar se a mediana de uma distribuição é igual a um valor de referência. É adequado para dados de natureza ordinal ou quando a distribuição não é necessariamente simétrica.

Esses são apenas alguns exemplos de testes de hipóteses não paramétricos.

A escolha do teste apropriado dependerá das características dos dados, da natureza das variáveis e dos objetivos da análise.

É sempre importante considerar as suposições dos testes estatísticos e escolher o teste mais adequado para os dados em questão.

15.2 - Estimação de densidade e regressão não paramétrica

A estimação de densidade e a regressão não paramétrica são métodos estatísticos que permitem analisar dados sem fazer suposições específicas sobre a forma funcional da relação entre as variáveis ou sobre a distribuição dos dados.

A estimação de densidade não paramétrica é usada para estimar a distribuição de probabilidade subjacente dos dados.

Em vez de assumir uma distribuição específica, como a distribuição normal, esse método estima a forma da distribuição diretamente dos dados.

Isso é útil quando não se tem informações prévias sobre a distribuição dos dados ou quando se suspeita que a distribuição seja complexa e não possa ser adequadamente modelada por uma distribuição paramétrica.

Existem várias técnicas para estimar a densidade não paramétrica, como o método do histograma, o estimador de kernel e o estimador de densidade baseado em distâncias.

Esses métodos consideram a distribuição dos dados observados e constroem uma estimativa suave da densidade de probabilidade.

A regressão não paramétrica é usada para modelar a relação entre uma variável de resposta e uma ou mais variáveis explicativas, sem impor uma forma funcional específica para essa relação.

Ao contrário da regressão paramétrica, que assume uma forma funcional específica (por exemplo, linear, polinomial) para a relação, a regressão não paramétrica permite que a relação seja modelada de maneira flexível, sem suposições rígidas.

Existem várias abordagens para a regressão não paramétrica, como os estimadores de kernel local e os métodos de regressão por spline.

Esses métodos ajustam um modelo flexível aos dados, permitindo que a relação entre as variáveis seja capturada de forma mais adaptável e não linear.

A estimação de densidade e a regressão não paramétrica são técnicas poderosas para a análise de dados, especialmente quando a relação entre as variáveis é complexa ou desconhecida.

Esses métodos fornecem uma abordagem mais flexível e adaptável, permitindo que a estrutura dos dados seja explorada de forma mais abrangente.

No entanto, eles também podem exigir um maior tamanho de amostra e podem ser computacionalmente intensivos, dependendo do método utilizado.

15.2.1 - Tipos de estimação de densidade e regressão não paramétrica

A estimação de densidade e regressão não paramétrica é uma área da estatística que se concentra em modelar e estimar a relação entre variáveis sem fazer suposições sobre a forma funcional específica dessa relação.

Aqui estão alguns tipos comuns de métodos não paramétricos usados nessa área:

  • Estimação de densidade kernel: usada para estimar a função de densidade de uma variável aleatória. Ela é baseada na suavização dos dados usando uma função kernel, que é uma função de peso aplicada a cada observação. O método de estimação de densidade kernel é útil para entender a distribuição subjacente dos dados e identificar características como modos, assimetria e caudas pesadas.
  • Regressão local (LOESS): também conhecida como LOESS (locally weighted scatterplot smoothing), é um método de regressão não paramétrica que estima a relação entre uma variável de resposta e uma ou mais variáveis preditoras. Ele faz isso ajustando um modelo localmente em torno de cada ponto de dados, atribuindo pesos diferentes às observações próximas e distantes. A regressão local é útil para capturar relações complexas e não lineares entre as variáveis.
  • Árvores de decisão: métodos de aprendizado de máquina não paramétricos que dividem os dados em subgrupos com base em uma série de regras de decisão. Elas são frequentemente usadas para modelar relações não lineares e interações complexas entre variáveis. As árvores de decisão são úteis para fins de previsão e também podem ser interpretadas para entender a importância das variáveis preditoras.
  • Regressão por spline: a regressão por spline é uma técnica que divide a faixa dos valores das variáveis preditoras em segmentos menores e ajusta um polinômio cúbico suave em cada segmento. Isso permite que a relação entre as variáveis seja flexível, pois os polinômios cúbicos suaves podem capturar curvas complexas. A regressão por spline é útil quando se deseja modelar relações não lineares, mas com suavidade.

Esses são apenas alguns exemplos de métodos não paramétricos de estimação de densidade e regressão. Cada método possui suas próprias características e suposições, e a escolha do método adequado dependerá das características dos dados, da natureza da relação entre as variáveis e dos objetivos da análise.

15.3 - Métodos de bootstrap não paramétrico

Os métodos de bootstrap não paramétrico são técnicas estatísticas que permitem estimar a incerteza dos parâmetros de interesse ou realizar inferências sem fazer suposições específicas sobre a distribuição subjacente dos dados.

O bootstrap é especialmente útil quando não se pode aplicar métodos analíticos tradicionais ou quando a distribuição dos dados é desconhecida ou não segue uma distribuição paramétrica.

O bootstrap não paramétrico é baseado no princípio de reamostragem, em que amostras de dados são obtidas a partir da amostra original por meio de um processo de reamostragem com reposição.

Essas amostras de bootstrap são usadas para criar estimativas de parâmetros, construir intervalos de confiança e realizar testes de hipóteses.

O método de bootstrap não paramétrico é chamado de "não paramétrico" porque não exige suposições sobre a forma da distribuição dos dados.

Ele funciona estimando a distribuição empírica dos dados a partir das amostras de bootstrap e usando essa distribuição empírica para realizar inferências.

Os principais passos do método de bootstrap não paramétrico são os seguintes:

Amostragem de bootstrap: são criadas várias amostras de bootstrap a partir da amostra original, onde cada amostra é obtida selecionando observações da amostra original com reposição.

Estimação do parâmetro: para cada amostra de bootstrap, o parâmetro de interesse é estimado usando os mesmos métodos utilizados para a amostra original.

Construção dos intervalos de confiança: a variabilidade dos parâmetros estimados é avaliada usando as estimativas obtidas a partir das amostras de bootstrap.

Com base nessas estimativas, intervalos de confiança podem ser construídos.

Testes de hipóteses: os testes de hipóteses são realizados comparando os valores observados do parâmetro com os valores estimados a partir das amostras de bootstrap.

O bootstrap não paramétrico é uma ferramenta valiosa na análise estatística, pois permite obter estimativas robustas, intervalos de confiança mais precisos e realizar testes de hipóteses sem assumir uma distribuição específica para os dados.

Ele é amplamente utilizado em várias áreas, como estatística, econometria, ciências sociais e muitas outras, onde as suposições paramétricas podem ser limitantes ou não plausíveis.

15.3.1 - Tipos de métodos de bootstrap não paramétrico

O bootstrap padrão é a técnica mais básica e amplamente utilizada.

Consiste em amostrar repetidamente observações do conjunto de dados original, com reposição, para criar uma série de conjuntos de dados de bootstrap.

A partir desses conjuntos de dados de bootstrap, é possível calcular estimativas de interesse (como médias, medianas, intervalos de confiança, etc.) e, em seguida, analisar a distribuição dessas estimativas para inferir sobre a incerteza do estimador original.

  • Bootstrap por blocos: variante do bootstrap padrão que considera a estrutura de dependência nos dados. Em vez de amostrar observações individuais, o bootstrap por blocos amostra blocos de observações adjacentes, preservando assim a correlação entre as observações dentro de cada bloco. Essa técnica é útil quando os dados exibem autocorrelação ou dependência espacial.
  • Bootstrap de reamostragem condicional: usado quando há interesse em preservar certas características dos dados originais, como distribuição marginal, estrutura de dependência ou correlações entre variáveis. Ele envolve a amostragem de observações com reposição condicional a essas características, o que permite a geração de conjuntos de dados bootstrap que mantêm as características desejadas.
  • Bootstrap acelerado: técnica que visa melhorar a eficiência computacional do bootstrap padrão. Ele utiliza informações adicionais, como gradientes ou estimativas preliminares, para acelerar a convergência do processo bootstrap. Isso pode ser útil em situações em que o cálculo do bootstrap padrão pode ser computacionalmente intensivo.
  • Bootstrap bayesiano: abordagem que combina o bootstrap com métodos bayesianos. Ele permite a obtenção de estimativas de incerteza para quantidades de interesse com base na distribuição posterior obtida por meio de inferência bayesiana. O bootstrap bayesiano pode ser particularmente útil quando não é possível obter uma solução analítica para a distribuição posterior.

Esses são apenas alguns exemplos de métodos de bootstrap não paramétrico. Cada método possui suas próprias peculiaridades e pode ser aplicado de forma adaptada ao problema em questão. A escolha do método de bootstrap adequado dependerá das características dos dados, das suposições do problema e dos objetivos da análise.

15.4 - Árvores de decisão e florestas aleatórias

As árvores de decisão e as florestas aleatórias são métodos de aprendizado de máquina que têm sido amplamente utilizados para tarefas de classificação e regressão.

Esses métodos são considerados não paramétricos, pois não fazem suposições explícitas sobre a forma funcional da relação entre as variáveis de entrada e a variável de saída.

Uma árvore de decisão é uma estrutura hierárquica que divide o espaço de entrada em regiões retangulares com base em uma série de regras de decisão.

Cada divisão é determinada por um teste em uma variável de entrada específica, e as observações são alocadas nas regiões correspondentes.

A árvore de decisão pode ser vista como um conjunto de regras de decisão if-then, onde cada nó interno representa uma condição de teste e cada folha representa um valor de saída ou uma decisão final.

A construção da árvore é realizada através de algoritmos que buscam dividir as observações de forma a maximizar a pureza das regiões resultantes.

As árvores de decisão possuem várias vantagens, como a capacidade de lidar com dados categóricos e numéricos, a interpretabilidade dos resultados e a facilidade de uso.

No entanto, árvores de decisão individuais podem ser suscetíveis a overfitting, ou seja, podem se ajustar demasiadamente aos dados de treinamento, levando a um desempenho inferior em novos dados.

Para mitigar o problema do overfitting, uma abordagem comumente adotada é a criação de florestas aleatórias.

Uma floresta aleatória é uma coleção de árvores de decisão independentes que são construídas utilizando diferentes subconjuntos de dados de treinamento e variáveis de entrada.

Em cada árvore, as divisões são determinadas de forma aleatória, o que aumenta a diversidade e reduz a correlação entre as árvores.

Ao fazer uma previsão, a floresta combina as previsões de todas as árvores individuais, seja por votação (no caso de classificação) ou por média (no caso de regressão).

As florestas aleatórias têm se mostrado muito eficazes em tarefas de classificação e regressão, apresentando um bom desempenho e uma maior resistência ao overfitting em comparação com árvores de decisão individuais.

Além disso, elas permitem medir a importância relativa das variáveis de entrada e fornecem estimativas de incerteza nas previsões.

As árvores de decisão e as florestas aleatórias são amplamente aplicadas em diversas áreas, como ciência de dados, aprendizado de máquina, bioinformática, finanças e muitas outras, devido à sua flexibilidade, capacidade de lidar com dados complexos e interpretabilidade dos resultados.

15.4.1 - Tipos de árvores de decisão e florestas aleatórias

As árvores de decisão e as florestas aleatórias são técnicas de aprendizado de máquina usadas para resolver problemas de classificação e regressão. Aqui estão os principais tipos relacionados a essas técnicas:

  • Árvores de decisão: estruturas de fluxograma que dividem o espaço de entrada com base nas características dos dados. Cada nó interno representa uma condição em uma característica, e cada ramo representa o resultado dessa condição. Os nós folha representam as classes ou valores de saída. As árvores de decisão podem ser construídas usando diferentes algoritmos, como o algoritmo CART (Classificação e Regressão por Árvores) ou o ID3 (Iterative Dichotomiser 3).
  • Florestas aleatórias: conjunto de árvores de decisão independentes que são combinadas para realizar classificação ou regressão. Cada árvore é construída usando uma amostra aleatória do conjunto de dados original e uma seleção aleatória de características. Durante a previsão, a classe ou o valor de saída é determinado pela média ou pela maioria dos resultados das árvores individuais.
  • Gradient Boosting Trees (GBT): técnica que também utiliza árvores de decisão, mas de forma sequencial. Começando com uma única árvore de decisão, o algoritmo gera uma sequência de árvores, onde cada árvore tenta corrigir os erros das árvores anteriores. As previsões finais são calculadas somando as previsões das árvores individuais, ponderadas pelos seus coeficientes de aprendizado.
  • Adaptive Boosting (AdaBoost): algoritmo de ensemble que combina várias árvores de decisão ponderadas. O algoritmo atribui pesos diferentes às observações do conjunto de dados, dando mais peso às observações classificadas incorretamente pelas árvores anteriores. Isso permite que as árvores subsequentes se concentrem nas observações mais difíceis de classificar.
  • XGBoost: implementação otimizada do algoritmo Gradient Boosting Trees, usando técnicas avançadas para melhorar a eficiência computacional e a precisão do modelo, e suportando uma variedade de funções de perda e permite a configuração de parâmetros personalizados para ajustar o modelo.

Esses são apenas alguns exemplos de técnicas relacionadas a árvores de decisão e florestas aleatórias. Cada uma delas possui suas próprias características e é aplicada em diferentes contextos de problemas. A escolha da técnica adequada dependerá das características dos dados, do tipo de tarefa (classificação ou regressão) e dos requisitos específicos do problema em questão.

15.5 - Métodos não paramétricos avançados

Os métodos não paramétricos avançados são técnicas estatísticas que não fazem suposições específicas sobre a forma funcional da relação entre as variáveis de entrada e a variável de saída.

Eles oferecem maior flexibilidade e podem ser aplicados em uma ampla variedade de problemas, onde os métodos paramétricos tradicionais podem não ser adequados.

Existem diversos métodos não paramétricos avançados, cada um com suas características e aplicações específicas.

Alguns exemplos incluem:

  • Máquinas de Vetores de Suporte (SVM): As SVMs são algoritmos de aprendizado de máquina que se baseiam em encontrar um hiperplano ótimo para separar duas classes de dados, podendo ser usadas tanto para problemas de classificação quanto para problemas de regressão.
  • Redes Neurais: As redes neurais são modelos computacionais inspirados no funcionamento do cérebro humano, consistindo em camadas de neurônios interconectados, onde cada neurônio realiza uma transformação não linear dos dados de entrada. As redes neurais podem ser utilizadas para resolver problemas de classificação, regressão e outras tarefas complexas.
  • Kernels Estatísticos: Os kernels estatísticos são funções matemáticas que permitem mapear os dados de entrada em um espaço de maior dimensionalidade, onde as relações não lineares podem ser mais facilmente capturadas. Esses kernels são usados em conjunto com algoritmos de aprendizado de máquina, como SVMs e regressão kernel, para realizar análises não paramétricas.
  • Árvores de Decisão Baseadas em Regras: Essas árvores são uma extensão das árvores de decisão convencionais, onde cada nó interno representa uma regra lógica que divide o espaço de entrada, e as folhas representam as decisões finais. Essas árvores podem ser usadas para problemas de classificação e regressão e têm a vantagem de serem facilmente interpretáveis.
  • Métodos de Aprendizado por Conjunto: Os métodos de aprendizado por conjunto combinam as previsões de vários modelos para obter uma previsão final mais precisa.

Exemplos populares incluem as florestas aleatórias (Random Forests) e as boosting.

Esses métodos não paramétricos avançados têm a capacidade de melhorar o desempenho preditivo e lidar com dados complexos.

Os métodos não paramétricos avançados são amplamente utilizados em diversas áreas, como ciência de dados, bioinformática, finanças, entre outras.

Eles são especialmente úteis quando não há informações claras sobre a distribuição dos dados ou quando a relação entre as variáveis não pode ser adequadamente modelada por métodos paramétricos tradicionais.

15.5.1 - Tipos de métodos não paramétricos avançados

Os métodos não paramétricos avançados são técnicas estatísticas que não fazem suposições específicas sobre a distribuição subjacente dos dados. Eles são úteis quando os dados não atendem às suposições dos métodos paramétricos ou quando não há informações suficientes disponíveis para fazer essas suposições. Aqui estão alguns exemplos de métodos não paramétricos avançados:

  • Kernel Smoothing: o kernel smoothing, também conhecido como estimativa de densidade de kernel, é usado para estimar a função de densidade de probabilidade dos dados. Ele suaviza os dados usando uma janela (kernel) em torno de cada ponto de dados e combina essas janelas para obter uma estimativa suave da densidade. Os kernels mais comumente usados são o kernel gaussiano e o kernel de Epanechnikov. Máquinas de Vetores de Suporte (Support Vector Machines - SVM): SVM é uma técnica de aprendizado de máquina usada para classificação e regressão. Ela encontra um hiperplano ótimo que separa os dados de diferentes classes, maximizando a margem entre os pontos de dados mais próximos das diferentes classes. O SVM pode lidar com dados não lineares por meio do uso de funções de kernel, que mapeiam os dados para um espaço de maior dimensionalidade.
  • Redes Neurais: as redes neurais são modelos computacionais inspirados no funcionamento do cérebro humano. Elas consistem em camadas de neurônios interconectados, onde cada neurônio processa informações e transfere para a próxima camada. As redes neurais podem ser usadas para classificação, regressão e outras tarefas de aprendizado de máquina. Elas são conhecidas por sua capacidade de lidar com problemas complexos e aprender representações não lineares. Métodos de estimativa por ordem: Esses métodos estimam a função de distribuição acumulada ou a função de sobrevivência dos dados, sem fazer suposições sobre a forma funcional da distribuição. Eles se baseiam na classificação dos dados em ordem crescente e usam estatísticas baseadas em ordem para estimar as quantidades de interesse. Exemplos de métodos de estimativa por ordem incluem a estimativa por ordem de produto-limitado (Kaplan-Meier) e a estimativa por ordem de Turnbull.
  • Florestas Aleatórias Estocásticas (Random Forests): as florestas aleatórias estocásticas são uma extensão das florestas aleatórias tradicionais, onde cada árvore de decisão é construída com uma amostra aleatória dos dados de treinamento e uma seleção aleatória de características. No entanto, em vez de usar todas as características disponíveis em cada divisão da árvore, apenas um subconjunto aleatório de características é considerado. Isso introduz uma fonte adicional de aleatoriedade e ajuda a reduzir o viés das árvores individuais.

Esses são apenas alguns exemplos de métodos não paramétricos avançados. Cada método possui suas próprias características, vantagens e limitações, e a escolha do método adequado dependerá do tipo de dados, da natureza do problema e dos objetivos de análise. É sempre importante considerar o contexto e explorar diferentes abordagens antes de tomar uma decisão final.

Arduino
Coautor
Betobyte
Autor
Autores
||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Estatistica Avançada || Estatística Básica || Estatistica Avançada || Bayes || Aulas | Introdução à Estatística Avançada (Visão geral do curso, revisão de conceitos fundamentais.) | Análise Exploratória de Dados (Gráficos básicos e visualizações avançadas, medidas de tendência central e dispersão robustasa, análise de correlação e covariância multivariada, análise de componentes principais e análise fatorial.) | Testes de Hipóteses e Inferência Estatística (Testes não paramétricos, de aderência e independência, de estimação de parâmetros e intervalos de confiança avançados, de hipóteses múltiplas e ajustes de p-valor, e métodos bootstrap e de permutação.) | Modelos de Regressão (Regressão linear múltipla, modelos de regressão não linear, modelos lineares generalizados, análise de sobrevivência e modelos de risco proporcional, regressão robusta e regressão de quantis) | Modelos Lineares Generalizados Avançados (Modelos de Poisson e regressão de Poisson, modelos de regressão logística, modelos de resposta nominal e ordinal, modelos de contagem multivariada, modelos de regressão com erros de medição) | Análise de Variância e Experimentos (Análise de variância de um fator e multifatorial, planejamento de experimentos e blocos incompletos, análise de covariância, análise de medidas repetidas e modelos mistos) | Séries Temporais (Modelos autoregressivos (AR) e de médias móveis (MA), modelos ARMA e ARIMA, modelos de séries temporais multivariadas, modelos de componentes sazonais, previsão e diagnóstico em séries temporais) | Análise Multivariada (Análise de agrupamento (cluster analysis), análise de componentes principais (PCA) multivariada, análise discriminante e classificação, análise de correspondência e análise de escalonamento multidimensional, análise de redes e modelos de grafos) | Métodos Bayesianos ( Fundamentos da inferência bayesiana, modelagem bayesiana de regressão, amostradores de Gibbs e Metropolis-Hastings, modelos hierárquicos e mistos, inferência bayesiana não paramétrica, modelos de mistura e clustering bayesiano, avaliação e seleção de modelos bayesianos) | Métodos de Simulação (Simulação Monte Carlo, técnicas de redução de variância, amostragem por importância, cadeias de Markov e amostradores de Monte Carlo baseados em cadeias, modelagem e simulação de eventos discretos) | Análise de Sobrevivência (Funções de sobrevivência e estimadores não paramétricos, modelos de risco proporcional de Cox, modelos de riscos competitivos, modelos paramétricos de distribuição de tempo até o evento, avaliação e seleção de modelos de sobrevivência) | Métodos de Amostragm (Amostragem aleatória simples e estratificada, amostragem por conglomerados e multiestágio, métodos de amostragem complexa e ponderação, amostragem de redes sociais e amostragem baseada em contatos, amostragem adaptativa e métodos não probabilísticos) | Análise de Dados Longitudinais (Modelos lineares generalizados mistos, modelos lineares generalizados para medidas repetidas, modelos de crescimento e trajetórias, modelos de equações de estimativas generalizadas (GEE), análise de dados de painel) | Análise Espacial (Autocorrelação espacial e estatísticas de Moran, interpolação espacial e krigagem, modelos de regressão espacial, clusterização espacial e detecção de aglomerados, visualização e análise exploratória de dados espaciais) | Métodos não paramétricos (Testes de hipóteses não paramétricos, estimação de densidade e regressão não paramétrica, métodos de bootstrap não paramétrico, árvores de decisão e florestas aleatórias, métodos não paramétricos avançados) |