Bayes

Carregando, aguarde alguns segundos.

2 - Teoria de Decisão Bayesiana

A Teoria de Decisão Bayesiana é um framework de recursos matemáticos baseados na teoria da probabilidade bayesiana, utilizados para tomada decisões em situações de incerteza.

Busca encontrar a ação ótima, levando em consideração as consequências esperadas e as incertezas associadas.

A abordagem da decisão bayesiana envolve três elementos principais:

Espaço de estados	O espaço de estados representa todas as possíveis condições ou estados em que o sistema pode estar. É uma descrição completa das informações relevantes para a tomada de decisão. Por exemplo, no contexto médico, o espaço de estados pode ser composto por diferentes diagnósticos possíveis.
Função de utilidade	A função de utilidade atribui valores numéricos às consequências possíveis das ações, refletindo as preferências do tomador de decisão, e indicando o quão desejável ou indesejável é um determinado resultado. Por exemplo, em um contexto financeiro, a função de utilidade pode representar o lucro ou a perda associados a diferentes ações.
Distribuição de probabilidade	A distribuição de probabilidade representa o conhecimento ou crenças prévias sobre as probabilidades dos diferentes estados do sistema. Ela reflete a incerteza associada aos estados do sistema antes de recebermos as informações adicionais. Essa distribuição pode ser atualizada com base em evidências ou observações usando o teorema de Bayes.

Com base nesses elementos, a decisão bayesiana busca encontrar a ação que maximiza o valor esperado da função de utilidade.

O valor esperado é calculado ponderando as consequências possíveis de cada ação com suas respectivas probabilidades.

Para tomar uma decisão bayesiana, é necessário seguir os seguintes passos:

Especificar o espaço de estados: definir os possíveis estados que o sistema pode assumir.
Especificar a função de utilidade: determinar a função de utilidade que atribui valores numéricos às consequências das ações.
Estimar as probabilidades: usar informações disponíveis para estimar as probabilidades dos diferentes estados do sistema, levando em consideração a distribuição de probabilidade.
Calcular o valor esperado: calcular o valor esperado da função de utilidade para cada ação possível, ponderando as consequências possíveis com suas probabilidades.
Escolher a ação ótima: selecionar a ação que maximiza o valor esperado da função de utilidade.

A decisão bayesiana pode ser aplicada em várias áreas, como medicina, finanças, engenharia, tomada de decisões empresariais, entre outras.

Ela permite que as decisões sejam tomadas de forma racional, levando em consideração a incerteza e as preferências do tomador de decisão.

É importante destacar que a qualidade das decisões baseadas na abordagem bayesiana depende da precisão das estimativas das probabilidades e da função de utilidade, bem como da adequada modelagem das incertezas.

Além disso, a decisão bayesiana requer a atualização contínua das crenças e a reavaliação das decisões à medida que novas informações se tornam disponíveis.

A Teoria de Decisão Bayesiana é a abordagem estatística para a classificação de padrões, aproveitando a probabilidade de realização de classificações e medição do risco (ou seja, o custo) de atribuir-se um insumo a uma determinada classe.

Começaremos analisando a probabilidade anterior, mostrando que não é uma maneira eficiente de fazer previsões.

A Teoria de Decisão Bayesiana faz previsões melhores usando a probabilidade anterior, probabilidade de verossimilhança e evidências para calcular a probabilidade posterior.

Discutiremos todos esses conceitos em detalhes.

Por fim, mapeamos esses conceitos da Teoria de Decisão Bayesiana para seu contexto no aprendizado de máquina.

O esboço deste artigo é o seguinte:

Teoria de Decisão Bayesiana
Probabilidade anterior
Probabilidade de verossimilhança
Probabilidades anterior e de verossimilhança
Soma de todas probabilidades anteriores igual 1
Soma de todas probabilidades posteriores igual 1
Evidências
Aprendizado de Máquina e a Teoria de Decisão Bayesiana

Vamos começar.

2.1 - Teoria de Decisão Bayesiana

A Teoria de Decisão Bayesiana (ou seja, a Regra de Decisão Bayesiana) prevê o resultado não apenas com base em observações anteriores, mas também levando em consideração a situação atual.

A regra descreve a ação mais razoável a ser tomada com base em uma observação.

A fórmula para a teoria de decisão Bayesiana (Bayes) é dada abaixo:

$P(C_i|X)$ = $\frac{P(C_i)P(X|C_i)}{P(X)}$

onde $X$ refere-se às condições e $C_i$ refere-se aos resultados.

A Teoria de Decisão Bayesiana fornece previsões equilibradas, pois leva em consideração:

$P(C_i)$	Probabilidade anterior	Quantas vezes a classe $C_i$ ocorreu independentemente de quaisquer condições (ou seja, independentemente da entrada $X$).
$P(X\|C_i)$	Probabilidade de verossimilhança	Quantas vezes o resultado $C_i$ ocorreu, sob algumas condições de $X$. Se algum dos fatores anteriores não fosse utilizado, a previsão seria prejudicada.
$P(X)$	Evidências	O número de vezes que a condição $X$ ocorreu.
$P(C_i\|X)$	Probabilidade posterior	A probabilidade de o resultado $C_i$ ocorrer dada alguma condição $X$.

Vamos explicar o efeito de excluir qualquer um desses fatores e mencionar um caso em que o uso de cada fator pode ajudar.

$P(C_i)$: Suponha que a probabilidade anterior $P(C_i)$ não seja usada; então não poderemos saber se o resultado $C_i$ ocorre com frequência ou não. Se a probabilidade anterior for alta, então o resultado $C_i$ ocorrerá com frequência e será uma indicação de que pode ocorrer novamente.
$P(X|C_i)$: Se a probabilidade de verossimilhança $P(X|C_i)$ não for usada, não haverá informação para associar a entrada atual $X$ com o resultado $C_i$. Por exemplo, o resultado $C_i$ poderá ocorrerá com frequência, mas raramente ocorrerá com a entrada atual $X$.
$P(X)$: Se a probabilidade de evidência $P(X)$ for excluída, então não haverá informação para refletir a frequência de ocorrência de $X$. Supondo que tanto o resultado $C_i$ e a entrada $X$ ocorreram frequentemente, então é provável que o resultado seja $C_i$ quando a entrada é $X$.

Quando há informação sobre a frequência da ocorrência de $C_i$ sozinho, $X$ sozinho e os dois $C_i$ e $X$ juntos, então uma previsão melhor pode ser feita.

Há algumas questões a serem observadas sobre a teoria/regra:

A soma de todas as probabilidades anteriores deve ser 1.
A soma de todas as probabilidades posteriores deve ser 1.
A evidência é a soma dos produtos das probabilidades, anteriores e de verossimilhanças, de todos os resultados.

As próximas seções discutem estes pontos.

2.2 - Probabilidade anterior

Para discutir probabilidade, devemos começar com como calcular a probabilidade de que uma ação ocorra.

A probabilidade anterior (à priori) é calculada de acordo com as ocorrências passadas dos resultados (ou seja, eventos).

Em outras palavras, a probabilidade anterior refere-se à probabilidade relacionadas aos eventos ocorridos no passado.

Suponha que alguém pergunte quem será o vencedor de uma futura partida entre duas equipes.

As variáveis $A$ e $B$ referem-se à primeira ou segunda equipe vencedora, respectivamente.

Nos últimos 10 jogos da copa, $A$ ocorreu 4 vezes e $B$ ocorreu as 6 vezes restantes.

Então, qual é a probabilidade de que $A$ ocorrerá na próxima partida?

Com base na experiência (ou seja, nos eventos que ocorreram no passado), a probabilidade anterior de que a primeira equipe($A$) vencerá na próxima partida é:

$P(A)$ = $\frac{4}{10}$ = $0,4$

Mas os eventos passados nem sempre se mantêm, porque a situação ou o contexto podem mudar.

Por exemplo, equipe $A$ poderia ter vencido apenas 4 partidas porque havia alguns jogadores lesionados.

Quando chegar a próxima partida, todos esses jogadores lesionados estarão recuperados.

Com base na situação atual, a primeira equipe pode vencer a próxima partida com uma probabilidade maior do que aquela calculada com base apenas em eventos passados.

A probabilidade anterior mede a probabilidade da próxima ação sem levar em consideração uma observação atual (ou seja, a situação atual).

É como prever que um paciente tem uma determinada doença com base apenas em consultas médicas anteriores.

Em outras palavras, como a probabilidade anterior é calculada apenas com base em eventos passados (sem informações atuais), isso pode degradar a qualidade do valor de previsão.

As previsões anteriores dos dois resultados $A$ e $B$ podem ter ocorrido enquanto algumas condições foram satisfeitas, mas no momento atual, essas condições podem não se manter.

Este problema é resolvido usando a verossimilhança.

2.3 - Probabilidade de verossimilhança

A probabilidade de verossimilhança (likelihood probability) ajuda a responder à pergunta: dadas algumas condições, qual é a probabilidade de ocorrer um resultado?

Chama-se verossimilhança ao atributo daquilo que parece intuitivamente verdadeiro, isto é, o que é atribuído a uma realidade portadora de uma aparência ou de uma probabilidade de verdade, na relação ambígua que se estabelece entre imagem e ideia.

É denotada da seguinte forma:

$P(X|C_i)$

onde $X$ refere-se às condições e $C_i$ refere-se aos resultados.

Como podem existir vários resultados, à variável $C$ é dado o subscrito $i$.

A probabilidade de verossimilhança é lida da seguinte forma:

Sob um conjunto de condições de $X$, qual é a probabilidade de que o resultado seja $C_i$?

De acordo com nosso exemplo de prever a equipe vencedora, a probabilidade de que o resultado $A$ ocorra não depende apenas de eventos passados, mas também das condições atuais.

A verossimilhança relaciona a ocorrência de um resultado às condições atuais no momento de fazer uma previsão.

Suponha que as condições mudem para que o primeiro time não tenha jogadores lesionados, enquanto o segundo time tenha muitos jogadores lesionados.

Como resultado, é mais provável que $A$ ocorra do que $B$.

Sem considerar a situação atual e usando apenas as informações anteriores, o resultado seria $B$, o que não é preciso dada a situação atual.

Para o exemplo de diagnosticar um paciente, esta poderia ser uma previsão compreensivelmente melhor, pois o diagnóstico levará em consideração seus sintomas atuais em vez de sua condição anterior.

Uma desvantagem de usar apenas a verossimilhança é que ela negligencia a experiência (probabilidade anterior), o que é útil em muitos casos.

Portanto, a melhor maneira de fazer uma previsão é combinar os dois.

2.4 - Probabilidades anterior e de verossimilhança

Usando apenas a probabilidade anterior, a previsão é feita com base na experiência passada.

Usando apenas a probabilidade de verossimilhança, a previsão depende apenas da situação atual.

Quando qualquer uma dessas duas probabilidades é usada sozinha, o resultado não é preciso o suficiente.

É melhor usar a experiência e a situação atual juntas para prever o próximo resultado.

A nova probabilidade seria calculada da seguinte forma:

$P(C_i)P(X|C_i)$

Para o exemplo de diagnosticar um paciente, o resultado seria então selecionado com base em seu histórico médico, bem como em seus sintomas atuais.

Usar as probabilidades anterior e de verossimilhança juntas é um passo importante para entender a Teoria de Decisão Bayesiana.

2.5 - Soma de todas probabilidades anteriores igual 1

Supondo que haja dois resultados possíveis, então o seguinte postulado deve ser válido:

$P(C_1)$ + $P(C_2)$ = $1$

A razão é que, para uma determinada entrada, seu resultado deve ser um desses dois. Não há resultados descobertos.

Se houver $k$ resultados, então o seguinte deve ser válido:

$P(C_1)$ + $P(C_2)$ + $P(C_3)$ + ... + $P(C_k)$ = $1$

Aqui está como é escrito usando o operador de somatório para os $k$ resultados, onde $i$ é o índice de resultado e $k$ é o número total de resultados:

$\sum_{i=1}^{k} P(C_i)$ = $1$

Observe que a seguinte condição deve ser válida para todas as probabilidades anteriores:

$P(C_i) \geq 0, \forall i$

2.6 - Soma de todas probabilidades posteriores igual 1

Semelhante à probabilidade anterior, a soma de todas as probabilidades posteriores deve ser 1, conforme as próximas equações.

$P(C_1|X) + P(C_2|X)$ = $1$

Se o número total de resultados for $k$, aqui está a soma usando o operador de soma:

$P(C_1|X)$ + $P(C_2|X)$ + $P(C_3|X)$ +... + $P(C_k|X)$ = $1$

Aqui está como somar todas as probabilidades posteriores para $k$ resultados usando o operador de soma:

$\sum_{i=1}^{k} P(C_i|X)$ = $1$

2.7 - Evidências

Aqui está como a evidência é calculada quando ocorrem apenas dois resultados:

$P(X)$ = $P(X|C_1)P(C_1)$ + $P(X|C_2)P(C_2)$

Para $k$ resultados, aqui está como a evidência é calculada:

$P(X)$ = $P(X|C_1)P(C_1)$ + $P(X|C_2)P(C_2)$ + $P(X|C_2)P(C_2)$ + ... + $P(X|C_k)P(C_k)$

Aqui está como é escrito usando o operador de soma:

$P(X)$ = $\sum_{i=1}^{k} P(X|C_i)P(C_i)$

De acordo com a última equação da evidência, a Teoria de Decisão Bayesiana (ou seja, probabilidade posterior) pode ser escrita da seguinte forma:

$P(C_i|X)$ = $\frac{P(C_i)P(X|C_i)}{\sum_{i=1}^{k} P(X|C_k)P(C_k)}$

2.8 - Aprendizado de Máquina e Teoria de Decisão Bayesiana

Esta seção combina os conceitos de aprendizado de máquina com a Teoria de Decisão Bayesiana.

Primeiro, a palavra resultado deve ser substituída por classe.

Em vez de dizer que o resultado é $C_i$, é mais amigável ao aprendizado de máquina dizer que a classe é $C_i$.

Aqui está uma lista que relaciona os fatores da Teoria de Decisão Bayesiana com os conceitos de aprendizado de máquina:

$X$ é o vetor de características.
$P(X)$ é a semelhança entre o vetor de características $X$ e os vetores de recursos usados no treinamento do modelo.
$C_i$ é o rótulo da classe.
$P(C_i)$ é o número de vezes que o modelo classificou um vetor de recursos de entrada como a classe $C_i$. A decisão é independente do vetor de características $X$.
$P(X|C_i)$ é a experiência do modelo de aprendizado de máquina anterior na classificação de vetores de recursos semelhantes a $X$ como a classe $C_i$.

Isso relaciona a classe $C_i$ para a entrada atual $X$.

Quando as seguintes condições se aplicam, é provável que o vetor de características $X$ seja atribuído à classe $C_i$.

O modelo é treinado:

Em vetores de recursos próximos ao vetor de entrada atual $X$, aumentando $P(X)$.
Em algumas amostras (ou seja, vetores de recursos) que pertencem à classe $C_i$, aumentando $P(C_i)$.
Para classificar as amostras próximas a $X$ como pertencente à classe $C_i$, aumentando $P(X|C_i)$.

Quando um modelo de classificação é treinado, ele sabe a frequência que uma classe $C_i$ ocorre, e esta informação é representada como a probabilidade anterior $P(C_i)$.

Sem a probabilidade anterior $P(C_i)$, o modelo de classificação perde parte de seu conhecimento aprendido.

Supondo que a probabilidade anterior $P(C_i)$ seja a única probabilidade a ser usada, o modelo de classificação classifica a entrada $X$ com base nas observações anteriores, mesmo sem ver a nova entrada de $X$.

Em outras palavras, mesmo sem alimentar a amostra (vetor de recursos) para o modelo, o modelo toma uma decisão e a atribui a uma classe.

Os dados de treinamento ajudam o modelo de classificação a mapear cada entrada $X$ ao seu rótulo de classe $C_i$.

Tal informação aprendida é representada como a probabilidade de verossimilhança $P(X|C_i)$.

Sem a probabilidade de verossimilhança $P(X|C_i)$, o modelo de classificação não pode saber se a amostra de entrada $X$ está relacionado com a classe $C_i$.

2.9 - Computação na Teoria da Decisão Bayesianas

As computações de decisões bayesianas referem-se aos métodos e algoritmos utilizados para calcular as decisões ótimas de acordo com a Teoria de Decisão Bayesiana.

Essas computações envolvem a aplicação dos princípios bayesianos e técnicas estatísticas para modelar incertezas, analisar consequências e encontrar a ação que maximize a utilidade esperada.

Na Teoria de Decisão Bayesiana, o processo de tomada de decisão envolve várias etapas.

Primeiro, é necessário especificar um modelo probabilístico que descreva as incertezas associadas às variáveis relevantes e as relações entre elas.
Isso é feito através da definição de distribuições de probabilidade a priori que representam o conhecimento prévio sobre as incertezas.
Em seguida, são coletadas evidências ou dados relevantes que podem influenciar a tomada de decisão.
Essas evidências são usadas para atualizar as probabilidades anteriores usando o Teorema de Bayes, resultando nas probabilidades posteriores.

Esse processo de atualização permite incorporar as informações observadas nas decisões.

Uma vez que as probabilidades posteriores são obtidas, a próxima etapa é determinar a função de utilidade ou função de perda que quantifica as preferências ou penalidades associadas aos diferentes resultados possíveis.

A utilidade esperada é então calculada para cada ação considerada, multiplicando a probabilidade posterior de cada resultado pelo valor da utilidade correspondente e somando os resultados.

As computações de decisões bayesianas envolvem a avaliação da utilidade esperada para cada ação possível, a fim de determinar qual ação tem a maior utilidade esperada.

Isso pode ser feito usando técnicas como a maximização direta, onde todas as ações possíveis são avaliadas e comparadas, ou usando métodos de otimização mais avançados, como a programação dinâmica ou a programação estocástica.

Além disso, as computações de decisões bayesianas também podem envolver a análise de sensibilidade para avaliar como as decisões ótimas mudam em resposta a diferentes cenários ou informações adicionais.

Em resumo, as computações de decisões bayesianas são o processo de calcular as decisões ótimas com base nos princípios da Teoria de Decisão Bayesiana.

Isso envolve a modelagem de incertezas, a atualização das probabilidades com base em evidências, a avaliação da utilidade esperada e a seleção da ação que maximize essa utilidade.

As computações de decisões bayesianas são aplicadas em diversas áreas, incluindo economia, engenharia, medicina e gerenciamento de riscos, entre outras.

Arduino

Coautor

Betobyte

Autor

Autores

||| Áreas ||| Estatística ||| Python ||| Projetos ||| Dicas & Truques ||| Quantum ||| Bayes || Estatística Básica || Estatistica Avançada || Bayes || Aulas | Introdução (Introdução a uma das ferramentas fundamentais mais importantes da teoria das probabilidades, com aplicação em diversas áreas, incluindo estatística, inteligência artificial, aprendizado de máquina e ciência de dados.) | Decisão Bayesiana (Teoria de Decisão Bayesiana, probabilidade anterior e de verossimilhança, soma das probabilidades, evidências, aprendizado de Máquina e Teoria de Decisão Bayesiana, computação na Teoria da Decisão Bayesianas) | Estatistica Bayesiana (Abordagem estatística que se baseia no Teorema de Bayes para fazer inferências sobre parâmetros desconhecidos ou realizar previsões, levando em consideração a probabilidade de um evento ocorrer, da probabilidade de um evento ocorrer é atualizada à medida que novas evidências são coletadas.) | Inteligência Artificial (Papel significativo da estatística bayesiana na área de inteligência artificial (IA), fornecendo uma estrutura para a tomada de decisões probabilísticas e o aprendizado adaptativo dos sistemas.) |