A Teoria de Decisão Bayesiana é um framework de recursos matemáticos baseados na teoria da probabilidade bayesiana, utilizados para tomada decisões em situações de incerteza.
Busca encontrar a ação ótima, levando em consideração as consequências esperadas e as incertezas associadas.
A abordagem da decisão bayesiana envolve três elementos principais:
Espaço de estados | O espaço de estados representa todas as possíveis condições ou estados em que o sistema pode estar. É uma descrição completa das informações relevantes para a tomada de decisão. Por exemplo, no contexto médico, o espaço de estados pode ser composto por diferentes diagnósticos possíveis. |
Função de utilidade | A função de utilidade atribui valores numéricos às consequências possíveis das ações, refletindo as preferências do tomador de decisão, e indicando o quão desejável ou indesejável é um determinado resultado. Por exemplo, em um contexto financeiro, a função de utilidade pode representar o lucro ou a perda associados a diferentes ações. |
Distribuição de probabilidade | A distribuição de probabilidade representa o conhecimento ou crenças prévias sobre as probabilidades dos diferentes estados do sistema. Ela reflete a incerteza associada aos estados do sistema antes de recebermos as informações adicionais. Essa distribuição pode ser atualizada com base em evidências ou observações usando o teorema de Bayes. |
Com base nesses elementos, a decisão bayesiana busca encontrar a ação que maximiza o valor esperado da função de utilidade.
O valor esperado é calculado ponderando as consequências possíveis de cada ação com suas respectivas probabilidades.
Para tomar uma decisão bayesiana, é necessário seguir os seguintes passos:
A decisão bayesiana pode ser aplicada em várias áreas, como medicina, finanças, engenharia, tomada de decisões empresariais, entre outras.
Ela permite que as decisões sejam tomadas de forma racional, levando em consideração a incerteza e as preferências do tomador de decisão.
É importante destacar que a qualidade das decisões baseadas na abordagem bayesiana depende da precisão das estimativas das probabilidades e da função de utilidade, bem como da adequada modelagem das incertezas.
Além disso, a decisão bayesiana requer a atualização contínua das crenças e a reavaliação das decisões à medida que novas informações se tornam disponíveis.
A Teoria de Decisão Bayesiana é a abordagem estatística para a classificação de padrões, aproveitando a probabilidade de realização de classificações e medição do risco (ou seja, o custo) de atribuir-se um insumo a uma determinada classe.
Começaremos analisando a probabilidade anterior, mostrando que não é uma maneira eficiente de fazer previsões.
A Teoria de Decisão Bayesiana faz previsões melhores usando a probabilidade anterior, probabilidade de verossimilhança e evidências para calcular a probabilidade posterior.
Discutiremos todos esses conceitos em detalhes.
Por fim, mapeamos esses conceitos da Teoria de Decisão Bayesiana para seu contexto no aprendizado de máquina.
O esboço deste artigo é o seguinte:
Vamos começar.
A Teoria de Decisão Bayesiana (ou seja, a Regra de Decisão Bayesiana) prevê o resultado não apenas com base em observações anteriores, mas também levando em consideração a situação atual.
A regra descreve a ação mais razoável a ser tomada com base em uma observação.
A fórmula para a teoria de decisão Bayesiana (Bayes) é dada abaixo:
$P(C_i|X)$ = $\frac{P(C_i)P(X|C_i)}{P(X)}$
onde $X$ refere-se às condições e $C_i$ refere-se aos resultados.
A Teoria de Decisão Bayesiana fornece previsões equilibradas, pois leva em consideração:
$P(C_i)$ | Probabilidade anterior | Quantas vezes a classe $C_i$ ocorreu independentemente de quaisquer condições (ou seja, independentemente da entrada $X$). |
$P(X|C_i)$ | Probabilidade de verossimilhança | Quantas vezes o resultado $C_i$ ocorreu, sob algumas condições de $X$. Se algum dos fatores anteriores não fosse utilizado, a previsão seria prejudicada. |
$P(X)$ | Evidências | O número de vezes que a condição $X$ ocorreu. |
$P(C_i|X)$ | Probabilidade posterior | A probabilidade de o resultado $C_i$ ocorrer dada alguma condição $X$. |
Vamos explicar o efeito de excluir qualquer um desses fatores e mencionar um caso em que o uso de cada fator pode ajudar.
Quando há informação sobre a frequência da ocorrência de $C_i$ sozinho, $X$ sozinho e os dois $C_i$ e $X$ juntos, então uma previsão melhor pode ser feita.
Há algumas questões a serem observadas sobre a teoria/regra:
As próximas seções discutem estes pontos.
Para discutir probabilidade, devemos começar com como calcular a probabilidade de que uma ação ocorra.
A probabilidade anterior (à priori) é calculada de acordo com as ocorrências passadas dos resultados (ou seja, eventos).
Em outras palavras, a probabilidade anterior refere-se à probabilidade relacionadas aos eventos ocorridos no passado.
Suponha que alguém pergunte quem será o vencedor de uma futura partida entre duas equipes.
As variáveis $A$ e $B$ referem-se à primeira ou segunda equipe vencedora, respectivamente.
Nos últimos 10 jogos da copa, $A$ ocorreu 4 vezes e $B$ ocorreu as 6 vezes restantes.
Então, qual é a probabilidade de que $A$ ocorrerá na próxima partida?
Com base na experiência (ou seja, nos eventos que ocorreram no passado), a probabilidade anterior de que a primeira equipe($A$) vencerá na próxima partida é:
$P(A)$ = $\frac{4}{10}$ = $0,4$
Mas os eventos passados nem sempre se mantêm, porque a situação ou o contexto podem mudar.
Por exemplo, equipe $A$ poderia ter vencido apenas 4 partidas porque havia alguns jogadores lesionados.
Quando chegar a próxima partida, todos esses jogadores lesionados estarão recuperados.
Com base na situação atual, a primeira equipe pode vencer a próxima partida com uma probabilidade maior do que aquela calculada com base apenas em eventos passados.
A probabilidade anterior mede a probabilidade da próxima ação sem levar em consideração uma observação atual (ou seja, a situação atual).
É como prever que um paciente tem uma determinada doença com base apenas em consultas médicas anteriores.
Em outras palavras, como a probabilidade anterior é calculada apenas com base em eventos passados (sem informações atuais), isso pode degradar a qualidade do valor de previsão.
As previsões anteriores dos dois resultados $A$ e $B$ podem ter ocorrido enquanto algumas condições foram satisfeitas, mas no momento atual, essas condições podem não se manter.
Este problema é resolvido usando a verossimilhança.
A probabilidade de verossimilhança (likelihood probability) ajuda a responder à pergunta: dadas algumas condições, qual é a probabilidade de ocorrer um resultado?
Chama-se verossimilhança ao atributo daquilo que parece intuitivamente verdadeiro, isto é, o que é atribuído a uma realidade portadora de uma aparência ou de uma probabilidade de verdade, na relação ambígua que se estabelece entre imagem e ideia.
É denotada da seguinte forma:
$P(X|C_i)$
onde $X$ refere-se às condições e $C_i$ refere-se aos resultados.
Como podem existir vários resultados, à variável $C$ é dado o subscrito $i$.
A probabilidade de verossimilhança é lida da seguinte forma:
De acordo com nosso exemplo de prever a equipe vencedora, a probabilidade de que o resultado $A$ ocorra não depende apenas de eventos passados, mas também das condições atuais.
A verossimilhança relaciona a ocorrência de um resultado às condições atuais no momento de fazer uma previsão.
Suponha que as condições mudem para que o primeiro time não tenha jogadores lesionados, enquanto o segundo time tenha muitos jogadores lesionados.
Como resultado, é mais provável que $A$ ocorra do que $B$.
Sem considerar a situação atual e usando apenas as informações anteriores, o resultado seria $B$, o que não é preciso dada a situação atual.
Para o exemplo de diagnosticar um paciente, esta poderia ser uma previsão compreensivelmente melhor, pois o diagnóstico levará em consideração seus sintomas atuais em vez de sua condição anterior.
Uma desvantagem de usar apenas a verossimilhança é que ela negligencia a experiência (probabilidade anterior), o que é útil em muitos casos.
Portanto, a melhor maneira de fazer uma previsão é combinar os dois.
Usando apenas a probabilidade anterior, a previsão é feita com base na experiência passada.
Usando apenas a probabilidade de verossimilhança, a previsão depende apenas da situação atual.
Quando qualquer uma dessas duas probabilidades é usada sozinha, o resultado não é preciso o suficiente.
É melhor usar a experiência e a situação atual juntas para prever o próximo resultado.
A nova probabilidade seria calculada da seguinte forma:
$P(C_i)P(X|C_i)$
Para o exemplo de diagnosticar um paciente, o resultado seria então selecionado com base em seu histórico médico, bem como em seus sintomas atuais.
Usar as probabilidades anterior e de verossimilhança juntas é um passo importante para entender a Teoria de Decisão Bayesiana.
Supondo que haja dois resultados possíveis, então o seguinte postulado deve ser válido:
$P(C_1)$ + $P(C_2)$ = $1$
A razão é que, para uma determinada entrada, seu resultado deve ser um desses dois. Não há resultados descobertos.
Se houver $k$ resultados, então o seguinte deve ser válido:
$P(C_1)$ + $P(C_2)$ + $P(C_3)$ + ... + $P(C_k)$ = $1$
Aqui está como é escrito usando o operador de somatório para os $k$ resultados, onde $i$ é o índice de resultado e $k$ é o número total de resultados:
$\sum_{i=1}^{k} P(C_i)$ = $1$
Observe que a seguinte condição deve ser válida para todas as probabilidades anteriores:
$P(C_i) \geq 0, \forall i$
Semelhante à probabilidade anterior, a soma de todas as probabilidades posteriores deve ser 1, conforme as próximas equações.
$P(C_1|X) + P(C_2|X)$ = $1$
Se o número total de resultados for $k$, aqui está a soma usando o operador de soma:
$P(C_1|X)$ + $P(C_2|X)$ + $P(C_3|X)$ +... + $P(C_k|X)$ = $1$
Aqui está como somar todas as probabilidades posteriores para $k$ resultados usando o operador de soma:
$\sum_{i=1}^{k} P(C_i|X)$ = $1$
Aqui está como a evidência é calculada quando ocorrem apenas dois resultados:
$P(X)$ = $P(X|C_1)P(C_1)$ + $P(X|C_2)P(C_2)$
Para $k$ resultados, aqui está como a evidência é calculada:
$P(X)$ = $P(X|C_1)P(C_1)$ + $P(X|C_2)P(C_2)$ + $P(X|C_2)P(C_2)$ + ... + $P(X|C_k)P(C_k)$
Aqui está como é escrito usando o operador de soma:
$P(X)$ = $\sum_{i=1}^{k} P(X|C_i)P(C_i)$
De acordo com a última equação da evidência, a Teoria de Decisão Bayesiana (ou seja, probabilidade posterior) pode ser escrita da seguinte forma:
$P(C_i|X)$ = $\frac{P(C_i)P(X|C_i)}{\sum_{i=1}^{k} P(X|C_k)P(C_k)}$
Esta seção combina os conceitos de aprendizado de máquina com a Teoria de Decisão Bayesiana.
Primeiro, a palavra resultado deve ser substituída por classe.
Em vez de dizer que o resultado é $C_i$, é mais amigável ao aprendizado de máquina dizer que a classe é $C_i$.
Aqui está uma lista que relaciona os fatores da Teoria de Decisão Bayesiana com os conceitos de aprendizado de máquina:
Isso relaciona a classe $C_i$ para a entrada atual $X$.
Quando as seguintes condições se aplicam, é provável que o vetor de características $X$ seja atribuído à classe $C_i$.
O modelo é treinado:
Quando um modelo de classificação é treinado, ele sabe a frequência que uma classe $C_i$ ocorre, e esta informação é representada como a probabilidade anterior $P(C_i)$.
Sem a probabilidade anterior $P(C_i)$, o modelo de classificação perde parte de seu conhecimento aprendido.
Supondo que a probabilidade anterior $P(C_i)$ seja a única probabilidade a ser usada, o modelo de classificação classifica a entrada $X$ com base nas observações anteriores, mesmo sem ver a nova entrada de $X$.
Em outras palavras, mesmo sem alimentar a amostra (vetor de recursos) para o modelo, o modelo toma uma decisão e a atribui a uma classe.
Os dados de treinamento ajudam o modelo de classificação a mapear cada entrada $X$ ao seu rótulo de classe $C_i$.
Tal informação aprendida é representada como a probabilidade de verossimilhança $P(X|C_i)$.
Sem a probabilidade de verossimilhança $P(X|C_i)$, o modelo de classificação não pode saber se a amostra de entrada $X$ está relacionado com a classe $C_i$.
As computações de decisões bayesianas referem-se aos métodos e algoritmos utilizados para calcular as decisões ótimas de acordo com a Teoria de Decisão Bayesiana.
Essas computações envolvem a aplicação dos princípios bayesianos e técnicas estatísticas para modelar incertezas, analisar consequências e encontrar a ação que maximize a utilidade esperada.
Na Teoria de Decisão Bayesiana, o processo de tomada de decisão envolve várias etapas.
Esse processo de atualização permite incorporar as informações observadas nas decisões.
Uma vez que as probabilidades posteriores são obtidas, a próxima etapa é determinar a função de utilidade ou função de perda que quantifica as preferências ou penalidades associadas aos diferentes resultados possíveis.
A utilidade esperada é então calculada para cada ação considerada, multiplicando a probabilidade posterior de cada resultado pelo valor da utilidade correspondente e somando os resultados.
As computações de decisões bayesianas envolvem a avaliação da utilidade esperada para cada ação possível, a fim de determinar qual ação tem a maior utilidade esperada.
Isso pode ser feito usando técnicas como a maximização direta, onde todas as ações possíveis são avaliadas e comparadas, ou usando métodos de otimização mais avançados, como a programação dinâmica ou a programação estocástica.
Além disso, as computações de decisões bayesianas também podem envolver a análise de sensibilidade para avaliar como as decisões ótimas mudam em resposta a diferentes cenários ou informações adicionais.
Em resumo, as computações de decisões bayesianas são o processo de calcular as decisões ótimas com base nos princípios da Teoria de Decisão Bayesiana.
Isso envolve a modelagem de incertezas, a atualização das probabilidades com base em evidências, a avaliação da utilidade esperada e a seleção da ação que maximize essa utilidade.
As computações de decisões bayesianas são aplicadas em diversas áreas, incluindo economia, engenharia, medicina e gerenciamento de riscos, entre outras.