Machine Learning Lecture 19 "Bias Variance Decomposition" -Cornell CS4780 SP17
Introdução ao Tema da Aula
Anúncio Inicial
- A aula começa com um breve anúncio sobre sistemas robóticos, convidando interessados a se juntarem para saber mais sobre o que fazem.
Importância do Trade-off Viés-Variância
Conceito Fundamental
- O professor destaca que o trade-off viés-variância é um dos tópicos mais importantes em aprendizado de máquina, essencial para entender ciência de dados.
Diferença entre Nível de Conhecimento
- O trade-off é descrito como a diferença entre aqueles que apenas experimentam algoritmos e aqueles que realmente compreendem seu funcionamento.
Relevância Prática
- A compreensão do tema é crucial, pois o próximo projeto da turma estará diretamente relacionado ao conteúdo abordado na aula.
Erro de Generalização
Definição e Importância
- O foco da aula será no erro de generalização, uma métrica importante para avaliar modelos em aprendizado de máquina.
Decomposição do Erro
- O professor explica que hoje irá decompor o erro de generalização para entender suas origens e como isso ajuda na tomada de decisões sobre classificadores.
Configuração do Problema
Dados e Distribuição
- Os pontos de dados são representados como x_1, x_n, onde cada y_i pertence a um espaço real. A configuração inicial é simplificada usando um cenário de regressão.
Amostragem dos Dados
- Os dados são extraídos a partir de uma distribuição P, enfatizando a importância dessa suposição em todo aprendizado de máquina.
Previsão em Regressão
Expectativa do Rótulo
- Em problemas de regressão, o objetivo é prever o rótulo esperado dado um vetor X. Isso envolve calcular a média ponderada das possíveis saídas Y.
Integração das Possibilidades
- Para prever corretamente, deve-se integrar todas as possíveis saídas multiplicadas pela probabilidade associada àquela saída dada X.
Algoritmos em Aprendizado de Máquina
Processo Típico
Introdução aos Algoritmos de Aprendizado de Máquina
O que é um algoritmo de aprendizado de máquina?
- Um algoritmo de aprendizado de máquina processa dados de entrada, como um conjunto de treinamento, para gerar um classificador. Exemplo: perceptron ou SVM (Máquina Vetorial de Suporte).
Erro e Generalização
- A partir do conjunto de dados D, extraído da distribuição P, o objetivo é calcular o erro esperado ao aplicar o classificador H em novos dados.
- O erro observado no conjunto D é chamado de erro de treinamento; no entanto, o foco principal deve ser o erro esperado em novos pontos (erro teste esperado).
Cálculo do Erro Esperado
- O cálculo do erro teste esperado envolve a avaliação do classificador H em novos dados X e Y provenientes da distribuição P.
- Para medir esse erro, utiliza-se a perda quadrática (square loss), que simplifica as provas matemáticas.
Compreensão do Erro Generalizado
- O erro generalizado dado H é crucial para entender a performance do classificador em situações práticas.
- Para estimar esse erro, amostras são coletadas e avaliadas; isso se torna prático após algumas iterações.
Variabilidade dos Conjuntos de Dados
- Cada conjunto D é uma variável aleatória composta por n variáveis aleatórias X e Y. Portanto, H também se torna uma variável aleatória.
- Ao repetir o processo com diferentes conjuntos D extraídos da mesma distribuição P, obtemos uma distribuição sobre funções classificadoras.
Classificadores Esperados
- O classificador esperado barH pode ser calculado como a média das saídas dos classificadores obtidos a partir dos conjuntos D.
Como combinar múltiplos classificadores?
Processo de Amostragem e Conjuntos de Dados
- O processo de amostragem é aleatório, onde se desenham pontos de dados para formar um conjunto D, resultando em uma distribuição sobre como esse conjunto pode parecer.
- Um conjunto pode ser considerado uma variável aleatória, assim como uma função. É possível amostrar muitos conjuntos diferentes para calcular expectativas sobre eles.
Discussão sobre Dados Infinitos
- A questão levantada é por que dividir um grande conjunto de dados em vários menores se tivermos dados infinitos. A resposta sugere que a prática pode justificar essa divisão.
- A variância dos conjuntos ajuda a entender a incerteza; ter múltiplos conjuntos pode auxiliar na argumentação, mas muitas vezes é mais prático combinar os dados em um único classificador.
Definição do Classificador Esperado
- Introduz-se o conceito de um "classificador esperado", representado por h-bar, que não é um número fixo, mas sim uma função média derivada da combinação de várias funções ponderadas.
- É importante notar que essas funções podem ser não lineares e podem incluir árvores de decisão.
Erro Esperado do Algoritmo
- Se H for uma variável aleatória, podemos calcular o erro esperado do algoritmo A sem condicionar H. Isso envolve integrar todos os possíveis conjuntos de treinamento.
- O objetivo é determinar o erro de generalização do classificador treinado com base nos dados amostrados.
Cálculo da Generalização do Algoritmo
- Para calcular o erro médio do algoritmo A, deve-se treinar repetidamente com novos conjuntos e avaliar a performance em pontos testados (x,y).
- Ao repetir esse processo milhões de vezes, obtemos uma média que representa o erro geral do algoritmo.
Decomposição do Erro
- O foco agora está na decomposição da expressão para entender melhor as escolhas algorítmicas e seu desempenho sob diferentes distribuições de dados P.
Análise do Erro em Classificadores
Manipulação de Expressões e Erros
- O autor começa a manipular uma expressão, subtraindo e adicionando H barX , que representa o classificador esperado. Ele afirma que isso não altera a essência da equação.
- A manipulação é feita para facilitar a análise dos termos individuais, buscando entender a origem do erro elevado no modelo.
- O autor completa o quadrado na expressão, identificando os termos A e B , onde A^2 + B^2 + 2AB é utilizado para simplificar a análise.
Identificação de Termos Nulos
- Um termo específico na expressão é considerado nulo, levando à discussão sobre como se pode eliminar esse termo sem afetar o resultado final.
- O autor sugere que os ouvintes discutam entre si por dois minutos para convencê-los de que o termo realmente é zero.
Expectativa e Independência
- É discutido por que não se pode aplicar o mesmo raciocínio para eliminar outro termo, enfatizando a importância da expectativa linear em relação aos dados dependentes.
- O autor explica como as variáveis X , Y , e D interagem, destacando que são pares independentes.
Interpretação dos Resultados
- A expectativa do produto das diferenças é analisada; um dos termos se torna constante e pode ser retirado da expectativa total.
- Conclui-se que ao multiplicar certos termos, todos desaparecem devido à natureza das expectativas.
Composição do Erro Total
- O erro total de um algoritmo é composto por dois termos: a diferença esperada entre o classificador real e seu valor médio, além da diferença entre essa média e o rótulo verdadeiro.
- O primeiro termo reflete a variância das previsões em relação à média do classificador. Essa interpretação ajuda na compreensão do desempenho do modelo.
Decomposição Adicional
- O segundo termo também é analisado mais profundamente; ele envolve adicionar e subtrair valores médios relacionados ao rótulo esperado.
Análise do Erro em Algoritmos de Classificação
Decomposição do Erro
- O erro esperado de um algoritmo pode ser decomposto em três termos principais: a variância, o viés e o ruído. A análise começa com a expressão H(X) - barY(X) .
- Ao calcular a expectativa do produto entre duas variáveis, observa-se que os valores esperados se cancelam, levando à simplificação da expressão.
- A decomposição é feita considerando as expectativas condicionais, permitindo separar as variáveis dependentes e independentes.
Variância do Classificador
- A variância mede como as previsões de diferentes classificadores treinados em conjuntos de dados distintos podem variar. Isso reflete a sensibilidade do modelo às flutuações nos dados de treinamento.
- O foco não está apenas na precisão das previsões, mas sim na diferença entre a previsão média e uma previsão específica feita por um classificador.
Ruído nos Dados
- O termo barY - Y representa o ruído presente nos dados. Se houver uma grande discrepância entre os rótulos esperados e os reais, isso indica que o problema é complexo.
- Dados ruidosos significam que características semelhantes podem ter rótulos muito diferentes, dificultando a tarefa preditiva.
Viés do Modelo
- O viés quadrado captura o erro remanescente quando se tenta prever o rótulo esperado sem considerar o ruído. Refere-se à tendência do modelo em favorecer certas explicações que não estão presentes nos dados.
- Um exemplo prático é quando um modelo linear é ajustado a dados não lineares; mesmo com muitos dados, erros persistem devido ao viés intrínseco do modelo.
Resumo dos Componentes do Erro
- O erro total é composto pela soma da variância, viés e ruído. Cada componente desempenha um papel crucial na compreensão da performance geral de um classificador.
Análise de Erros em Classificadores
Compreendendo o Viés e a Variância
- O erro em um classificador pode ser decomposto em três partes: viés, variância e ruído. A tarefa do cientista de dados é identificar qual desses componentes está contribuindo mais para o erro.
- É crucial determinar se o viés ou a variância estão altos. Muitas vezes, as pessoas tentam reduzir o ruído ou a variância quando na verdade seu problema é o viés.
Exercício Analógico com Dardos
- O instrutor propõe uma analogia usando dardos para ilustrar os conceitos de viés e variância. Ele pede aos alunos que imaginem como seriam os lançamentos dependendo dos níveis de viés e variância.
- Se houver baixa variância e baixo ruído, todos os dardos estarão centralizados no alvo, resultando em pouco erro.
Cenários de Viés e Variância
- Quando há alta variância mas baixo viés, os lançamentos são imprecisos (variados), mas a média dos lançamentos ainda acerta o centro do alvo.
- Em contraste, se houver alto viés e baixa variância, todos os lançamentos acertam um ponto específico com precisão, mas esse ponto está incorreto.