Machine Learning Lecture 19 "Bias Variance Decomposition" -Cornell CS4780 SP17

Machine Learning Lecture 19 "Bias Variance Decomposition" -Cornell CS4780 SP17

Introdução ao Tema da Aula

Anúncio Inicial

  • A aula começa com um breve anúncio sobre sistemas robóticos, convidando interessados a se juntarem para saber mais sobre o que fazem.

Importância do Trade-off Viés-Variância

Conceito Fundamental

  • O professor destaca que o trade-off viés-variância é um dos tópicos mais importantes em aprendizado de máquina, essencial para entender ciência de dados.

Diferença entre Nível de Conhecimento

  • O trade-off é descrito como a diferença entre aqueles que apenas experimentam algoritmos e aqueles que realmente compreendem seu funcionamento.

Relevância Prática

  • A compreensão do tema é crucial, pois o próximo projeto da turma estará diretamente relacionado ao conteúdo abordado na aula.

Erro de Generalização

Definição e Importância

  • O foco da aula será no erro de generalização, uma métrica importante para avaliar modelos em aprendizado de máquina.

Decomposição do Erro

  • O professor explica que hoje irá decompor o erro de generalização para entender suas origens e como isso ajuda na tomada de decisões sobre classificadores.

Configuração do Problema

Dados e Distribuição

  • Os pontos de dados são representados como x_1, x_n, onde cada y_i pertence a um espaço real. A configuração inicial é simplificada usando um cenário de regressão.

Amostragem dos Dados

  • Os dados são extraídos a partir de uma distribuição P, enfatizando a importância dessa suposição em todo aprendizado de máquina.

Previsão em Regressão

Expectativa do Rótulo

  • Em problemas de regressão, o objetivo é prever o rótulo esperado dado um vetor X. Isso envolve calcular a média ponderada das possíveis saídas Y.

Integração das Possibilidades

  • Para prever corretamente, deve-se integrar todas as possíveis saídas multiplicadas pela probabilidade associada àquela saída dada X.

Algoritmos em Aprendizado de Máquina

Processo Típico

Introdução aos Algoritmos de Aprendizado de Máquina

O que é um algoritmo de aprendizado de máquina?

  • Um algoritmo de aprendizado de máquina processa dados de entrada, como um conjunto de treinamento, para gerar um classificador. Exemplo: perceptron ou SVM (Máquina Vetorial de Suporte).

Erro e Generalização

  • A partir do conjunto de dados D, extraído da distribuição P, o objetivo é calcular o erro esperado ao aplicar o classificador H em novos dados.
  • O erro observado no conjunto D é chamado de erro de treinamento; no entanto, o foco principal deve ser o erro esperado em novos pontos (erro teste esperado).

Cálculo do Erro Esperado

  • O cálculo do erro teste esperado envolve a avaliação do classificador H em novos dados X e Y provenientes da distribuição P.
  • Para medir esse erro, utiliza-se a perda quadrática (square loss), que simplifica as provas matemáticas.

Compreensão do Erro Generalizado

  • O erro generalizado dado H é crucial para entender a performance do classificador em situações práticas.
  • Para estimar esse erro, amostras são coletadas e avaliadas; isso se torna prático após algumas iterações.

Variabilidade dos Conjuntos de Dados

  • Cada conjunto D é uma variável aleatória composta por n variáveis aleatórias X e Y. Portanto, H também se torna uma variável aleatória.
  • Ao repetir o processo com diferentes conjuntos D extraídos da mesma distribuição P, obtemos uma distribuição sobre funções classificadoras.

Classificadores Esperados

  • O classificador esperado barH pode ser calculado como a média das saídas dos classificadores obtidos a partir dos conjuntos D.

Como combinar múltiplos classificadores?

Processo de Amostragem e Conjuntos de Dados

  • O processo de amostragem é aleatório, onde se desenham pontos de dados para formar um conjunto D, resultando em uma distribuição sobre como esse conjunto pode parecer.
  • Um conjunto pode ser considerado uma variável aleatória, assim como uma função. É possível amostrar muitos conjuntos diferentes para calcular expectativas sobre eles.

Discussão sobre Dados Infinitos

  • A questão levantada é por que dividir um grande conjunto de dados em vários menores se tivermos dados infinitos. A resposta sugere que a prática pode justificar essa divisão.
  • A variância dos conjuntos ajuda a entender a incerteza; ter múltiplos conjuntos pode auxiliar na argumentação, mas muitas vezes é mais prático combinar os dados em um único classificador.

Definição do Classificador Esperado

  • Introduz-se o conceito de um "classificador esperado", representado por h-bar, que não é um número fixo, mas sim uma função média derivada da combinação de várias funções ponderadas.
  • É importante notar que essas funções podem ser não lineares e podem incluir árvores de decisão.

Erro Esperado do Algoritmo

  • Se H for uma variável aleatória, podemos calcular o erro esperado do algoritmo A sem condicionar H. Isso envolve integrar todos os possíveis conjuntos de treinamento.
  • O objetivo é determinar o erro de generalização do classificador treinado com base nos dados amostrados.

Cálculo da Generalização do Algoritmo

  • Para calcular o erro médio do algoritmo A, deve-se treinar repetidamente com novos conjuntos e avaliar a performance em pontos testados (x,y).
  • Ao repetir esse processo milhões de vezes, obtemos uma média que representa o erro geral do algoritmo.

Decomposição do Erro

  • O foco agora está na decomposição da expressão para entender melhor as escolhas algorítmicas e seu desempenho sob diferentes distribuições de dados P.

Análise do Erro em Classificadores

Manipulação de Expressões e Erros

  • O autor começa a manipular uma expressão, subtraindo e adicionando H barX , que representa o classificador esperado. Ele afirma que isso não altera a essência da equação.
  • A manipulação é feita para facilitar a análise dos termos individuais, buscando entender a origem do erro elevado no modelo.
  • O autor completa o quadrado na expressão, identificando os termos A e B , onde A^2 + B^2 + 2AB é utilizado para simplificar a análise.

Identificação de Termos Nulos

  • Um termo específico na expressão é considerado nulo, levando à discussão sobre como se pode eliminar esse termo sem afetar o resultado final.
  • O autor sugere que os ouvintes discutam entre si por dois minutos para convencê-los de que o termo realmente é zero.

Expectativa e Independência

  • É discutido por que não se pode aplicar o mesmo raciocínio para eliminar outro termo, enfatizando a importância da expectativa linear em relação aos dados dependentes.
  • O autor explica como as variáveis X , Y , e D interagem, destacando que são pares independentes.

Interpretação dos Resultados

  • A expectativa do produto das diferenças é analisada; um dos termos se torna constante e pode ser retirado da expectativa total.
  • Conclui-se que ao multiplicar certos termos, todos desaparecem devido à natureza das expectativas.

Composição do Erro Total

  • O erro total de um algoritmo é composto por dois termos: a diferença esperada entre o classificador real e seu valor médio, além da diferença entre essa média e o rótulo verdadeiro.
  • O primeiro termo reflete a variância das previsões em relação à média do classificador. Essa interpretação ajuda na compreensão do desempenho do modelo.

Decomposição Adicional

  • O segundo termo também é analisado mais profundamente; ele envolve adicionar e subtrair valores médios relacionados ao rótulo esperado.

Análise do Erro em Algoritmos de Classificação

Decomposição do Erro

  • O erro esperado de um algoritmo pode ser decomposto em três termos principais: a variância, o viés e o ruído. A análise começa com a expressão H(X) - barY(X) .
  • Ao calcular a expectativa do produto entre duas variáveis, observa-se que os valores esperados se cancelam, levando à simplificação da expressão.
  • A decomposição é feita considerando as expectativas condicionais, permitindo separar as variáveis dependentes e independentes.

Variância do Classificador

  • A variância mede como as previsões de diferentes classificadores treinados em conjuntos de dados distintos podem variar. Isso reflete a sensibilidade do modelo às flutuações nos dados de treinamento.
  • O foco não está apenas na precisão das previsões, mas sim na diferença entre a previsão média e uma previsão específica feita por um classificador.

Ruído nos Dados

  • O termo barY - Y representa o ruído presente nos dados. Se houver uma grande discrepância entre os rótulos esperados e os reais, isso indica que o problema é complexo.
  • Dados ruidosos significam que características semelhantes podem ter rótulos muito diferentes, dificultando a tarefa preditiva.

Viés do Modelo

  • O viés quadrado captura o erro remanescente quando se tenta prever o rótulo esperado sem considerar o ruído. Refere-se à tendência do modelo em favorecer certas explicações que não estão presentes nos dados.
  • Um exemplo prático é quando um modelo linear é ajustado a dados não lineares; mesmo com muitos dados, erros persistem devido ao viés intrínseco do modelo.

Resumo dos Componentes do Erro

  • O erro total é composto pela soma da variância, viés e ruído. Cada componente desempenha um papel crucial na compreensão da performance geral de um classificador.

Análise de Erros em Classificadores

Compreendendo o Viés e a Variância

  • O erro em um classificador pode ser decomposto em três partes: viés, variância e ruído. A tarefa do cientista de dados é identificar qual desses componentes está contribuindo mais para o erro.
  • É crucial determinar se o viés ou a variância estão altos. Muitas vezes, as pessoas tentam reduzir o ruído ou a variância quando na verdade seu problema é o viés.

Exercício Analógico com Dardos

  • O instrutor propõe uma analogia usando dardos para ilustrar os conceitos de viés e variância. Ele pede aos alunos que imaginem como seriam os lançamentos dependendo dos níveis de viés e variância.
  • Se houver baixa variância e baixo ruído, todos os dardos estarão centralizados no alvo, resultando em pouco erro.

Cenários de Viés e Variância

  • Quando há alta variância mas baixo viés, os lançamentos são imprecisos (variados), mas a média dos lançamentos ainda acerta o centro do alvo.
  • Em contraste, se houver alto viés e baixa variância, todos os lançamentos acertam um ponto específico com precisão, mas esse ponto está incorreto.
Video description

Lecture Notes: http://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote12.html