Machine Learning Lecture 19 "Bias Variance Decomposition" -Cornell CS4780 SP17

Name: Machine Learning Lecture 19 "Bias Variance Decomposition" -Cornell CS4780 SP17
Uploaded: 2018-07-11T14:13:29.000Z
Duration: 1 h 42 min 13 s
Description: Lecture Notes: http://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote12.html

Introdução ao Tema da Aula

Anúncio Inicial

A aula começa com um breve anúncio sobre sistemas robóticos, convidando interessados a se juntarem para saber mais sobre o que fazem.

Importância do Trade-off Viés-Variância

Conceito Fundamental

O professor destaca que o trade-off viés-variância é um dos tópicos mais importantes em aprendizado de máquina, essencial para entender ciência de dados.

Diferença entre Nível de Conhecimento

O trade-off é descrito como a diferença entre aqueles que apenas experimentam algoritmos e aqueles que realmente compreendem seu funcionamento.

Relevância Prática

A compreensão do tema é crucial, pois o próximo projeto da turma estará diretamente relacionado ao conteúdo abordado na aula.

Erro de Generalização

Definição e Importância

O foco da aula será no erro de generalização, uma métrica importante para avaliar modelos em aprendizado de máquina.

Decomposição do Erro

O professor explica que hoje irá decompor o erro de generalização para entender suas origens e como isso ajuda na tomada de decisões sobre classificadores.

Configuração do Problema

Dados e Distribuição

Os pontos de dados são representados como x_1, x_n, onde cada y_i pertence a um espaço real. A configuração inicial é simplificada usando um cenário de regressão.

Amostragem dos Dados

Os dados são extraídos a partir de uma distribuição P, enfatizando a importância dessa suposição em todo aprendizado de máquina.

Previsão em Regressão

Expectativa do Rótulo

Em problemas de regressão, o objetivo é prever o rótulo esperado dado um vetor X. Isso envolve calcular a média ponderada das possíveis saídas Y.

Integração das Possibilidades

Para prever corretamente, deve-se integrar todas as possíveis saídas multiplicadas pela probabilidade associada àquela saída dada X.

Algoritmos em Aprendizado de Máquina

Processo Típico

Introdução aos Algoritmos de Aprendizado de Máquina

O que é um algoritmo de aprendizado de máquina?

Um algoritmo de aprendizado de máquina processa dados de entrada, como um conjunto de treinamento, para gerar um classificador. Exemplo: perceptron ou SVM (Máquina Vetorial de Suporte).

Erro e Generalização

A partir do conjunto de dados D, extraído da distribuição P, o objetivo é calcular o erro esperado ao aplicar o classificador H em novos dados.

O erro observado no conjunto D é chamado de erro de treinamento; no entanto, o foco principal deve ser o erro esperado em novos pontos (erro teste esperado).

Cálculo do Erro Esperado

O cálculo do erro teste esperado envolve a avaliação do classificador H em novos dados X e Y provenientes da distribuição P.

Para medir esse erro, utiliza-se a perda quadrática (square loss), que simplifica as provas matemáticas.

Compreensão do Erro Generalizado

O erro generalizado dado H é crucial para entender a performance do classificador em situações práticas.

Para estimar esse erro, amostras são coletadas e avaliadas; isso se torna prático após algumas iterações.

Variabilidade dos Conjuntos de Dados

Cada conjunto D é uma variável aleatória composta por n variáveis aleatórias X e Y. Portanto, H também se torna uma variável aleatória.

Ao repetir o processo com diferentes conjuntos D extraídos da mesma distribuição P, obtemos uma distribuição sobre funções classificadoras.

Classificadores Esperados

O classificador esperado barH pode ser calculado como a média das saídas dos classificadores obtidos a partir dos conjuntos D.

Como combinar múltiplos classificadores?

Processo de Amostragem e Conjuntos de Dados

O processo de amostragem é aleatório, onde se desenham pontos de dados para formar um conjunto D, resultando em uma distribuição sobre como esse conjunto pode parecer.

Um conjunto pode ser considerado uma variável aleatória, assim como uma função. É possível amostrar muitos conjuntos diferentes para calcular expectativas sobre eles.

Discussão sobre Dados Infinitos

A questão levantada é por que dividir um grande conjunto de dados em vários menores se tivermos dados infinitos. A resposta sugere que a prática pode justificar essa divisão.

A variância dos conjuntos ajuda a entender a incerteza; ter múltiplos conjuntos pode auxiliar na argumentação, mas muitas vezes é mais prático combinar os dados em um único classificador.

Definição do Classificador Esperado

Introduz-se o conceito de um "classificador esperado", representado por h-bar, que não é um número fixo, mas sim uma função média derivada da combinação de várias funções ponderadas.

É importante notar que essas funções podem ser não lineares e podem incluir árvores de decisão.

Erro Esperado do Algoritmo

Se H for uma variável aleatória, podemos calcular o erro esperado do algoritmo A sem condicionar H. Isso envolve integrar todos os possíveis conjuntos de treinamento.

O objetivo é determinar o erro de generalização do classificador treinado com base nos dados amostrados.

Cálculo da Generalização do Algoritmo

Para calcular o erro médio do algoritmo A, deve-se treinar repetidamente com novos conjuntos e avaliar a performance em pontos testados (x,y).

Ao repetir esse processo milhões de vezes, obtemos uma média que representa o erro geral do algoritmo.

Decomposição do Erro

O foco agora está na decomposição da expressão para entender melhor as escolhas algorítmicas e seu desempenho sob diferentes distribuições de dados P.

Análise do Erro em Classificadores

Manipulação de Expressões e Erros

O autor começa a manipular uma expressão, subtraindo e adicionando H barX , que representa o classificador esperado. Ele afirma que isso não altera a essência da equação.

A manipulação é feita para facilitar a análise dos termos individuais, buscando entender a origem do erro elevado no modelo.

O autor completa o quadrado na expressão, identificando os termos A e B , onde A^2 + B^2 + 2AB é utilizado para simplificar a análise.

Identificação de Termos Nulos

Um termo específico na expressão é considerado nulo, levando à discussão sobre como se pode eliminar esse termo sem afetar o resultado final.

O autor sugere que os ouvintes discutam entre si por dois minutos para convencê-los de que o termo realmente é zero.

Expectativa e Independência

É discutido por que não se pode aplicar o mesmo raciocínio para eliminar outro termo, enfatizando a importância da expectativa linear em relação aos dados dependentes.

O autor explica como as variáveis X , Y , e D interagem, destacando que são pares independentes.

Interpretação dos Resultados

A expectativa do produto das diferenças é analisada; um dos termos se torna constante e pode ser retirado da expectativa total.

Conclui-se que ao multiplicar certos termos, todos desaparecem devido à natureza das expectativas.

Composição do Erro Total

O erro total de um algoritmo é composto por dois termos: a diferença esperada entre o classificador real e seu valor médio, além da diferença entre essa média e o rótulo verdadeiro.

O primeiro termo reflete a variância das previsões em relação à média do classificador. Essa interpretação ajuda na compreensão do desempenho do modelo.

Decomposição Adicional

O segundo termo também é analisado mais profundamente; ele envolve adicionar e subtrair valores médios relacionados ao rótulo esperado.

Análise do Erro em Algoritmos de Classificação

Decomposição do Erro

O erro esperado de um algoritmo pode ser decomposto em três termos principais: a variância, o viés e o ruído. A análise começa com a expressão H(X) - barY(X) .

Ao calcular a expectativa do produto entre duas variáveis, observa-se que os valores esperados se cancelam, levando à simplificação da expressão.

A decomposição é feita considerando as expectativas condicionais, permitindo separar as variáveis dependentes e independentes.

Variância do Classificador

A variância mede como as previsões de diferentes classificadores treinados em conjuntos de dados distintos podem variar. Isso reflete a sensibilidade do modelo às flutuações nos dados de treinamento.

O foco não está apenas na precisão das previsões, mas sim na diferença entre a previsão média e uma previsão específica feita por um classificador.

Ruído nos Dados

O termo barY - Y representa o ruído presente nos dados. Se houver uma grande discrepância entre os rótulos esperados e os reais, isso indica que o problema é complexo.

Dados ruidosos significam que características semelhantes podem ter rótulos muito diferentes, dificultando a tarefa preditiva.

Viés do Modelo

O viés quadrado captura o erro remanescente quando se tenta prever o rótulo esperado sem considerar o ruído. Refere-se à tendência do modelo em favorecer certas explicações que não estão presentes nos dados.

Um exemplo prático é quando um modelo linear é ajustado a dados não lineares; mesmo com muitos dados, erros persistem devido ao viés intrínseco do modelo.

Resumo dos Componentes do Erro

O erro total é composto pela soma da variância, viés e ruído. Cada componente desempenha um papel crucial na compreensão da performance geral de um classificador.

Análise de Erros em Classificadores

Compreendendo o Viés e a Variância

O erro em um classificador pode ser decomposto em três partes: viés, variância e ruído. A tarefa do cientista de dados é identificar qual desses componentes está contribuindo mais para o erro.

É crucial determinar se o viés ou a variância estão altos. Muitas vezes, as pessoas tentam reduzir o ruído ou a variância quando na verdade seu problema é o viés.

Exercício Analógico com Dardos

O instrutor propõe uma analogia usando dardos para ilustrar os conceitos de viés e variância. Ele pede aos alunos que imaginem como seriam os lançamentos dependendo dos níveis de viés e variância.

Se houver baixa variância e baixo ruído, todos os dardos estarão centralizados no alvo, resultando em pouco erro.

Cenários de Viés e Variância

Quando há alta variância mas baixo viés, os lançamentos são imprecisos (variados), mas a média dos lançamentos ainda acerta o centro do alvo.

Em contraste, se houver alto viés e baixa variância, todos os lançamentos acertam um ponto específico com precisão, mas esse ponto está incorreto.