Escolhendo o Melhor Modelo de Machine Learning
Como avaliar um modelo de Machine Learning
Seção Visão Geral: Nesta seção, o palestrante discute a importância de avaliar modelos de Machine Learning e como escolher o melhor modelo.
Avaliando Erros em Modelos
- É importante avaliar todas as propriedades do modelo, incluindo quais colunas usar, parâmetros e tratamento de dados.
- Sempre avalie o tempo que você tem para fazer o projeto e qual precisão você deseja no seu modelo.
- O erro não é definido por você, mas sim pelo cliente ou patrocinador do projeto.
- Ajuste os tratamentos iniciais para reduzir o erro.
Ajustando Parâmetros
- Ajustar parâmetros pode levar muito tempo com pouco retorno em redução de erros.
- Combinado com seu cliente ou patrocinador do projeto, decida se vale a pena gastar muito esforço para uma pequena redução no erro.
Conclusão
Avaliar modelos de Machine Learning é crucial para garantir que eles atendam às necessidades do cliente. É importante considerar todas as propriedades do modelo e ajustá-las adequadamente para obter a precisão desejada dentro do prazo estabelecido.
A importância da avaliação do erro
Overview: Nesta seção, o palestrante discute a importância de avaliar o erro em projetos de aprendizado supervisionado e como isso pode ajudar a melhorar os resultados.
Avaliando o erro
- O tempo gasto em um projeto pode variar dependendo da região de multi-força pouco retorno.
- É importante ser sincero com o cliente sobre as expectativas em relação ao erro.
- É difícil avaliar visualmente qual reta é melhor para um modelo, por isso é necessário ter uma métrica de avaliação quantitativa.
- Existem medidas específicas de erro para cada tipo de projeto de Machine Learning.
Tratando o erro
- O palestrante apresenta diferentes formas de avaliar o erro, mas destaca que a forma mais fácil é medir a distância entre os pontos e a reta.
- Entender como lidar com o erro pode ajudar nos projetos de Machine Learning.
Cálculo do Erro Médio Absoluto
Visão Geral da Seção: Nesta seção, o palestrante explica como calcular o erro médio absoluto e como usá-lo para avaliar a precisão de um modelo de regressão.
Cálculo do Erro Médio Absoluto
- O erro médio absoluto é uma medida de quão longe as previsões de um modelo estão dos valores reais.
- É possível calcular a distância entre os pontos previstos pelo modelo e os valores reais usando uma reta que passa pelos pontos.
- A distância entre cada ponto e a reta pode ser calculada e usada para determinar o erro médio absoluto.
- O erro médio absoluto pode ser calculado usando bibliotecas ou módulos específicos em Python, como o módulo métricas.
Uso do Modelo de Regressão para Prever Valores
Visão Geral da Seção: Nesta seção, o palestrante explica como usar um modelo de regressão para prever valores e compará-los com os valores reais.
Uso do Modelo de Regressão para Prever Valores
- Um modelo de regressão pode ser usado para prever valores com base em dados históricos.
- Para fazer isso, é necessário aplicar o valor X ao modelo e obter a previsão correspondente Y.
- Depois disso, é possível comparar a previsão com o valor real correspondente para avaliar a precisão do modelo.
- Isso pode ser feito usando medidas de erro, como o erro médio absoluto.
Erro na Regressão
Visão geral da seção: Nesta seção, o palestrante explica como calcular o erro médio absoluto e o erro médio quadrático na regressão. Ele também discute a diferença entre os dois erros e quando usá-los.
Cálculo do Erro Médio Absoluto e do Erro Médio Quadrático
- O erro médio absoluto é calculado encontrando a distância absoluta entre os pontos reais e previstos.
- O erro médio quadrático é calculado encontrando a distância ao quadrado entre os pontos reais e previstos.
Diferença Entre o Erro Médio Absoluto e o Erro Médio Quadrático
- O erro médio absoluto é melhor para modelos sem outliers, enquanto o erro médio quadrático é melhor para modelos com outliers.
- É útil usar diferentes tipos de erros para entender as particularidades dos modelos gerados.
Erro na Classificação
Visão geral da seção: Nesta seção, o palestrante explica como avaliar modelos de classificação.
Avaliação de Modelos de Classificação
- A avaliação de modelos de classificação envolve encontrar a distância entre as classes reais e previstas.
- Ao contrário da regressão, não há uma reta que possa ser usada para avaliar a precisão do modelo. Em vez disso, um modelo de classificação deve acertar ou errar em relação à classe real.
- O palestrante discute como avaliar um modelo de classificação usando uma lista de transações como exemplo.
Matriz de Confusão
Visão Geral da Seção: Nesta seção, o palestrante discute a importância da matriz de confusão na classificação de transações e como ela pode ajudar a avaliar a precisão do modelo.
Importância da Matriz de Confusão
- A matriz de confusão é importante para avaliar a precisão do modelo na classificação de transações.
- Ela ajuda a identificar falsos positivos e falsos negativos.
- Falsos positivos ocorrem quando o modelo prevê que uma transação é fraudulenta, mas na verdade não é.
- Falsos negativos ocorrem quando o modelo prevê que uma transação não é fraudulenta, mas na verdade é.
Exemplos Práticos
- O palestrante fornece exemplos práticos de como a matriz de confusão pode ser usada para avaliar a precisão do modelo.
- Ele explica que se o valor real é negativo e o modelo prevê que ele é positivo, isso resulta em um falso positivo.
- Da mesma forma, se o valor real é positivo e o modelo prevê que ele é negativo, isso resulta em um falso negativo.
Limitações da Acurácia
- O palestrante enfatiza que a acurácia por si só não é suficiente para avaliar a precisão do modelo.
- É importante usar a matriz de confusão para entender melhor os resultados da classificação.
- A acurácia pode ser enganosa porque não leva em consideração as consequências dos erros cometidos pelo modelo.
Matriz de Confusão
Visão geral da seção: Nesta seção, o palestrante explica a matriz de confusão e como ela pode ser usada para minimizar erros em transações fraudulentas.
Entendendo a Matriz de Confusão
- A matriz de confusão é uma ferramenta que ajuda a entender os erros em transações fraudulentas.
- Falso positivo ocorre quando uma transação é identificada como fraude, mas na verdade não é.
- Falso negativo ocorre quando uma transação não é identificada como fraude, mas na verdade é.
Minimizando Erros com Pesos
- Os pesos podem ser usados para minimizar erros em falso positivo e falso negativo.
- O falso negativo tem um custo financeiro maior do que o falso positivo.
- Exemplos de situações onde os pesos são importantes incluem descontos elegíveis para clientes e diagnósticos médicos incorretos.
Conclusão
- A matriz de confusão e os pesos são ferramentas importantes para minimizar erros em transações fraudulentas e outras situações críticas.
Entendendo o erro em ciência de dados
Visão geral da seção: Nesta seção, o palestrante discute a importância de entender e interpretar os erros em projetos de ciência de dados.
Interpretação do erro
- A interpretação do erro é um processo importante na ciência de dados.
- Formas quantitativas podem ajudar a entender e medir o erro.
- Erro de regressão pode ser medido pela distância entre o ponto real e o ponto gerado pelo modelo.
- No processo de classificação, a matriz de confusão pode ser usada para entender quanto são falsos positivos e negativos.
Uso dos números
- É importante usar os números da melhor forma possível para interpretar o erro.
- Os números sozinhos não ajudam sem uma interpretação adequada.
- O entendimento do erro é um processo científico que requer análise e interpretação dos números.
Conclusão
- Compreender o erro é fundamental para definir o sucesso ou insucesso em projetos de ciência de dados.
- A sala pode ajudar na escolha do algoritmo mais adequado para cada projeto.
- Sugestões adicionais estão disponíveis no card, incluindo vídeos complementares e um mini-curso sobre análise de dados.