Construção de Pipeline - Parte 2
Aula sobre Pipeline e Seleção de Características
Introdução ao Pipeline
- O instrutor dá as boas-vindas aos participantes e menciona que a aula dará continuidade à construção do pipeline discutido na aula anterior.
- A primeira tarefa de pré-processamento foi dividida em duas partes: uma para atributos numéricos e outra para atributos categóricos.
Pré-processamento dos Dados
- Para agrupar o pré-processamento, foi utilizada a classe
ColumnTransformer, permitindo aplicar diferentes ações a diferentes colunas.
- O DataFrame resultante do pré-processamento será utilizado como entrada para a técnica de seleção de características, especificamente o algoritmo forward.
Avaliação do Pipeline
- Após gerar o pipeline, os resultados são avaliados usando o algoritmo Sequential Feature Selector (SFS).
- O método
predicté chamado no pipeline, gerando resultados com 95% de acurácia, 94% de recall, 95% de precisão e 94% no F1 score.
Seleção das Características
- Foi ajustado que o pipeline selecionaria nove características. Essa redução é considerada positiva para a base de dados trabalhada.
- O instrutor destaca a importância de acessar os níveis gerados pelo pipeline para obter os nomes das características selecionadas.
Estrutura do Pipeline
- É necessário especificar qual objeto dentro do pipeline está sendo referenciado ao buscar os nomes das características.
- Um truque mencionado envolve instanciar o pipeline como uma lista para acessar as tarefas específicas dentro dele.
Extraindo Nomes das Features
- Ao acessar o objeto correto da seleção de características, é possível utilizar a função
get_feature_names_outpara obter os nomes das features selecionadas.
- O instrutor explica que se não for referenciado corretamente, pode ocorrer um erro ao tentar acessar atributos inexistentes em outros objetos do pipeline.
Repetição do Processo com Direção Backward
- Após completar a seleção forward, o processo será repetido utilizando direção backward.
- Um novo pipeline será gerado rapidamente através da cópia e alteração da direção no código existente.
Execução de Modelos com Seleção de Características
Processo de Execução e Tempo
- O processo de execução do modelo utilizando a abordagem backward é mencionado como sendo mais demorado, levando cerca de um minuto para completar.
- A saída da execução mostra que o tempo total foi de 1 minuto e 34 segundos, enquanto o modelo está em execução paralela.
Montagem do RFE
- O autor menciona a montagem do RFE (Recursive Feature Elimination), passando o conjunto X e o classificador Decision Tree.
- Após a execução, as métricas são geradas usando
Ger métricas, onde se utilizay TestePipe predict.
Comparação entre Métodos
- O resultado da abordagem backward foi de 93%, ligeiramente inferior ao método forward que obteve 95%.
- Ao rodar a seleção de características com RFE, observa-se que este método é mais rápido na geração do pipeline.
Análise das Características Selecionadas
- O algoritmo Decision Tree utiliza medidas de importância das características devido à sua natureza baseada em árvore.
- As métricas para o modelo RFE foram inferiores, apresentando 92% na avaliação final.
Intersecção entre Algoritmos
- A análise revela que o método forward encontrou quatro características exclusivas, enquanto backward identificou apenas uma.
- Entre os métodos backward e forward, há seis características comuns; no entanto, apenas duas são iguais entre todos os três algoritmos analisados.
Transformações Categóricas no Pipeline
- Observa-se que as transformações categóricas realizadas durante o processo incluem prefixos nos nomes das colunas para indicar seu tipo (numérico ou categórico).
- A utilização do One Hot Encoder dentro do pipeline resulta em categorias rotuladas adequadamente conforme suas transformações.
Conclusão sobre o Pipeline
- Um pipeline genérico foi desenvolvido para os três algoritmos testados, permitindo uma comparação eficaz dos resultados obtidos.
Pipeline de Algoritmos: Análise e Resultados
Execução do Algoritmo
- O apresentador inicia a execução do algoritmo, destacando que irá seguir um padrão com as direções forward e backward, além do RFE (Recursive Feature Elimination), para verificar as diferenças entre eles.
- Após alguns minutos de execução, os resultados mostram que o método forward teve uma leve queda na performance, enquanto o backward ficou quase empatado com ele, apresentando resultados muito próximos.
- A análise das características revela que o método backward não encontrou novas características, enquanto o forward identificou apenas uma característica exclusiva. Ambos os métodos compartilharam sete características em comum.
Comparação dos Métodos
- O RFE apresentou um desempenho inferior ao dos outros métodos, resultando em três características exclusivas. Essa comparação é importante para entender como cada método se comporta em relação aos dados analisados.
- O apresentador observa que a amostragem utilizada não trouxe diferenças significativas nos resultados comparados à primeira rodada de testes, onde os resultados foram mais interessantes.
Conclusões sobre o Pipeline
- A discussão encerra-se enfatizando a importância do pipeline no processo de descoberta de conhecimento dentro da mineração de dados. Ele permite uma execução automática e sequencial das etapas envolvidas.
- O uso do recurso pipeline contribui para a robustez do código, facilitando ajustes e correções futuras, além de proporcionar ganhos significativos em desempenho.