Construção de Pipeline - Parte 2

Construção de Pipeline - Parte 2

Aula sobre Pipeline e Seleção de Características

Introdução ao Pipeline

  • O instrutor dá as boas-vindas aos participantes e menciona que a aula dará continuidade à construção do pipeline discutido na aula anterior.
  • A primeira tarefa de pré-processamento foi dividida em duas partes: uma para atributos numéricos e outra para atributos categóricos.

Pré-processamento dos Dados

  • Para agrupar o pré-processamento, foi utilizada a classe ColumnTransformer, permitindo aplicar diferentes ações a diferentes colunas.
  • O DataFrame resultante do pré-processamento será utilizado como entrada para a técnica de seleção de características, especificamente o algoritmo forward.

Avaliação do Pipeline

  • Após gerar o pipeline, os resultados são avaliados usando o algoritmo Sequential Feature Selector (SFS).
  • O método predict é chamado no pipeline, gerando resultados com 95% de acurácia, 94% de recall, 95% de precisão e 94% no F1 score.

Seleção das Características

  • Foi ajustado que o pipeline selecionaria nove características. Essa redução é considerada positiva para a base de dados trabalhada.
  • O instrutor destaca a importância de acessar os níveis gerados pelo pipeline para obter os nomes das características selecionadas.

Estrutura do Pipeline

  • É necessário especificar qual objeto dentro do pipeline está sendo referenciado ao buscar os nomes das características.
  • Um truque mencionado envolve instanciar o pipeline como uma lista para acessar as tarefas específicas dentro dele.

Extraindo Nomes das Features

  • Ao acessar o objeto correto da seleção de características, é possível utilizar a função get_feature_names_out para obter os nomes das features selecionadas.
  • O instrutor explica que se não for referenciado corretamente, pode ocorrer um erro ao tentar acessar atributos inexistentes em outros objetos do pipeline.

Repetição do Processo com Direção Backward

  • Após completar a seleção forward, o processo será repetido utilizando direção backward.
  • Um novo pipeline será gerado rapidamente através da cópia e alteração da direção no código existente.

Execução de Modelos com Seleção de Características

Processo de Execução e Tempo

  • O processo de execução do modelo utilizando a abordagem backward é mencionado como sendo mais demorado, levando cerca de um minuto para completar.
  • A saída da execução mostra que o tempo total foi de 1 minuto e 34 segundos, enquanto o modelo está em execução paralela.

Montagem do RFE

  • O autor menciona a montagem do RFE (Recursive Feature Elimination), passando o conjunto X e o classificador Decision Tree.
  • Após a execução, as métricas são geradas usando Ger métricas, onde se utiliza y Test e Pipe predict.

Comparação entre Métodos

  • O resultado da abordagem backward foi de 93%, ligeiramente inferior ao método forward que obteve 95%.
  • Ao rodar a seleção de características com RFE, observa-se que este método é mais rápido na geração do pipeline.

Análise das Características Selecionadas

  • O algoritmo Decision Tree utiliza medidas de importância das características devido à sua natureza baseada em árvore.
  • As métricas para o modelo RFE foram inferiores, apresentando 92% na avaliação final.

Intersecção entre Algoritmos

  • A análise revela que o método forward encontrou quatro características exclusivas, enquanto backward identificou apenas uma.
  • Entre os métodos backward e forward, há seis características comuns; no entanto, apenas duas são iguais entre todos os três algoritmos analisados.

Transformações Categóricas no Pipeline

  • Observa-se que as transformações categóricas realizadas durante o processo incluem prefixos nos nomes das colunas para indicar seu tipo (numérico ou categórico).
  • A utilização do One Hot Encoder dentro do pipeline resulta em categorias rotuladas adequadamente conforme suas transformações.

Conclusão sobre o Pipeline

  • Um pipeline genérico foi desenvolvido para os três algoritmos testados, permitindo uma comparação eficaz dos resultados obtidos.

Pipeline de Algoritmos: Análise e Resultados

Execução do Algoritmo

  • O apresentador inicia a execução do algoritmo, destacando que irá seguir um padrão com as direções forward e backward, além do RFE (Recursive Feature Elimination), para verificar as diferenças entre eles.
  • Após alguns minutos de execução, os resultados mostram que o método forward teve uma leve queda na performance, enquanto o backward ficou quase empatado com ele, apresentando resultados muito próximos.
  • A análise das características revela que o método backward não encontrou novas características, enquanto o forward identificou apenas uma característica exclusiva. Ambos os métodos compartilharam sete características em comum.

Comparação dos Métodos

  • O RFE apresentou um desempenho inferior ao dos outros métodos, resultando em três características exclusivas. Essa comparação é importante para entender como cada método se comporta em relação aos dados analisados.
  • O apresentador observa que a amostragem utilizada não trouxe diferenças significativas nos resultados comparados à primeira rodada de testes, onde os resultados foram mais interessantes.

Conclusões sobre o Pipeline

  • A discussão encerra-se enfatizando a importância do pipeline no processo de descoberta de conhecimento dentro da mineração de dados. Ele permite uma execução automática e sequencial das etapas envolvidas.
  • O uso do recurso pipeline contribui para a robustez do código, facilitando ajustes e correções futuras, além de proporcionar ganhos significativos em desempenho.