Construção de Pipeline - Parte 2

Name: Construção de Pipeline - Parte 2
Uploaded: 2024-06-21T22:19:37.000Z
Duration: 38 min

Aula sobre Pipeline e Seleção de Características

Introdução ao Pipeline

O instrutor dá as boas-vindas aos participantes e menciona que a aula dará continuidade à construção do pipeline discutido na aula anterior.

A primeira tarefa de pré-processamento foi dividida em duas partes: uma para atributos numéricos e outra para atributos categóricos.

Pré-processamento dos Dados

Para agrupar o pré-processamento, foi utilizada a classe ColumnTransformer, permitindo aplicar diferentes ações a diferentes colunas.

O DataFrame resultante do pré-processamento será utilizado como entrada para a técnica de seleção de características, especificamente o algoritmo forward.

Avaliação do Pipeline

Após gerar o pipeline, os resultados são avaliados usando o algoritmo Sequential Feature Selector (SFS).

O método predict é chamado no pipeline, gerando resultados com 95% de acurácia, 94% de recall, 95% de precisão e 94% no F1 score.

Seleção das Características

Foi ajustado que o pipeline selecionaria nove características. Essa redução é considerada positiva para a base de dados trabalhada.

O instrutor destaca a importância de acessar os níveis gerados pelo pipeline para obter os nomes das características selecionadas.

Estrutura do Pipeline

É necessário especificar qual objeto dentro do pipeline está sendo referenciado ao buscar os nomes das características.

Um truque mencionado envolve instanciar o pipeline como uma lista para acessar as tarefas específicas dentro dele.

Extraindo Nomes das Features

Ao acessar o objeto correto da seleção de características, é possível utilizar a função get_feature_names_out para obter os nomes das features selecionadas.

O instrutor explica que se não for referenciado corretamente, pode ocorrer um erro ao tentar acessar atributos inexistentes em outros objetos do pipeline.

Repetição do Processo com Direção Backward

Após completar a seleção forward, o processo será repetido utilizando direção backward.

Um novo pipeline será gerado rapidamente através da cópia e alteração da direção no código existente.

Execução de Modelos com Seleção de Características

Processo de Execução e Tempo

O processo de execução do modelo utilizando a abordagem backward é mencionado como sendo mais demorado, levando cerca de um minuto para completar.

A saída da execução mostra que o tempo total foi de 1 minuto e 34 segundos, enquanto o modelo está em execução paralela.

Montagem do RFE

O autor menciona a montagem do RFE (Recursive Feature Elimination), passando o conjunto X e o classificador Decision Tree.

Após a execução, as métricas são geradas usando Ger métricas, onde se utiliza y Test e Pipe predict.

Comparação entre Métodos

O resultado da abordagem backward foi de 93%, ligeiramente inferior ao método forward que obteve 95%.

Ao rodar a seleção de características com RFE, observa-se que este método é mais rápido na geração do pipeline.

Análise das Características Selecionadas

O algoritmo Decision Tree utiliza medidas de importância das características devido à sua natureza baseada em árvore.

As métricas para o modelo RFE foram inferiores, apresentando 92% na avaliação final.

Intersecção entre Algoritmos

A análise revela que o método forward encontrou quatro características exclusivas, enquanto backward identificou apenas uma.

Entre os métodos backward e forward, há seis características comuns; no entanto, apenas duas são iguais entre todos os três algoritmos analisados.

Transformações Categóricas no Pipeline

Observa-se que as transformações categóricas realizadas durante o processo incluem prefixos nos nomes das colunas para indicar seu tipo (numérico ou categórico).

A utilização do One Hot Encoder dentro do pipeline resulta em categorias rotuladas adequadamente conforme suas transformações.

Conclusão sobre o Pipeline

Um pipeline genérico foi desenvolvido para os três algoritmos testados, permitindo uma comparação eficaz dos resultados obtidos.

Pipeline de Algoritmos: Análise e Resultados

Execução do Algoritmo

O apresentador inicia a execução do algoritmo, destacando que irá seguir um padrão com as direções forward e backward, além do RFE (Recursive Feature Elimination), para verificar as diferenças entre eles.

Após alguns minutos de execução, os resultados mostram que o método forward teve uma leve queda na performance, enquanto o backward ficou quase empatado com ele, apresentando resultados muito próximos.

A análise das características revela que o método backward não encontrou novas características, enquanto o forward identificou apenas uma característica exclusiva. Ambos os métodos compartilharam sete características em comum.

Comparação dos Métodos

O RFE apresentou um desempenho inferior ao dos outros métodos, resultando em três características exclusivas. Essa comparação é importante para entender como cada método se comporta em relação aos dados analisados.

O apresentador observa que a amostragem utilizada não trouxe diferenças significativas nos resultados comparados à primeira rodada de testes, onde os resultados foram mais interessantes.

Conclusões sobre o Pipeline

A discussão encerra-se enfatizando a importância do pipeline no processo de descoberta de conhecimento dentro da mineração de dados. Ele permite uma execução automática e sequencial das etapas envolvidas.

O uso do recurso pipeline contribui para a robustez do código, facilitando ajustes e correções futuras, além de proporcionar ganhos significativos em desempenho.