Projeto prático com dados dados Linkedin
Como Criar uma Automatização para Extração de Dados do LinkedIn?
Introdução ao Projeto
- O vídeo apresenta um passo a passo sobre como criar uma automatização para extrair dados do LinkedIn, mostrando o valor dessa informação em um painel.
- A solução pode ser aplicada tanto em empresas quanto para empreendedores que desejam usar dados como portfólio ou serviço.
Demonstração do Painel
- O apresentador mostra um painel com oportunidades do LinkedIn, categorizadas por tecnologias e suas respectivas quantidades.
- Exemplo: 2.114 vagas disponíveis para SQL, com informações detalhadas sobre as tecnologias exigidas nas vagas.
Arquitetura da Solução
- A arquitetura do projeto é fundamental; utiliza-se o Octoparse para extração de dados na nuvem, permitindo agendamentos automáticos.
- O Octoparse possui uma versão gratuita que permite até 10 tarefas simultâneas, sendo ideal para quem está começando.
Processamento e Armazenamento dos Dados
- Os dados extraídos são enviados ao Google Cloud via API do Google Sheets, onde são armazenados e gerenciados.
- O Google Sheets é utilizado como repositório de banco de dados, facilitando a visualização e manipulação das informações.
Implementação Prática
- O projeto foi desenvolvido em cerca de 4 a 5 horas em um único dia; há espaço para melhorias na estrutura apresentada.
Como Extrair Dados de Vagas no LinkedIn?
Introdução à Extração de Dados
- O processo de extração de dados permite pesquisar por templates específicos, como o do LinkedIn, que fornece um passo a passo para rodar a busca e visualizar uma amostragem dos dados disponíveis.
Detalhes da Extração
- A extração inclui informações como palavra-chave, localização, título da vaga, link da empresa e tempo desde a publicação da vaga. Esses dados são calculados em tempo real durante a extração.
Classificação das Vagas
- A descrição das vagas é crucial para classificar as oportunidades com base em habilidades específicas (ex: SQL, Power BI), além de indicar o nível de senioridade e se o trabalho é full-time ou part-time.
Fontes de Dados
- É possível visualizar as fontes dos dados extraídos e entender quais termos estão sendo utilizados na pesquisa. Isso inclui plataformas como Glassdoor e outras relacionadas ao tema "Jobs".
Opções de Execução
- O usuário pode optar por rodar a extração localmente ou na nuvem. Embora existam opções gratuitas, os serviços pagos oferecem mais funcionalidades. É importante considerar os custos envolvidos antes de iniciar.
Como Configurar o Processo?
Teste Gratuito e Custo
- Existe um período de teste gratuito que permite usar a ferramenta sem custo inicial. Após esse período, é necessário avaliar se os custos podem ser repassados aos clientes em projetos específicos.
Agendamento da Extração
- O agendamento automático permite que o processo rode diariamente em horários definidos pelo usuário. Informações sobre duplicidade nos dados também são apresentadas após cada execução.
Exportação dos Dados
- Os dados extraídos podem ser exportados para diferentes formatos (Excel, JSON, XML). Também há opções para integração com bancos de dados como SQL Server e Google Sheets.
Integrações com Ferramentas Externas
Uso do Zapier
- A automação através do Zapier facilita a transferência dos dados para outras plataformas. Um vídeo explicativo sobre essa ferramenta será disponibilizado caso haja interesse.
Configuração no Google Cloud
- Para utilizar APIs gratuitamente no Google Cloud, é necessário criar um projeto novo dentro da plataforma após cadastro prévio.
Conclusão sobre Acesso às Informações
Como Criar e Configurar uma Conta de Serviço no Google Cloud?
Criação da Conta de Serviço
- O processo começa com a criação de um projeto, onde todas as permissões associadas ao projeto são exibidas.
- Ao criar uma conta de serviço, é necessário fornecer um nome (exemplo: "planilhas"), que gerará automaticamente um e-mail para essa conta.
- Após a criação, é possível adicionar chaves à conta de serviço. A chave deve ser criada no formato JSON, permitindo o download do arquivo necessário para acesso às informações.
Configuração do Acesso
- O arquivo baixado contém informações essenciais que devem ser copiadas e coladas na plataforma OctoPax junto com o e-mail da conta de serviço.
- É crucial compartilhar a planilha com o e-mail da conta de serviço, concedendo acesso como editor para permitir que ela escreva na planilha.
Agendamento da Exportação de Dados
- Uma vez configurado o acesso, é possível agendar a exportação dos dados sem precisar acessar manualmente o OctoPax toda vez.
- O agendamento é uma funcionalidade disponível apenas em contas pagas, permitindo processar dados automaticamente em horários específicos (ex: durante a madrugada).
Verificação das APIs
- É importante verificar se a API do Google Sheets está habilitada nas configurações do projeto após realizar os testes iniciais.
- As solicitações feitas à API devem aparecer corretamente; caso contrário, será necessário habilitar novamente a API.
Como Estruturar Visualizações de Dados?
Informações sobre Vagas
- A visualização inclui detalhes como título da vaga, nível, tempo desde a postagem e local. Esses dados são extraídos diariamente às 23 horas.
- Os usuários podem filtrar vagas por critérios específicos (ex: SQL), permitindo identificar recrutadores ativos e suas respectivas vagas.
Interação com Recrutadores
- A plataforma permite enviar mensagens personalizadas aos recrutadores baseando-se nas vagas disponíveis. Isso facilita aproximações profissionais relevantes.
Análise do Mercado
Análise de Vagas com SQL e Python
Criação de Colunas e Análise de Dados
- O projeto utiliza SQL para criar colunas a partir da descrição das vagas, transformando palavras-chave em maiúsculas para facilitar a busca.
- A análise permite identificar quantas vagas exigem tanto SQL quanto Python, mostrando a intersecção entre as habilidades requeridas.
- Os dados revelam que uma vaga pode exigir ambos os conhecimentos, com números específicos indicando a demanda por cada linguagem.
Interseção entre Habilidades
- Ao filtrar as vagas, observa-se que mais de 70% das oportunidades que pedem Python também requerem SQL, destacando a importância dessa combinação no mercado.
- A análise é focada na área de analista de dados, onde o conhecimento em SQL se mostra crucial para acompanhar tendências do mercado.
Feedback e Aprendizado
- O apresentador solicita feedback dos espectadores sobre o projeto e se há interesse em versões futuras ou outros temas relacionados.
- É mencionado que existem cursos disponíveis na plataforma para aprender Python e SQL, permitindo replicar os projetos apresentados.
Projetos Adicionais
- O criador do conteúdo está aberto a sugestões sobre novos projetos ou ferramentas que possam ser exploradas, incentivando interação com o público.