Le vrai métier de Data Analyst (vision globale)
Comprendre le rĂ´le du Data Analyste
Périmètre et importance du Data Analyste
- La vidéo aborde l'importance de comprendre le rôle d'un data analyste, en précisant ce qu'il fait et ce qu'il ne fait pas.
- Il est crucial de ne pas disperser son énergie sur des compétences inutiles lors de la montée en compétence ou d'une reconversion professionnelle.
- Une bonne formation doit alterner entre les détails spécifiques et une vision globale pour faciliter l'apprentissage.
- La majorité des informations disponibles sur la data analyse proviennent souvent de personnes peu qualifiées, rendant difficile l'acquisition d'une vision claire.
- Avoir une vision globale aide à comprendre pourquoi on apprend certaines choses et leur utilité dans le domaine.
Autonomie et communication avec les recruteurs
- Une vision globale permet d'être plus autonome dans sa formation et son développement professionnel.
- Parler le même langage que les recruteurs est essentiel; il est facile de détecter si quelqu'un comprend réellement un domaine lors d'une conversation.
- Les premières minutes d'un entretien peuvent révéler si un candidat a une compréhension réelle du sujet ou non.
- En entretien, il y a deux aspects à considérer : la technique et la discussion sur l'organisation, qui nécessitent tous deux une vision globale.
- L'expérience variée dans différentes entreprises aide à simplifier des concepts complexes pour mieux les expliquer.
Compréhension des offres d'emploi
- Les offres d'emploi varient considérablement en termes de compétences requises; certaines demandent Python, SQL ou des statistiques spécifiques.
- Dans le domaine de la data, on distingue principalement deux activités : l'intelligence artificielle (IA) et l'analyse de données.
- L'IA est généralement associée aux Data Scientists qui utilisent des algorithmes prédictifs pour faire des recommandations basées sur les comportements passés.
- Des exemples incluent les systèmes recommandant des produits sur Amazon grâce à des algorithmes de machine learning ou deep learning.
Introduction à l'intelligence artificielle et à l'analyse de données
Concepts clés de l'intelligence artificielle
- L'intelligence artificielle (IA) prédit et crée des réponses basées sur des données, comme le fait ChatGPT en répondant aux questions posées.
- L'analyse de données se concentre sur l'examen de grandes quantités d'informations dans les entreprises, souvent stockées dans des bases de données appelées Data Warehouse.
RĂ´le du Data Analyst et Business Intelligence
- Le terme "Business Intelligence" (BI) est souvent synonyme de Data Analyst, bien que BI puisse impliquer une analyse plus approfondie.
- Il existe une perception erronée en France selon laquelle la complexité théorique confère plus de valeur aux projets d'IA, alors qu'en réalité, cela ne représente qu'une petite fraction des projets data.
Importance de l'analyse par rapport Ă l'IA
- L'IA concerne environ 10 % des projets liés aux données, tandis que presque toutes les entreprises ont besoin d'analyser leurs performances via leurs données.
- Les analyses permettent d'évaluer les performances commerciales et marketing, ce qui est essentiel pour la majorité des entreprises.
Évolution du marché du travail dans le domaine des données
- Bien que les Data Scientists soient généralement mieux rémunérés, il y a moins de postes disponibles comparés aux Data Analysts.
- La tendance actuelle montre un changement vers le recrutement majoritaire de Data Analysts par rapport aux Data Scientists dans les équipes data.
Génération et utilisation des données en entreprise
- Les entreprises génèrent une grande quantité de données grâce à divers outils utilisés par leurs équipes marketing pour gérer les campagnes publicitaires.
- Chaque action effectuée par un employé sur ces outils génère des tableaux contenant des informations précieuses pour l'analyse.
Analyse inter-départementale
- Les équipes commerciales utilisent également ces outils pour suivre la performance commerciale et analyser le taux de conversion client.
Analyse des données et optimisation des performances
Importance de l'analyse des performances
- Les entreprises cherchent à améliorer leurs produits et opérations, indépendamment de l'équipe qui pilote le business. La direction s'intéresse aux performances de chaque équipe (marketing, commerciaux, ingénierie, opérations).
Collecte et gestion des données
- Chaque équipe utilise des logiciels permettant de récupérer les résultats et d'analyser les données générées, ce qui crée un volume considérable d'informations.
- Ces données sont stockées dans un Data Warehouse, une base de données optimisée pour le Big Data.
Processus d'ingestion et d'analyse des données
- Le processus se déroule en deux étapes : ingestion des données puis analyse. On ingère les données marketing vers un outil central (Data Warehouse).
- L'ingestion est souvent réalisée avec Python ou des outils comme Spark. Cela implique la création de pipelines d'ingestion appelés ETL (Extract, Transform, Load).
Outils et techniques d'analyse
- Une fois les données ingérées quotidiennement, on effectue des analyses via SQL sur le Data Warehouse. Ce langage permet de faire des requêtes pour analyser les tableaux.
- Des outils de dashboarding comme Looker Studio ou Power BI sont utilisés pour visualiser ces analyses. Ces outils permettent la création de dashboards basés sur les tables du Data Warehouse.
Exemples pratiques
Introduction au Data Warehouse et aux RequĂŞtes SQL
Qu'est-ce qu'un Data Warehouse ?
- Un Data Warehouse est essentiellement une collection de tables qui permet d'effectuer des requêtes SQL pour réaliser des analyses.
- Il s'agit d'une base de données Big Data où l'on peut exécuter des requêtes pour obtenir des résultats significatifs à partir des données stockées.
Exemple de RequĂŞte SQL
- Un exemple de requête SQL pourrait être le calcul du nombre d'hôtels et d'agences de location signés sur une période donnée.
- Les résultats peuvent être filtrés par mois, permettant ainsi une analyse claire et précise des performances commerciales.
Utilisation des Dashboards dans l'Analyse de Données
Importance des Dashboards
- Un dashboard bien conçu permet aux équipes, comme celles du transport, d'analyser facilement les données pertinentes pour leur activité.
- Par exemple, un dashboard peut afficher le coût du transport, le nombre de livraisons et le poids total livré sur une période spécifique.
Outils Utilisés
- Les dashboards sont souvent créés avec des outils comme Looker Studio, facilitant la visualisation et l'interprétation des données.
RĂ´les du Data Analyste et du Data Engineer
Distinction entre les RĂ´les
- Le Data Analyste se concentre sur l'analyse des données tandis que le Data Engineer est responsable de l'ingestion et de la mise à disposition des données dans le Data Warehouse.
Compétences Nécessaires
- Le rôle du Data Analyste nécessite la maîtrise d'un ou plusieurs outils de dashboarding ainsi que l'utilisation du langage SQL pour interroger les bases de données.
Clarification sur les Compétences en IA
Mythe autour de l'IA dans l'Analyse de Données
- La majorité des Data Analysts ne travaillent pas avec l'intelligence artificielle (IA), contrairement à ce que certaines formations pourraient suggérer.
Risques Associés aux Formations Inappropriées
- De nombreuses formations promettent une expertise en machine learning ou deep learning sans lien direct avec les compétences essentielles en data analyse, ce qui peut induire en erreur.
Conclusion : L'Essentiel Ă Retenir
Focalisation sur les Compétences Clés
Les Réalités de la Data Science et du Deep Learning
La Reconversion en Data Science
- L'idée que l'on peut se reconvertir en data science à l'âge adulte est souvent exagérée, sauf pour une minorité ayant fréquenté les meilleures écoles d'ingénieurs.
Compétences Essentielles en Data Analyse
- La data analyse ne se limite pas au machine learning ou au deep learning; les entreprises recherchent des compétences pratiques et non seulement théoriques.
- Être compétent dans ce domaine nécessite de gérer efficacement des milliers de tables et de maintenir des dashboards complexes sur le long terme.
Exemples Concrets de RequĂŞtes SQL
- Une requête SQL complexe peut sembler simple mais demande une formation approfondie pour être exécutée correctement.
Importance des Compétences Cœur
- Il est crucial de se concentrer sur les compétences fondamentales plutôt que d'essayer d'acquérir un large éventail de connaissances à un niveau superficiel.
Python et Statistiques dans les Offres d'Emploi
- Le python et les statistiques sont parfois requis dans certaines offres, mais cela dépend du type spécifique de poste proposé.
- Les offres qui demandent ces compétences peuvent masquer différents types de métiers sous le terme "data analyste".
Distinction entre Data Analyste et Statisticien
- Le rôle traditionnel du data analyste n'est pas celui d'un statisticien; il s'agit davantage d'une analyse descriptive que statistique avancée.
Culture Générale sur les Bases de Données
Introduction aux technologies de données
Concepts fondamentaux du SQL et des bases de données
- Le SQL est essentiel pour interagir avec les bases de données, permettant d'effectuer des requêtes sur des logiciels comme PostgreSQL ou MySQL.
- Les entreprises choisissent souvent entre différentes technologies de Data Warehouse, telles que BigQuery de Google, Redshift d'Amazon ou Snowflake, selon la taille et le type de données.
- Contrairement à Excel qui limite l'analyse à 100 000 lignes, ces outils gèrent facilement plusieurs millions de lignes sans difficulté.
Avantages du Data Warehouse
- Les Data Warehouses permettent des analyses croisées complexes sur plusieurs tableaux simultanément, ce qui n'est pas réalisable avec Excel.
- L'uniformité du langage SQL facilite la transition entre différents outils pour les analystes de données, contrairement aux langages spécifiques aux développeurs.
Importance du SQL dans le marché du travail
Demande croissante pour les compétences en SQL
- Une grande majorité des offres d'emploi dans le domaine des données mentionnent l'utilisation de technologies comme BigQuery ou Redshift.
- Bien que moins cruciales que les compétences en SQL, la connaissance d'outils comme Power BI ou Tableau Software est également valorisée.
Rôles dans l'écosystème des données
- La gestion et l'analyse des données impliquent divers rôles : Data Engineer pour la mise à disposition des données via ETL (Extract, Transform and Load), et Data Analyst pour l'analyse proprement dite.
Différences entre Data Warehouse et Data Lake
Fonctionnalités distinctes
- Le Data Engineer collecte les données provenant de diverses sources et les stocke soit dans un Data Warehouse soit dans un Data Lake.
- Un Data Lake fonctionne comme un espace non structuré où sont stockées une grande quantité de fichiers CSV et autres formats similaires.
Interactions entre rĂ´les
Comprendre le rĂ´le des Data Analysts et Data Scientists
Introduction aux rôles dans l'analyse de données
- Les utilisateurs principaux sont les Data Analysts et les Data Scientists, où le premier est souvent considéré comme un analyste de données avec plus d'expérience.
- Le Data Scientist travaille sur des environnements tels que le data warehouse et le data lake, qui peuvent être comparés à un grand Google Drive pour stocker des fichiers de données.
- Les outils utilisés par les Data Scientists incluent Python et Spark, tandis que les Data Analysts utilisent principalement SQL pour interagir avec les bases de données.
Différences entre Data Warehouse et Data Lake
- Le Data Warehouse est utilisé par les Data Analysts pour stocker des données structurées, alors que le Data Lake est davantage orienté vers les besoins des Data Scientists.
- L'ingestion des données est cruciale; elle implique la collecte de données depuis diverses sources pour alimenter ces systèmes.
Sources de données
- Les données proviennent de logiciels variés (ex. Intercom, Zendesk), ainsi que d'outils marketing comme Google Ads ou LinkedIn.
- Les informations peuvent également être stockées dans des tableurs ou directement dans une base de données backend utilisée par une application mobile.
Processus d'ingestion des données
- L'application mobile utilise une base de données pour mémoriser l'état utilisateur, ce qui illustre comment les applications gèrent leurs informations en temps réel.
- L'ingestion se fait souvent via un logiciel CRM tel que Salesforce, permettant aux équipes commerciales d'enregistrer et d'accéder aux informations clients.
Utilisation des API pour l'accès aux données
- Les outils comme Salesforce possèdent une API (Application Programming Interface), facilitant l'accès programmatique aux données nécessaires à l'analyse.
- Cette API permet au data engineer d'extraire et charger ces informations dans le data warehouse ou le data lake via du code Python.
Outils et techniques d'ingestion
- L'ingestion est généralement réalisée en utilisant Python avec un framework appelé Airflow, essentiel pour gérer les pipelines de traitement des données.
- Le processus ETL (Extract, Transform, Load) décrit comment on extrait les données, éventuellement transformées avant leur chargement dans le système cible.
Conclusion sur l'importance du processus ETL
Introduction Ă Airflow et au Data Warehouse
Utilisation d'Airflow pour l'ingestion de données
- Airflow est utilisé pour copier des données chaque nuit dans le Data Warehouse, permettant ainsi une mise à jour régulière avec les nouvelles données.
- Cet outil est particulièrement prisé par les entreprises qui adoptent de bonnes pratiques en matière de gestion des données, souvent manipulé avec Python.
Origine et concurrence d'Airflow
- Développé par Airbnb, Airflow a été mis en open source, ce qui permet à tout le monde de l'utiliser. D'autres outils comme Stitch émergent également sur le marché sans nécessiter de codage.
Processus d'ingestion des données
Sources et API
- Les entreprises utilisent plusieurs logiciels (jusqu'à 50), chacun générant des données quotidiennement via des APIs qui permettent aux data engineers de créer des pipelines d'ingestion.
- Ces pipelines ingèrent les données dans le Data Warehouse grâce à Airflow, facilitant ainsi la centralisation des informations.
RĂ´le du Data Analyste
- Le rôle du data analyste consiste à effectuer des requêtes sur ces données ingérées, utilisant SQL ou divers outils de dashboarding pour analyser les informations stockées dans le Data Warehouse.
Fréquence et méthodes d'ingestion
Fréquence d'ingestion
- L’ingestion peut se faire quotidiennement, hebdomadairement ou même en temps réel (streaming), bien que cette dernière méthode soit moins courante et souvent non nécessaire pour la plupart des entreprises.
Diversité des sources de données