Le vrai métier de Data Analyst (vision globale)

Le vrai métier de Data Analyst (vision globale)

Comprendre le rĂ´le du Data Analyste

Périmètre et importance du Data Analyste

  • La vidĂ©o aborde l'importance de comprendre le rĂ´le d'un data analyste, en prĂ©cisant ce qu'il fait et ce qu'il ne fait pas.
  • Il est crucial de ne pas disperser son Ă©nergie sur des compĂ©tences inutiles lors de la montĂ©e en compĂ©tence ou d'une reconversion professionnelle.
  • Une bonne formation doit alterner entre les dĂ©tails spĂ©cifiques et une vision globale pour faciliter l'apprentissage.
  • La majoritĂ© des informations disponibles sur la data analyse proviennent souvent de personnes peu qualifiĂ©es, rendant difficile l'acquisition d'une vision claire.
  • Avoir une vision globale aide Ă  comprendre pourquoi on apprend certaines choses et leur utilitĂ© dans le domaine.

Autonomie et communication avec les recruteurs

  • Une vision globale permet d'ĂŞtre plus autonome dans sa formation et son dĂ©veloppement professionnel.
  • Parler le mĂŞme langage que les recruteurs est essentiel; il est facile de dĂ©tecter si quelqu'un comprend rĂ©ellement un domaine lors d'une conversation.
  • Les premières minutes d'un entretien peuvent rĂ©vĂ©ler si un candidat a une comprĂ©hension rĂ©elle du sujet ou non.
  • En entretien, il y a deux aspects Ă  considĂ©rer : la technique et la discussion sur l'organisation, qui nĂ©cessitent tous deux une vision globale.
  • L'expĂ©rience variĂ©e dans diffĂ©rentes entreprises aide Ă  simplifier des concepts complexes pour mieux les expliquer.

Compréhension des offres d'emploi

  • Les offres d'emploi varient considĂ©rablement en termes de compĂ©tences requises; certaines demandent Python, SQL ou des statistiques spĂ©cifiques.
  • Dans le domaine de la data, on distingue principalement deux activitĂ©s : l'intelligence artificielle (IA) et l'analyse de donnĂ©es.
  • L'IA est gĂ©nĂ©ralement associĂ©e aux Data Scientists qui utilisent des algorithmes prĂ©dictifs pour faire des recommandations basĂ©es sur les comportements passĂ©s.
  • Des exemples incluent les systèmes recommandant des produits sur Amazon grâce Ă  des algorithmes de machine learning ou deep learning.

Introduction à l'intelligence artificielle et à l'analyse de données

Concepts clés de l'intelligence artificielle

  • L'intelligence artificielle (IA) prĂ©dit et crĂ©e des rĂ©ponses basĂ©es sur des donnĂ©es, comme le fait ChatGPT en rĂ©pondant aux questions posĂ©es.
  • L'analyse de donnĂ©es se concentre sur l'examen de grandes quantitĂ©s d'informations dans les entreprises, souvent stockĂ©es dans des bases de donnĂ©es appelĂ©es Data Warehouse.

RĂ´le du Data Analyst et Business Intelligence

  • Le terme "Business Intelligence" (BI) est souvent synonyme de Data Analyst, bien que BI puisse impliquer une analyse plus approfondie.
  • Il existe une perception erronĂ©e en France selon laquelle la complexitĂ© thĂ©orique confère plus de valeur aux projets d'IA, alors qu'en rĂ©alitĂ©, cela ne reprĂ©sente qu'une petite fraction des projets data.

Importance de l'analyse par rapport Ă  l'IA

  • L'IA concerne environ 10 % des projets liĂ©s aux donnĂ©es, tandis que presque toutes les entreprises ont besoin d'analyser leurs performances via leurs donnĂ©es.
  • Les analyses permettent d'Ă©valuer les performances commerciales et marketing, ce qui est essentiel pour la majoritĂ© des entreprises.

Évolution du marché du travail dans le domaine des données

  • Bien que les Data Scientists soient gĂ©nĂ©ralement mieux rĂ©munĂ©rĂ©s, il y a moins de postes disponibles comparĂ©s aux Data Analysts.
  • La tendance actuelle montre un changement vers le recrutement majoritaire de Data Analysts par rapport aux Data Scientists dans les Ă©quipes data.

Génération et utilisation des données en entreprise

  • Les entreprises gĂ©nèrent une grande quantitĂ© de donnĂ©es grâce Ă  divers outils utilisĂ©s par leurs Ă©quipes marketing pour gĂ©rer les campagnes publicitaires.
  • Chaque action effectuĂ©e par un employĂ© sur ces outils gĂ©nère des tableaux contenant des informations prĂ©cieuses pour l'analyse.

Analyse inter-départementale

  • Les Ă©quipes commerciales utilisent Ă©galement ces outils pour suivre la performance commerciale et analyser le taux de conversion client.

Analyse des données et optimisation des performances

Importance de l'analyse des performances

  • Les entreprises cherchent Ă  amĂ©liorer leurs produits et opĂ©rations, indĂ©pendamment de l'Ă©quipe qui pilote le business. La direction s'intĂ©resse aux performances de chaque Ă©quipe (marketing, commerciaux, ingĂ©nierie, opĂ©rations).

Collecte et gestion des données

  • Chaque Ă©quipe utilise des logiciels permettant de rĂ©cupĂ©rer les rĂ©sultats et d'analyser les donnĂ©es gĂ©nĂ©rĂ©es, ce qui crĂ©e un volume considĂ©rable d'informations.
  • Ces donnĂ©es sont stockĂ©es dans un Data Warehouse, une base de donnĂ©es optimisĂ©e pour le Big Data.

Processus d'ingestion et d'analyse des données

  • Le processus se dĂ©roule en deux Ă©tapes : ingestion des donnĂ©es puis analyse. On ingère les donnĂ©es marketing vers un outil central (Data Warehouse).
  • L'ingestion est souvent rĂ©alisĂ©e avec Python ou des outils comme Spark. Cela implique la crĂ©ation de pipelines d'ingestion appelĂ©s ETL (Extract, Transform, Load).

Outils et techniques d'analyse

  • Une fois les donnĂ©es ingĂ©rĂ©es quotidiennement, on effectue des analyses via SQL sur le Data Warehouse. Ce langage permet de faire des requĂŞtes pour analyser les tableaux.
  • Des outils de dashboarding comme Looker Studio ou Power BI sont utilisĂ©s pour visualiser ces analyses. Ces outils permettent la crĂ©ation de dashboards basĂ©s sur les tables du Data Warehouse.

Exemples pratiques

Introduction au Data Warehouse et aux RequĂŞtes SQL

Qu'est-ce qu'un Data Warehouse ?

  • Un Data Warehouse est essentiellement une collection de tables qui permet d'effectuer des requĂŞtes SQL pour rĂ©aliser des analyses.
  • Il s'agit d'une base de donnĂ©es Big Data oĂą l'on peut exĂ©cuter des requĂŞtes pour obtenir des rĂ©sultats significatifs Ă  partir des donnĂ©es stockĂ©es.

Exemple de RequĂŞte SQL

  • Un exemple de requĂŞte SQL pourrait ĂŞtre le calcul du nombre d'hĂ´tels et d'agences de location signĂ©s sur une pĂ©riode donnĂ©e.
  • Les rĂ©sultats peuvent ĂŞtre filtrĂ©s par mois, permettant ainsi une analyse claire et prĂ©cise des performances commerciales.

Utilisation des Dashboards dans l'Analyse de Données

Importance des Dashboards

  • Un dashboard bien conçu permet aux Ă©quipes, comme celles du transport, d'analyser facilement les donnĂ©es pertinentes pour leur activitĂ©.
  • Par exemple, un dashboard peut afficher le coĂ»t du transport, le nombre de livraisons et le poids total livrĂ© sur une pĂ©riode spĂ©cifique.

Outils Utilisés

  • Les dashboards sont souvent créés avec des outils comme Looker Studio, facilitant la visualisation et l'interprĂ©tation des donnĂ©es.

RĂ´les du Data Analyste et du Data Engineer

Distinction entre les RĂ´les

  • Le Data Analyste se concentre sur l'analyse des donnĂ©es tandis que le Data Engineer est responsable de l'ingestion et de la mise Ă  disposition des donnĂ©es dans le Data Warehouse.

Compétences Nécessaires

  • Le rĂ´le du Data Analyste nĂ©cessite la maĂ®trise d'un ou plusieurs outils de dashboarding ainsi que l'utilisation du langage SQL pour interroger les bases de donnĂ©es.

Clarification sur les Compétences en IA

Mythe autour de l'IA dans l'Analyse de Données

  • La majoritĂ© des Data Analysts ne travaillent pas avec l'intelligence artificielle (IA), contrairement Ă  ce que certaines formations pourraient suggĂ©rer.

Risques Associés aux Formations Inappropriées

  • De nombreuses formations promettent une expertise en machine learning ou deep learning sans lien direct avec les compĂ©tences essentielles en data analyse, ce qui peut induire en erreur.

Conclusion : L'Essentiel Ă  Retenir

Focalisation sur les Compétences Clés

Les Réalités de la Data Science et du Deep Learning

La Reconversion en Data Science

  • L'idĂ©e que l'on peut se reconvertir en data science Ă  l'âge adulte est souvent exagĂ©rĂ©e, sauf pour une minoritĂ© ayant frĂ©quentĂ© les meilleures Ă©coles d'ingĂ©nieurs.

Compétences Essentielles en Data Analyse

  • La data analyse ne se limite pas au machine learning ou au deep learning; les entreprises recherchent des compĂ©tences pratiques et non seulement thĂ©oriques.
  • ĂŠtre compĂ©tent dans ce domaine nĂ©cessite de gĂ©rer efficacement des milliers de tables et de maintenir des dashboards complexes sur le long terme.

Exemples Concrets de RequĂŞtes SQL

  • Une requĂŞte SQL complexe peut sembler simple mais demande une formation approfondie pour ĂŞtre exĂ©cutĂ©e correctement.

Importance des Compétences Cœur

  • Il est crucial de se concentrer sur les compĂ©tences fondamentales plutĂ´t que d'essayer d'acquĂ©rir un large Ă©ventail de connaissances Ă  un niveau superficiel.

Python et Statistiques dans les Offres d'Emploi

  • Le python et les statistiques sont parfois requis dans certaines offres, mais cela dĂ©pend du type spĂ©cifique de poste proposĂ©.
  • Les offres qui demandent ces compĂ©tences peuvent masquer diffĂ©rents types de mĂ©tiers sous le terme "data analyste".

Distinction entre Data Analyste et Statisticien

  • Le rĂ´le traditionnel du data analyste n'est pas celui d'un statisticien; il s'agit davantage d'une analyse descriptive que statistique avancĂ©e.

Culture Générale sur les Bases de Données

Introduction aux technologies de données

Concepts fondamentaux du SQL et des bases de données

  • Le SQL est essentiel pour interagir avec les bases de donnĂ©es, permettant d'effectuer des requĂŞtes sur des logiciels comme PostgreSQL ou MySQL.
  • Les entreprises choisissent souvent entre diffĂ©rentes technologies de Data Warehouse, telles que BigQuery de Google, Redshift d'Amazon ou Snowflake, selon la taille et le type de donnĂ©es.
  • Contrairement Ă  Excel qui limite l'analyse Ă  100 000 lignes, ces outils gèrent facilement plusieurs millions de lignes sans difficultĂ©.

Avantages du Data Warehouse

  • Les Data Warehouses permettent des analyses croisĂ©es complexes sur plusieurs tableaux simultanĂ©ment, ce qui n'est pas rĂ©alisable avec Excel.
  • L'uniformitĂ© du langage SQL facilite la transition entre diffĂ©rents outils pour les analystes de donnĂ©es, contrairement aux langages spĂ©cifiques aux dĂ©veloppeurs.

Importance du SQL dans le marché du travail

Demande croissante pour les compétences en SQL

  • Une grande majoritĂ© des offres d'emploi dans le domaine des donnĂ©es mentionnent l'utilisation de technologies comme BigQuery ou Redshift.
  • Bien que moins cruciales que les compĂ©tences en SQL, la connaissance d'outils comme Power BI ou Tableau Software est Ă©galement valorisĂ©e.

Rôles dans l'écosystème des données

  • La gestion et l'analyse des donnĂ©es impliquent divers rĂ´les : Data Engineer pour la mise Ă  disposition des donnĂ©es via ETL (Extract, Transform and Load), et Data Analyst pour l'analyse proprement dite.

Différences entre Data Warehouse et Data Lake

Fonctionnalités distinctes

  • Le Data Engineer collecte les donnĂ©es provenant de diverses sources et les stocke soit dans un Data Warehouse soit dans un Data Lake.
  • Un Data Lake fonctionne comme un espace non structurĂ© oĂą sont stockĂ©es une grande quantitĂ© de fichiers CSV et autres formats similaires.

Interactions entre rĂ´les

Comprendre le rĂ´le des Data Analysts et Data Scientists

Introduction aux rôles dans l'analyse de données

  • Les utilisateurs principaux sont les Data Analysts et les Data Scientists, oĂą le premier est souvent considĂ©rĂ© comme un analyste de donnĂ©es avec plus d'expĂ©rience.
  • Le Data Scientist travaille sur des environnements tels que le data warehouse et le data lake, qui peuvent ĂŞtre comparĂ©s Ă  un grand Google Drive pour stocker des fichiers de donnĂ©es.
  • Les outils utilisĂ©s par les Data Scientists incluent Python et Spark, tandis que les Data Analysts utilisent principalement SQL pour interagir avec les bases de donnĂ©es.

Différences entre Data Warehouse et Data Lake

  • Le Data Warehouse est utilisĂ© par les Data Analysts pour stocker des donnĂ©es structurĂ©es, alors que le Data Lake est davantage orientĂ© vers les besoins des Data Scientists.
  • L'ingestion des donnĂ©es est cruciale; elle implique la collecte de donnĂ©es depuis diverses sources pour alimenter ces systèmes.

Sources de données

  • Les donnĂ©es proviennent de logiciels variĂ©s (ex. Intercom, Zendesk), ainsi que d'outils marketing comme Google Ads ou LinkedIn.
  • Les informations peuvent Ă©galement ĂŞtre stockĂ©es dans des tableurs ou directement dans une base de donnĂ©es backend utilisĂ©e par une application mobile.

Processus d'ingestion des données

  • L'application mobile utilise une base de donnĂ©es pour mĂ©moriser l'Ă©tat utilisateur, ce qui illustre comment les applications gèrent leurs informations en temps rĂ©el.
  • L'ingestion se fait souvent via un logiciel CRM tel que Salesforce, permettant aux Ă©quipes commerciales d'enregistrer et d'accĂ©der aux informations clients.

Utilisation des API pour l'accès aux données

  • Les outils comme Salesforce possèdent une API (Application Programming Interface), facilitant l'accès programmatique aux donnĂ©es nĂ©cessaires Ă  l'analyse.
  • Cette API permet au data engineer d'extraire et charger ces informations dans le data warehouse ou le data lake via du code Python.

Outils et techniques d'ingestion

  • L'ingestion est gĂ©nĂ©ralement rĂ©alisĂ©e en utilisant Python avec un framework appelĂ© Airflow, essentiel pour gĂ©rer les pipelines de traitement des donnĂ©es.
  • Le processus ETL (Extract, Transform, Load) dĂ©crit comment on extrait les donnĂ©es, Ă©ventuellement transformĂ©es avant leur chargement dans le système cible.

Conclusion sur l'importance du processus ETL

Introduction Ă  Airflow et au Data Warehouse

Utilisation d'Airflow pour l'ingestion de données

  • Airflow est utilisĂ© pour copier des donnĂ©es chaque nuit dans le Data Warehouse, permettant ainsi une mise Ă  jour rĂ©gulière avec les nouvelles donnĂ©es.
  • Cet outil est particulièrement prisĂ© par les entreprises qui adoptent de bonnes pratiques en matière de gestion des donnĂ©es, souvent manipulĂ© avec Python.

Origine et concurrence d'Airflow

  • DĂ©veloppĂ© par Airbnb, Airflow a Ă©tĂ© mis en open source, ce qui permet Ă  tout le monde de l'utiliser. D'autres outils comme Stitch Ă©mergent Ă©galement sur le marchĂ© sans nĂ©cessiter de codage.

Processus d'ingestion des données

Sources et API

  • Les entreprises utilisent plusieurs logiciels (jusqu'Ă  50), chacun gĂ©nĂ©rant des donnĂ©es quotidiennement via des APIs qui permettent aux data engineers de crĂ©er des pipelines d'ingestion.
  • Ces pipelines ingèrent les donnĂ©es dans le Data Warehouse grâce Ă  Airflow, facilitant ainsi la centralisation des informations.

RĂ´le du Data Analyste

  • Le rĂ´le du data analyste consiste Ă  effectuer des requĂŞtes sur ces donnĂ©es ingĂ©rĂ©es, utilisant SQL ou divers outils de dashboarding pour analyser les informations stockĂ©es dans le Data Warehouse.

Fréquence et méthodes d'ingestion

Fréquence d'ingestion

  • L’ingestion peut se faire quotidiennement, hebdomadairement ou mĂŞme en temps rĂ©el (streaming), bien que cette dernière mĂ©thode soit moins courante et souvent non nĂ©cessaire pour la plupart des entreprises.

Diversité des sources de données

Video description

📺 Pour accéder à la formation gratuite complète: https://bit.ly/4cGnNgA 📞 Pour faire le point sur votre profil et vous présenter notre accompagnement cliquez ici : https://bit.ly/3CGSKoK Que fait le Data Analyst concrètement ? Quelle est la différence entre le Data Analyst et les deux autres grands rôles dans la data, à savoir le Data Engineer et le Data Scientist ? Il est important de bien comprendre ce que fait concrètement le Data Analyst ainsi que son champ d’action. Le Data Analyst se concentre sur l’analyse des données. Il aide au pilotage et oriente la stratégie de l’entreprise grâce aux résultats de ses analyses dans le Data Warehouse. Le Data Engineer aide le Data Analyst et le Data Scientist en collectant des données pour les ingérer dans le Data Warehouse. Le Data Scientist se concentre également sur l’analyse des données, mais dans le domaine de l’Intelligence Artificielle. Si vous souhaitez en savoir plus sur les compétences réelles du Data Analyst, je vous invite à regarder cette vidéo : https://youtu.be/UBCNIKwxLHk?si=gDbcaB-HglpkIUkb — Qui suis-je ? Je suis Christophe Silhouette, Data Analyst expert avec plus de 9 ans d’expérience et fondateur de Cartel de la data. Je suis diplômé de l’IMT Atlantique, école d’ingénieurs classée numéro 5 sur 192 écoles d’ingénieurs en France. Pour nous retrouver : Instagram : https://www.instagram.com/carteldeladata/ Newsletter : https://train.carteldeladata.com/lp-newsetter-youtube/ — Time code : 00:00 - Le métier de Data Analyst 05:00 - Qu’est-ce qu’on fait avec la Data ? 11:27 - Qui a besoin des analyses de données ? 13:28 - La Data Analyse concrètement ? 22:17 - Les 3 outils du Data Analyst 29:56 - Les différents types de base de données & DataWarehouse 34:15 - La vision globale de la Data 38:44 - Le travail du Data Engineer : l’ingestion des données 44:32 - Résumé #dataanalyst #dataanalystformation #datascience