FIDLE / L’enfer des données, des modèles et des représentations...

FIDLE / L’enfer des données, des modèles et des représentations...

Introduction à l'enfer des données

Présentation de la séquence

  • Bonjour et bienvenue à cette nouvelle séquence sur l'enfer des données, modèles et représentations dans le cadre de l'intelligence artificielle.
  • Cette séquence est généraliste et vise à aborder les enjeux liés aux données, qui dépassent largement le cadre du Deep Learning.

Organisation et participants

  • Les questions peuvent être posées via fidel.cs.fr/q2a, gérées par l'équipe d'Idriss.
  • Présentation des membres présents dans la salle 107, incluant Nathan, Victor, Myriam et d'autres.
  • Remerciements aux équipes techniques pour leur soutien logistique durant la session.

Les enjeux des données

Compréhension des données

  • Introduction au concept de donnée : omniprésente mais difficile à définir. Discussion sur "l'enfer des données" et ses implications.

Définition et types de données

  • Une donnée est définie comme ce qui est connu et admis, servant de base à un raisonnement ou une recherche.
  • Les données peuvent provenir d'observations ou être générées par calcul (ex. HPC), avec distinction entre données naturelles et synthétiques.

Transformation en connaissance

Compréhension des Données et Causalité

L'importance de la compréhension des données

  • La capacité d'exploiter les données permet une compréhension approfondie de la causalité, illustrant comment un événement peut en déclencher un autre.
  • Un modèle physique aide à expliquer les observations faites à partir des données, soulignant l'importance d'une interprétation correcte.

Les erreurs d'interprétation

  • Les interprétations des données peuvent être erronées, soit par erreur humaine, soit par croyances fausses.
  • La psychologie et les sciences humaines peuvent éclairer sur ces phénomènes de croyance erronée qui affectent notre compréhension.

Sensibilité des algorithmes aux biais

  • Les intelligences artificielles et algorithmes sont également sensibles aux erreurs d'interprétation, ce qui pose un défi dans leur utilisation.

Représentation de la Réalité

Observation et représentation

  • L'exemple du film "Stalker" illustre comment un personnage observe une ruine et en fait une représentation pour prendre une décision.
  • Cette représentation est influencée par la réalité observée, mais elle peut être inexacte ou incomplète.

Problématiques liées à l'observation

  • Il est crucial de se demander si l'observation est représentative ou polluée par des biais.
  • La représentation peut être trop simple ou complexe, ce qui complique le processus décisionnel basé sur ces données.

Définition et Impact du Biais

Comprendre le biais dans les données

  • Un biais est défini comme un écart par rapport à la norme; il peut avoir des implications significatives sur l'analyse des données.
  • Tous les biais ne sont pas nécessairement négatifs; certains peuvent offrir des perspectives utiles malgré leur nature déformante.

Décrire la réalité avec des données

  • Le véritable enjeu réside dans la manière dont nous décrivons la réalité à travers les données disponibles.
  • Des cas simples permettent une représentation numérique efficace via scalaires, vecteurs ou matrices.

Complexité de la Représentation Numérique

Représentation numérique simplifiée

Représentation des Données et Graphes

Introduction à la représentation des données

  • La représentation numérique des données varie selon le type de signal : un vecteur pour une composition, une série pour un signal audio, ou une matrice de pixels pour une image.
  • Les graphes permettent de structurer les données en établissant des liens entre elles, ce qui est essentiel pour représenter presque toutes les données structurées.

Applications des graphes

  • Les graphes sont particulièrement utiles dans le domaine du Deep Learning, notamment pour la représentation de molécules chimiques et d'informations environnementales.
  • Ils servent également à modéliser les communications dans les réseaux informatiques et sociaux, ainsi que dans divers domaines ethnologiques.

Autres formes de représentation

  • Une autre famille importante de représentations est celle des nuages de points et surfaces 3D (manifolds), qui décrivent des structures complexes rencontrées dans la vie quotidienne.
  • En imagerie médicale, l'analyse se concentre souvent sur l'intérieur d'un corps plutôt que sur sa surface.

Complexité des structures 3D

  • Les nuages de points peuvent illustrer la distribution d'informations sur des objets sphériques ou complexes comme un avion.
  • Ces représentations sont cruciales dans divers domaines scientifiques tels que l'étude des matériaux et le climat.

Importance des tenseurs

  • Pour traiter ces différentes formes de données, il est essentiel d'utiliser des tenseurs, car les algorithmes ne peuvent ingérer que cette structure.

Mouvement et Séquences Temporelles

Types de mouvements

  • Le mouvement peut être simple (comme celui d'un avion en vol), mais aussi complexe avec plusieurs acteurs interagissant au sein d'une vidéo.

Représentation du texte

  • Un exemple illustratif est celui du traitement du texte : on peut scanner un document pour obtenir une image puis extraire le texte clair à partir de celle-ci.

Descripteurs pour l'information textuelle

  • On peut créer différents types de descripteurs ; par exemple, un vecteur représentant l'occurrence de chaque lettre dans un document permettrait d'identifier sa langue.

One Hot Encoding

Représentation des mots et encodage

Matrices creuses vs. Vecteurs denses

  • La mise en œuvre de grandes matrices creuses est peu pratique, tandis que les représentations d'embedding utilisent des vecteurs pour chaque mot.
  • Les vecteurs denses sont plus riches en signification, permettant une meilleure compréhension du texte par rapport à des descripteurs simples qui ne décrivent que l'appartenance à une langue.

Importance de la représentation sémantique

  • Un dictionnaire associant chaque mot à un entier n'apporte pas de sens; il s'agit simplement d'une succession de chiffres sans signification.
  • L'utilisation du One-hot encoding permet d'avoir un vecteur unique pour chaque mot, mais cela reste inefficace avec de grandes matrices creuses.

Embedding et réseaux de neurones

  • Les embeddings sont créés par des réseaux de neurones, produisant des vecteurs porteurs de sens où deux mots similaires ont des vecteurs proches dans l'espace latent.
  • Ces descripteurs sont cruciaux car le choix du type dépendra du contexte et peut influencer la pertinence des résultats.

Science ouverte et partage des données

Importance de l'Open Data

  • La science ouverte est essentielle dans le domaine de l'intelligence artificielle; elle favorise la transparence et l'accès aux publications et codes associés.
  • Libérer ses données permet aux chercheurs d'attirer l'intérêt sur leurs travaux et facilite la collaboration autour de problématiques spécifiques.

Partager pour innover

  • Le partage des données est crucial non seulement pour valoriser ses travaux mais aussi pour permettre à d'autres chercheurs d'explorer ces données afin d'en tirer parti.

Défis liés aux données en intelligence artificielle

Problèmes liés à la quantité de données

  • Deux cas classiques se présentent : avoir trop peu ou trop beaucoup de données, chacun posant ses propres défis.

Solutions face au manque ou au surplus

La Cartographie et la Modélisation des Espaces

Introduction à la cartographie

  • La cartographie représente la réalité, un concept central dans l'étude des territoires.
  • Exemple illustratif : une carte au-dessus du Mali, où le paysage est principalement désertique.

Exploration systématique de l'espace

  • Lors de l'exploration d'un territoire, on observe que la majorité est plate, sauf pour quelques formations rocheuses.
  • Trois points d'intérêt sont identifiés, mais ils ne suffisent pas pour modéliser efficacement la surface.

Stratégies de collecte de données

  • Pour améliorer la modélisation, il est nécessaire d'ajouter des données expérimentales via différentes méthodes (satellite, lidar).
  • Difficulté à cartographier des espaces complexes comme ceux en Casamance ou dans l'Himalaya sans un maillage fin.

Formats et structuration des données

  • Les choix de formats de données sont cruciaux ; les données tabulaires sont souvent utilisées par les scientifiques.
  • Les tableaux peuvent contenir des séries numériques et catégorielles ; leur représentation nécessite une attention particulière.

Numérisation et traitement des catégories

  • La numérisation des catégories peut se faire par association binaire (0 ou 1), mais cela pose des défis pour les catégories multiclasses.

Numérisation et Standardisation des Données

Défis de la numérisation

  • La question ouverte sur la numérisation des données non déterminées, comme le genre, soulève des préoccupations quant à l'introduction d'échelles pour le masculin et le féminin.
  • Une alternative serait d'utiliser un codage "one hot" pour les informations que l'on ne souhaite pas inclure dans le modèle.

Importance de la standardisation

  • Après numérisation, il est crucial de standardiser ou rééchelonner les différentes caractéristiques pour assurer une cohérence entre elles.
  • Par exemple, dans l'immobilier anglo-saxon, les surfaces en pieds carrés doivent être ajustées par rapport à d'autres valeurs numériques pour éviter une distorsion dans le modèle.

Représentation des données

  • La représentation des données est complexe et peut entraîner des pièges intellectuels si toutes les dimensions nécessaires ne sont pas prises en compte.

Le paradoxe de Simpson

Exemples du paradoxe

  • Un exemple célèbre montre qu'après avoir rendu obligatoire le port du casque à vélo, on observe paradoxalement plus de victimes. Cela semble contre-intuitif mais s'explique par un changement dans le comportement des cyclistes.
  • L'augmentation potentielle des maladies cardio-vasculaires due à moins de personnes portant leur casque illustre comment une décision peut avoir des conséquences inattendues.

Analyse statistique

  • Pour comprendre ce phénomène contre-intuitif, il est essentiel d'analyser toutes les dimensions et données disponibles afin d'obtenir une image complète du problème.

Distribution et Segmentation

Impact de la segmentation

  • En segmentant les résultats aux examens selon les matières étudiées, on découvre que plus on travaille, mieux on réussit. Cela contredit initialement certaines croyances basées sur une vue globale.

Problèmes liés aux dimensions excessives

Problèmes de haute dimensionnalité dans l'analyse des données

La complexité des dimensions

  • Avoir trop de dimensions est un problème majeur en analyse de données. Une solution consiste à éliminer les caractéristiques non pertinentes.
  • L'utilisation de techniques comme la PCA permet de créer une caractéristique composite qui résume plusieurs attributs, tels que le régime alimentaire et d'autres traits personnels.

Considérations éthiques et réglementaires

  • Le RGPD (Règlement Général sur la Protection des Données) complique le travail des data scientists, bien qu'il soit essentiel pour protéger les données personnelles.
  • La "malédiction de la dimensionnalité" est un concept clé qui illustre comment trop de dimensions peuvent nuire à l'analyse efficace des données.

Analogies avec les fêtes

  • Une analogie est faite entre le nombre de caractéristiques et le succès d'une fête : plus il y a d'invités pertinents, mieux c'est. Trop d'invités (caractéristiques) peut rendre l'événement chaotique.
  • Dans le deep learning, chaque pixel d'une image représente une caractéristique, ce qui entraîne une très haute dimensionnalité.

Structure des données à haute dimensionnalité

  • Les images et les textes sont souvent représentés par un grand nombre de caractéristiques, rendant difficile la génération d'analyses significatives.
  • Il est rare que des échantillons aléatoires aient du sens ; il faut exploiter la structure sous-jacente pour obtenir des résultats utiles.

Réalités du monde réel

  • Les défis liés aux données réelles incluent la variabilité dans les échantillons et les instruments de mesure, entraînant souvent des résultats imprécis.

Discussion sur la Reproductibilité et le Nettoyage des Données

Importance de la Reproductibilité

  • La reproductibilité dans les sciences expérimentales ne signifie pas nécessairement une reproduction identique, ce qui implique de nombreux paramètres à considérer.

Préparation et Normalisation des Données

  • Il est essentiel de numériser et standardiser les catégories de données pour assurer leur qualité, en particulier lors du nettoyage des données aberrantes.

Dimensionnalité et Paradoxe de Simpson

  • Les problèmes liés à la dimensionnalité incluent à la fois un manque et un excès de dimensions, ce qui peut mener à des paradoxes comme celui de Simpson.

Techniques de Prétraitement

  • Des techniques telles que HOG (Histogram of Oriented Gradients) sont utilisées en vision par ordinateur pour compter les traits d'objets afin d'effectuer des statistiques et reconnaître différents objets.

Traitement du Langage Naturel

  • Le traitement du langage naturel utilise TF-IDF pour normaliser le comptage des mots dans un document, facilitant ainsi l'analyse textuelle.

Compréhension du Domaine d'Application

Rôle du Data Scientist

  • Un data scientist doit non seulement maîtriser les sciences des données mais aussi comprendre le domaine spécifique lié aux données qu'il traite.

Limites des Données

  • Les données ont leurs limites; il est crucial d'adapter le modèle choisi au type de problème et à la structure des données disponibles.

Session Questions-Réponses

Gestion Technique durant la Session

  • Un changement technique a été effectué pendant la session pour améliorer l'audio, permettant ainsi une meilleure interaction avec les participants.

Clarifications sur les Attestations

  • Des clarifications ont été fournies concernant les attestations, avec une mention spéciale pour les sessions spécifiques sur le traitement audio et du langage naturel.

Outils et Méthodes en Data Science

Différences entre Régularisation et Normalisation

  • Une distinction a été faite entre régularisation, normalisation, et standardisation; ces méthodes visent toutes à réduire la variance dans les données tout en assurant leur uniformité.

Problématiques Centrales en Machine Learning

Importance Cruciale des Données

  • L'accent a été mis sur l'importance fondamentale des données dans toute application de machine learning; sans elles, il est impossible d'appliquer efficacement ces techniques.

Choix du Modèle Approprié

Processus de Sélection

Introduction aux Modèles de Machine Learning

Théorème No Free Lunch

  • Le théorème "No Free Lunch" (1997) stipule qu'aucun modèle n'est universellement meilleur ; la performance dépend du type de problème.
  • Les méthodes spécialisées sont souvent plus performantes que les méthodes généralistes, ce qui souligne l'importance de choisir le bon modèle pour chaque situation.

Complexité des Données et Modèles

  • La complexité des données peut rendre difficile le choix du modèle approprié, mais il est possible de cartographier les modèles en fonction de cette complexité.
  • Un pipeline typique commence par la transformation des données brutes : numérisation, normalisation, etc., avant d'appliquer un modèle.

Transformation et Espace Latent

  • Les transformations dans un espace latent sont essentielles pour préparer les données à l'application d'un modèle classique de machine learning.
  • Des techniques comme l'histogramme des gradients sont utilisées en traitement du langage naturel (NLP), illustrant la diversité des approches possibles.

Types de Modèles Classiques

Modèles Courants

  • Les modèles classiques incluent la régression linéaire, SVM, arbres décisionnels et forêts aléatoires.
  • D'autres modèles tels que KNN et Naïve Bayes existent également mais ne seront pas abordés en détail ici.

Dimensions et Représentation

  • Bien que les représentations soient souvent limitées à deux dimensions pour faciliter la visualisation, tous les modèles peuvent être appliqués à plusieurs dimensions.

Régression Linéaire et Logistique

Concepts Fondamentaux

  • La régression linéaire cherche à minimiser les distances entre une droite définissant les données et chaque point.
  • La régression logistique est une extension qui utilise une fonction d'activation pour effectuer une classification.

Applications Pratiques

  • L'exemple précédent illustre comment le travail et le repos influencent les résultats des tests via une régression logistique.

Support Vector Machines (SVM)

Principes Mathématiques

  • Le SVM cherche un hyperplan qui maximise la marge entre différentes classes dans un espace N-dimensionnel.

Vecteurs Support

  • Les vecteurs support sont cruciaux car ils déterminent la position de l'hyperplan ; leur mouvement peut changer le modèle mathématique sous-jacent.

Astuce du Kernel

Introduction aux Fonctions Radiales et SVM

Concepts de Fonction Radiale

  • La fonction radiale est définie par rapport à un point, où la valeur dépend de la distance. Cela permet d'obtenir une représentation graphique intéressante.
  • En appliquant cette approche à des données comme les heures de travail et de repos en relation avec le succès aux examens, on peut visualiser des distributions complexes.

Impact du Travail et du Repos sur le Succès

  • Un excès de travail ou de sommeil peut nuire à la réussite, car cela pourrait empêcher d'accomplir des tâches essentielles comme manger ou se laver.
  • Le SVM (Support Vector Machine) est présenté principalement pour la classification, mais il est également applicable à la régression.

Utilisation des Kernels dans les SVM

Choix des Kernels

  • Les kernels permettent d'adapter le modèle aux données. Par exemple, un kernel linéaire produit des séparateurs linéaires tandis qu'un kernel polynomial génère des courbes plus complexes.
  • Le kernel radial (RBF) offre une séparation plus adaptée pour certaines distributions de données.

Avantages du SVM

  • Le SVM est particulièrement efficace pour les petits ensembles de données grâce à sa flexibilité avec différents types de kernels.

Arbres de Décision : Explicabilité et Efficacité

Structure d'un Arbre de Décision

  • L'arbre de décision est un modèle explicable qui prend en compte divers critères pour prendre une décision, comme le salaire ou le temps nécessaire pour se rendre au travail.
  • Il divise l'espace décisionnel en boîtes, permettant ainsi une gestion efficace des non-linéarités dans les données.

Exemples Pratiques

  • Dans l'exemple du Titanic, les arbres montrent comment certains facteurs (comme le sexe et la classe sociale) influencent les chances de survie.

Gestion de Haute Dimensionnalité avec Arbres

Sélection Hiérarchique des Caractéristiques

  • Les arbres gèrent bien la haute dimensionnalité en sélectionnant hiérarchiquement les caractéristiques importantes tout en ignorant celles qui sont moins pertinentes.

Exemple d'Application

  • Pour classifier différents fruits, l'arbre utilise seulement quelques caractéristiques significatives parmi un ensemble plus large pour établir ses décisions.

Ensembles d'Arbres : Random Forest

Transition vers Random Forest

Introduction aux Arbres de Décision et Ensembles

Arbres de Décision Parallèles

  • Les arbres de décision parallèles sont utilisés pour classer des objets, comme une pomme, en soumettant l'objet à chaque arbre qui émet une prédiction. Un vote majoritaire détermine la décision finale.
  • Chaque arbre reçoit un sous-ensemble aléatoire du dataset pour l'apprentissage, ce qui introduit un aspect randomisé dans le processus.
  • Bien que les classificateurs individuels soient peu profonds et moins performants, leur combinaison via le vote majoritaire améliore considérablement la performance globale.

Gradient Boosting

  • Le gradient boosting est une autre approche où les arbres sont construits séquentiellement. Chaque nouvel arbre corrige les erreurs du précédent.
  • Par exemple, si un premier arbre identifie incorrectement un ananas comme une pomme, le deuxième arbre va analyser d'autres caractéristiques pour corriger cette erreur.

Comparaison avec Réseaux de Neurones

  • Cette méthode séquentielle rappelle le concept de "résidual learning" dans les réseaux de neurones, où chaque couche apprend à corriger les erreurs des couches précédentes.

Pipeline Deep Learning

Prétraitement des Données

  • Dans le pipeline deep learning, on numérise et normalise les données avant qu'elles ne soient envoyées au modèle. Ce prétraitement était auparavant effectué manuellement.
  • Les modèles de deep learning transforment ces données dans un espace latent souvent compressé, facilitant ainsi la régression et la classification rapide.

Applications Avancées

  • Pour des tâches complexes comme la génération de texte ou la détection d'objets, on utilise des parties décodeurs qui restituent les résultats dans un format naturel (image ou langage).

Structures Géométriques en Deep Learning

Graph Neural Networks (GNN)

  • Les GNN traitent des graphes et peuvent être appliqués à divers types de données structurées. Ils permettent d'analyser des relations entre points dans un nuage de points par exemple.

Choix du Modèle

Introduction aux Graphes et Réseaux de Neurones

Concepts de base des graphes

  • Les points et les informations de position sont intégrés dans le nœud, formant ainsi un graphe. Ce dernier est constitué de nœuds avec des liens qui peuvent exister ou non.
  • La structure du graphe est non ordonnée, ce qui signifie que l'ordre des nœuds n'a pas d'importance. Il faut définir les nœuds et les liens sans se soucier de leur position.

Modèles de Convolution

  • Le réseau de neurones convolutionnel (CNN) est essentiel dans le domaine du géométrique deep learning. Il utilise un filtre pour traiter les données en mouvement à travers différentes dimensions.
  • En fonction des dimensions, on applique une convolution 1D pour des séquences, 2D pour des images, et 3D pour certaines applications spécifiques comme les IRM médicales.

Réseaux Récurrents et Transformers

  • Les réseaux neuronaux récurrents (RNN) traitent les séquences de manière séquentielle tout en intégrant une mémoire, permettant ainsi la gestion d'informations complexes.
  • Les Transformers prennent en compte l'ensemble d'une séquence, établissant des relations entre toutes les informations présentes. Cela crée un graphe entièrement connecté où tous les nœuds sont interconnectés.

Performance et Complexité

  • Bien que très performants, ces modèles nécessitent une grande quantité de données et une taille importante du modèle pour fonctionner efficacement.
  • L'efficacité dépendra également de la complexité dimensionnelle des données utilisées; plus la dimensionnalité est élevée, plus il faudra gérer un volume important d'informations.

Évolution des Modèles

  • L'évolution a commencé avec le traitement de données tabulaires via SVM et Random Forest jusqu'à l'avènement du CNN en 2012 avec AlexNet.
  • Le prétraitement traditionnel est souvent remplacé par l'intégration directe dans le modèle lors du deep learning géométrique.

Questions et Perspectives Futures

  • Une session questions-réponses a été ouverte pour clarifier certains concepts abordés durant la présentation.

Comprendre les datasets : petits vs grands

Définition des datasets

  • Bertrand introduit la discussion sur la taille des datasets, en soulignant l'importance de comprendre ce qui constitue un petit ou un grand dataset.
  • Un petit dataset est défini comme ayant des centaines à des milliers de lignes, tandis qu'un grand dataset peut atteindre des milliards d'éléments.

Importance de la quantité de données

  • La quantité de données doit refléter la réalité et la complexité du problème étudié. Par exemple, modéliser un paysage plat nécessite moins de données qu'un terrain montagneux complexe comme l'Himalaya.
  • Les modèles tels que les Transformers nécessitent une très grande quantité de données pour traiter des problématiques complexes liées au langage et à la connaissance.

Exemples pratiques

  • Lors d'une analyse précédente sur un dataset concernant le vin, quelques milliers de données étaient suffisantes pour décrire le problème.
  • Pour les problèmes d'une complexité moyenne, plusieurs dizaines à une centaine de colonnes sont souvent adéquates.

Outils et techniques

  • L'ingénierie des données est essentielle pour adapter les modèles aux spécificités du dataset. Des outils traditionnels comme SVM (Support Vector Machines), Random Forest et XGBoost sont mentionnés.
  • Ces outils permettent une meilleure compréhension et préparation des données avant d'appliquer des modèles plus complexes.

Approche scientifique vs approche Big Data

  • Les Transformers fonctionnent dans un mode "bourrin", capturant autant d'informations que possible grâce à l'abondance de données disponibles sur Internet.
  • En revanche, pour les données scientifiques, il est crucial d'utiliser une approche plus artisanale afin d'affiner le modèle basé sur une bonne connaissance des distributions de données.

Panorama général sur les modèles

Introduction aux différents types de modèles

  • Une vue d'ensemble a été présentée concernant les types de problèmes liés aux données simples et complexes ainsi que leurs dimensions respectives.
  • Bertrand se concentre sur les modèles simples tandis que son interlocuteur aborde ceux plus complexes.

Objectif pédagogique

  • L'objectif est d'offrir une introduction accessible sans entrer dans trop de détails techniques ou mathématiques compliqués.
  • Bien que certains concepts mathématiques soient inévitables, l'accent sera mis sur la compréhension générale plutôt que sur le code spécifique.

Modèles avancés à explorer

Introduction au Machine Learning et à l'Efficacité des Médicaments

Compréhension de la Relation entre Densité et Efficacité

  • L'intervenant introduit une courbe représentant la relation entre la densité d'une molécule dans un médicament (X) et son efficacité (Y), sans entrer dans des détails mathématiques complexes.
  • Pour un médicament, X représente la densité d'une molécule, tandis que Y indique l'efficacité du médicament sur une population moyenne en France.
  • Il est observé qu'à une densité de 0,6, l'efficacité est élevée, mais elle diminue pour des valeurs plus faibles ou supérieures à 0,8.

Collecte de Données et Observations

  • La difficulté réside dans le fait que connaître Y (l'efficacité) est plus complexe que connaître X (la densité), car cette relation n'est généralement pas connue a priori.
  • Une enquête sera menée avec quelques observations. Dix individus sont sélectionnés pour représenter différentes densités de molécules.
  • Les points bleus sur le graphique montrent les résultats des tests effectués sur ces individus, illustrant les variations individuelles dans la réponse au produit.

Problèmes d'Erreurs et Bruit

  • Les points ne se situent pas exactement sur la courbe en raison des différences individuelles et des erreurs de mesure potentielles lors de l'évaluation de l'efficacité du produit.
  • Le phénomène étudié est inconnu a priori; il sera analysé à partir d'observations qui contiennent du bruit dû aux erreurs.

Modélisation avec Machine Learning

  • L'objectif est d'utiliser le machine learning pour établir un modèle qui relie X à Y en utilisant les données collectées.
  • Différents modèles peuvent être utilisés : linéaires ou polynomiaux. Un modèle linéaire suit la formule Y = AX + B, tandis qu'un modèle polynomial peut avoir plusieurs degrés de liberté.

Impact du Choix du Modèle

  • Le choix du modèle a un impact significatif sur les décisions prises par le data scientist. Des modèles plus complexes permettent des estimations plus précises mais peuvent aussi entraîner un risque de surajustement.
  • Après optimisation des paramètres du modèle choisi par le data scientist, il devient évident que ce choix influence fortement les résultats obtenus lors des prédictions futures.

Analyse des Erreurs et Variance

  • Un modèle linéaire peut présenter un biais élevé avec beaucoup d'erreurs sur les points connus tout en ayant une faible variance. Cela signifie qu'il ne s'ajuste pas bien aux données observées malgré sa stabilité générale.

Analyse du surapprentissage et de la généralisation

Compréhension du surapprentissage

  • Le modèle présente un biais extrêmement faible, indiquant des prédictions parfaites sur les points d'apprentissage. Cela semble positif à première vue.
  • Cependant, en dehors des points d'apprentissage, le modèle montre une grande variabilité, ce qui suggère qu'il n'est pas fiable pour faire des estimations dans ces zones.

Évaluation des modèles polynomiaux

  • Les modèles polynomiaux d'ordre 3 et 5 montrent une variance raisonnable tout en s'ajustant bien aux données bruitées.
  • Un bon compromis entre biais et variance est essentiel pour obtenir un modèle qui généralise correctement.

Importance de la validation croisée

  • La question cruciale en apprentissage automatique est de trouver le bon équilibre entre biais et variance, surtout avec des données complexes.
  • La validation croisée est présentée comme une méthode clé pour évaluer ce compromis lorsque les données sont multidimensionnelles.

Stratégies d'évaluation du modèle

  • Une approche classique consiste à diviser les données en ensembles d'apprentissage et de test pour éviter le surapprentissage.
  • Il existe un risque de biais si les résultats influencent l'ajustement du modèle lors de l'évaluation avec les mêmes données.

Techniques avancées pour limiter le biais

  • L'utilisation d'une validation simple (Holdout evaluation) permet de séparer les données en trois ensembles : entraînement, validation et test.
  • Cette méthode aide à réduire l'influence des ajustements basés sur les résultats obtenus lors de l'évaluation initiale.

Approche itérative avec peu de données

  • Lorsque les données sont limitées, il est conseillé de mélanger aléatoirement les ensembles avant chaque itération d'apprentissage afin d'obtenir une meilleure représentativité.
  • Travailler itérativement permet également d'atténuer l'impact des valeurs aberrantes selon leur position dans les ensembles.

Validation croisée K-fold

  • La validation croisée K-fold est introduite comme une technique efficace pour évaluer la performance du modèle lorsque peu de données sont disponibles.

Méthodologie d'Apprentissage et Évaluation des Modèles

Division des Données en Sous-ensembles

  • Les données initiales sont divisées en trois ensembles, chacun représentant 30 % des données disponibles pour l'apprentissage.
  • Le premier apprentissage utilise les ensembles 1 et 2 pour entraîner le modèle, tandis que l'ensemble 3 est utilisé pour le test.
  • Une deuxième phase d'apprentissage est réalisée avec les ensembles 1 et 3 pour l'entraînement, gardant l'ensemble 2 pour le test.
  • Un troisième apprentissage utilise l'ensemble 1 comme test et les ensembles 2 et 3 comme entraînement, permettant une évaluation complète.

Importance de la Validation Croisée

  • L'utilisation de k-fold cross-validation (souvent k = 5) est recommandée pour maximiser l'évaluation du modèle lorsque peu de données sont disponibles.
  • La méthode itérative permet de mélanger les données à chaque itération, fournissant ainsi une évaluation statistique robuste de la qualité du modèle.

Coûts Associés aux Apprentissages Multiples

  • L'augmentation du nombre de folds peut entraîner des coûts computationnels élevés si les processus d'apprentissage sont coûteux en ressources.
  • Les résultats peuvent varier légèrement entre différents apprentissages en raison de la nature aléatoire inhérente au machine learning.

Compréhension des Résultats Statistiques

  • Une approche statistique est essentielle, surtout avec un petit corpus de données. Plus il y a de données, plus les résultats tendent à se stabiliser.

Représentation des Décisions dans les Modèles

Arbres de Décision comme Outil Explicatif

  • Un exemple imaginaire illustre comment un arbre décisionnel peut être utilisé pour déterminer l'octroi d'un prêt basé sur des critères tels que l'âge et le salaire annuel.

Transparence dans la Prise de Décision

  • Il est crucial que les décisions prises par le modèle soient explicables tant pour ceux qui utilisent le modèle que pour ceux qui subissent ses décisions.

Considérations Éthiques dans la Prise de Décision

Comprendre les décisions en Machine Learning

Introduction à la prise de décision en Machine Learning

  • En machine learning, il est souvent difficile de comprendre pourquoi une décision a été prise, surtout avec les réseaux de neurones. Un exemple courant est le processus de recrutement où un algorithme présélectionne des candidats à partir d'une base de CV.
  • Pour ce faire, on utilise généralement un algorithme de traitement du langage naturel (NLP) qui transforme les données textuelles des CV en représentations numériques.
  • À partir de ces représentations, un réseau de neurones spécialisé évalue si un candidat convient pour un poste spécifique, comme celui de chirurgien.

Problèmes d'interprétabilité

  • Bien que l'on puisse accéder aux opérations effectuées par le modèle, il y a tellement d'opérations qu'il devient humainement impossible d'en comprendre la logique derrière chaque décision.
  • Cela soulève des préoccupations éthiques et pratiques : même si certains algorithmes peuvent surpasser les humains dans certaines tâches (comme médicales), leur manque d'explicabilité reste problématique.

Types d'algorithmes et transparence

  • On distingue différents types d'algorithmes :
  • Boîtes noires : Connait les entrées et sorties mais pas le fonctionnement interne.
  • Boîtes blanches : Comprend comment les décisions sont prises.
  • Boîtes grises : Accès partiel aux informations sur le modèle utilisé.
  • La majorité des modèles se situent entre ces catégories, rendant l'interprétation complexe mais pas totalement inaccessible.

Applications sensibles et vérification des décisions

  • Dans des cas critiques ou sensibles socialement, il est essentiel de vérifier que les décisions ne reposent pas sur des critères inappropriés.
  • Une histoire classique en machine learning illustre ce besoin d'explicabilité : celle des huskies contre les loups. Cette étude montre comment un réseau neuronal peut apprendre à distinguer entre deux classes visuelles.

Processus d'apprentissage et résultats

  • L'algorithme apprend à classer correctement les images grâce à une technique appelée apprentissage supervisé. Les données comprennent des images étiquetées comme huskies ou loups.
  • Après avoir appris, le modèle transforme une image donnée dans un espace latent pour extraire ses caractéristiques avant de prendre une décision sur sa classification.

Problèmes d'Interprétabilité des Algorithmes

L'impact des données sur les décisions algorithmiques

  • Les images de huskies et de loups ne sont pas toujours correctement classées par l'algorithme, soulevant des questions sur son fonctionnement.
  • Un effet de variable confondante est identifié dans le jeu d'apprentissage, où la majorité des photos de loups sont prises dans la neige, influençant ainsi les décisions du modèle.

Apprentissage basé sur des caractéristiques évidentes

  • Le réseau de neurones a appris à associer la présence de neige à l'identification d'un loup, négligeant d'autres caractéristiques importantes.
  • La variabilité entre les représentations visuelles des animaux est plus grande que celle liée à la neige, ce qui rend cette dernière une caractéristique trop simple pour prendre une décision précise.

Conséquences des décisions basées sur des variables confondantes

  • Les réseaux neuronaux peuvent faire des choix corrects pour de mauvaises raisons en raison de corrélations trompeuses dans les données d'apprentissage.
  • Il est crucial d'examiner si les décisions prises par ces modèles sont robustes et justifiées par des raisons valables.

Méthodes pour expliquer les décisions algorithmiques

  • Des techniques existent pour analyser comment un modèle prend ses décisions, même si leur compréhension complète reste difficile.
  • Par exemple, en segmentant une image et en perturbant certaines zones, on peut identifier quelles parties influencent le plus la prédiction.

Importance de l'explicabilité dans l'apprentissage automatique

  • De nombreux algorithmes d'explicabilité examinent soit l'impact des variations d'entrée sur les sorties, soit vice versa.
  • Bien que la compréhension totale du processus décisionnel soit complexe, il est possible d'expliquer localement certaines décisions individuelles.

Conclusion et perspectives futures

  • La discussion aborde également divers défis liés à la robustesse et à la transposabilité dans le monde réel concernant ces modèles.

Introduction aux outils de data science

Présentation des travaux pratiques et outils

  • Les travaux pratiques (TP) seront présentés dans un format habituel, avec l'objectif d'illustrer les concepts de manière agréable à travers des vidéos pédagogiques.
  • Des outils comme SVM, Random Forest et XGBoost sont disponibles dans la bibliothèque Scikit-learn, qui offre de nombreux exemples accessibles pour les utilisateurs.
  • L'accent sera mis sur Python, avec une recommandation d'explorer les formations disponibles via Agoria pour améliorer ses compétences en programmation.

Importance de Python et des bibliothèques associées

  • Il est conseillé d'apprendre Python si ce n'est pas déjà fait, car cela s'avérera utile. La bibliothèque Pandas est particulièrement efficace pour traiter des données tabulaires telles que les fichiers CSV.
  • Bien qu'Excel soit un outil puissant pour le traitement de données tabulaires, il existe des limitations par rapport aux capacités offertes par Python et ses bibliothèques.

Conclusion de la session actuelle

Informations logistiques

  • La fin de la séquence a été annoncée avec un PDF contenant les slides qui sera déposé ultérieurement.
  • Les attestations seront envoyées ce soir sans problème malgré quelques retards dus à la gestion du direct.

Prochaines étapes

  • Un rendez-vous est fixé pour la semaine prochaine où une session moins dense sera animée par Bertrand, axée sur divers outils disponibles aujourd'hui.

Exploration des nouveautés en data science

Panorama historique et innovations

  • La prochaine session se concentrera sur l'historique des 20 à 30 dernières années en matière de données et mettra en lumière les nouvelles technologies comme le Deep Learning.
  • De nombreuses démonstrations seront réalisées pour illustrer ces concepts tout en restant accessibles au grand public.

Éthique et réglementation

  • Une discussion sur l'éthique suivra, abordant notamment le cadre légal entourant l'intelligence artificielle (IA), y compris un texte européen voté récemment qui influencera son application future.

Perspectives sur l'éthique et les algorithmes

Réflexions sur la conformité des algorithmes

  • La discussion aborde l'importance de mettre en perspective les pratiques actuelles dans la communauté d'apprentissage pour assurer la conformité des algorithmes.
  • L'intervenant souligne que cette réflexion est essentielle avant de conclure le sujet, notamment en lien avec les enjeux éthiques.

Ressources supplémentaires

  • Une vidéo sur la chaîne concernant une édition spéciale de "Panoramia" est recommandée pour approfondir le sujet traité.
  • Les participants sont encouragés à consulter le magazine "Panoramia" ainsi que les épisodes précédents disponibles en ligne.

Prochaines étapes et conclusion

  • Un rendez-vous est fixé pour la semaine suivante, où des exemples concrets seront présentés autour des thèmes éthiques discutés.
Playlists: FIDLE, Partie 1
Video description

Les données sont au centre du machine learning, pour le meilleur et parfois pour le pire ! A travers cette toute nouvelle séquence, nous allons explorer la complexité des données et leur capacité (ou non) à décrire le monde réel, comment choisir un modèle et en interpréter le résultat. Pourquoi ces données sont-elles aussi importantes ? Biaisées, erronées, manquantes ou trop nombreuses, les données sont facilement infernales ! Comment représenter et décrire la réalité du monde physique ? Quels modèles choisir pour mon problème ? Comment expliquer ou interpréter le résultat d'une IA ? Quelle explicabilité peut-on espérer face au syndrome de la boite noire ? Pour rappel, FIDLE est une Formation d'Introduction au Deep Learning, libre et gratuite. Pour en savoir plus : https://fidle.cnrs.fr