How ChatGPT Works Technically | ChatGPT Architecture

How ChatGPT Works Technically | ChatGPT Architecture

Comment fonctionne ChatGPT

Aperçu de la section: Dans cette section, nous allons découvrir comment fonctionne ChatGPT, un modèle de langage basé sur un réseau neuronal.

Modèle de langage

  • Un modèle de langage est un type de modèle basé sur un réseau neuronal qui est entraîné sur d'énormes quantités de données textuelles pour comprendre et générer le langage humain.
  • Le modèle utilise les données d'entraînement pour apprendre les schémas statistiques et les relations entre les mots dans la langue, puis utilise ces connaissances pour prédire les mots suivants, un mot à la fois.
  • Un modèle de langage est caractérisé par sa taille et le nombre de paramètres qu'il contient. GPT-3.5, le modèle actuel utilisé par ChatGPT, possède 175 milliards de paramètres répartis sur 96 couches du réseau neuronal, ce qui en fait l'un des plus grands modèles d'apprentissage profond jamais créés.

Tokens

  • Les entrées et sorties du modèle sont organisées par tokens. Les tokens sont des représentations numériques des mots ou des parties des mots. Les nombres sont utilisés pour les tokens plutôt que les mots car ils peuvent être traités plus efficacement.

Entraînement du modèle

  • GPT-3.5 a été entraîné sur une grande quantité de données Internet, avec un ensemble de données source contenant 500 milliards de tokens, soit plusieurs milliards de mots.
  • Le modèle a été entraîné à prédire le token suivant en fonction d'une séquence de tokens d'entrée. Il est capable de générer du texte structuré de manière grammaticalement correcte et sémantiquement similaire aux données Internet sur lesquelles il a été formé.

Fine-tuning avec RLHF

  • Pour rendre le modèle plus sûr et capable de répondre aux questions dans le style d'un chatbot, il est ensuite affiné pour devenir une version utilisée dans ChatGPT. Ce processus est appelé "Reinforcement Training from Human Feedback" (RLHF).
  • RLHF consiste à collecter des commentaires des utilisateurs réels pour créer un modèle de récompense basé sur leurs préférences, puis à améliorer itérativement les performances du modèle en utilisant la technique d'optimisation des politiques proximales (PPO). Cela permet à GPT-3.5 de générer des réponses meilleures et adaptées aux demandes spécifiques des utilisateurs.

Conceptualisation du processus

Aperçu de la section: Cette section aborde le processus conceptuel impliqué dans l'alimentation de la requête.

Alimenter la requête

  • Le processus est aussi simple que d'alimenter la requête.
Video description

Get a Free System Design PDF with 158 pages by subscribing to our weekly newsletter.: https://blog.bytebytego.com Animation tools: Adobe Illustrator and After Effects. Checkout our bestselling System Design Interview books: Volume 1: https://amzn.to/3Ou7gkd Volume 2: https://amzn.to/3HqGozy The digital version of System Design Interview books: https://bit.ly/3mlDSk9 ABOUT US: Covering topics and trends in large-scale system design, from the authors of the best-selling System Design Interview series.