Name: How ChatGPT Works Technically | ChatGPT Architecture
Uploaded: 2023-04-24T15:30:15.000Z
Duration: 14 min 54 s

How ChatGPT Works Technically | ChatGPT Architecture

Comment fonctionne ChatGPT

Aperçu de la section: Dans cette section, nous allons découvrir comment fonctionne ChatGPT, un modèle de langage basé sur un réseau neuronal.

Modèle de langage

Un modèle de langage est un type de modèle basé sur un réseau neuronal qui est entraîné sur d'énormes quantités de données textuelles pour comprendre et générer le langage humain.

Le modèle utilise les données d'entraînement pour apprendre les schémas statistiques et les relations entre les mots dans la langue, puis utilise ces connaissances pour prédire les mots suivants, un mot à la fois.

Un modèle de langage est caractérisé par sa taille et le nombre de paramètres qu'il contient. GPT-3.5, le modèle actuel utilisé par ChatGPT, possède 175 milliards de paramètres répartis sur 96 couches du réseau neuronal, ce qui en fait l'un des plus grands modèles d'apprentissage profond jamais créés.

Tokens

Les entrées et sorties du modèle sont organisées par tokens. Les tokens sont des représentations numériques des mots ou des parties des mots. Les nombres sont utilisés pour les tokens plutôt que les mots car ils peuvent être traités plus efficacement.

Entraînement du modèle

GPT-3.5 a été entraîné sur une grande quantité de données Internet, avec un ensemble de données source contenant 500 milliards de tokens, soit plusieurs milliards de mots.

Le modèle a été entraîné à prédire le token suivant en fonction d'une séquence de tokens d'entrée. Il est capable de générer du texte structuré de manière grammaticalement correcte et sémantiquement similaire aux données Internet sur lesquelles il a été formé.

Fine-tuning avec RLHF

Pour rendre le modèle plus sûr et capable de répondre aux questions dans le style d'un chatbot, il est ensuite affiné pour devenir une version utilisée dans ChatGPT. Ce processus est appelé "Reinforcement Training from Human Feedback" (RLHF).

RLHF consiste à collecter des commentaires des utilisateurs réels pour créer un modèle de récompense basé sur leurs préférences, puis à améliorer itérativement les performances du modèle en utilisant la technique d'optimisation des politiques proximales (PPO). Cela permet à GPT-3.5 de générer des réponses meilleures et adaptées aux demandes spécifiques des utilisateurs.

Conceptualisation du processus

Aperçu de la section: Cette section aborde le processus conceptuel impliqué dans l'alimentation de la requête.

Alimenter la requête