Corpora and AI / LLMs

Corpora and AI / LLMs

Introduction Présentation de Mark Davies

  • Mark Davies est professeur émérite en linguistique de corpus et a publié sur la création et l'utilisation de corpus.
  • Il compare les données de deux modèles linguistiques (LLMs) : Chat GPT40 d'OpenAI et Gemini 1.5 Pro de Google.
  • Les corpus d'englishcorpa.org sont plus grands et utiles pour analyser les variations entre genres, périodes ou dialectes.

Objectifs du Vidéo Questions à Explorer

  • Deux questions principales : précision des LLM par rapport aux données réelles et rôle des corpus traditionnels face aux LLM.
  • Le contenu inclut une comparaison des collocates, fréquence des mots, et variations entre genres et dialectes.
  • Conclusion sur l'utilité relative des LLM par rapport aux corpus complets.

Analyse des Collocates Comparaison avec les Corpus

  • Les LLM excellent dans l'affichage des collocates, offrant un aperçu significatif du sens des mots.
  • Les explications fournies par les LLM surpassent celles disponibles dans les corpus traditionnels.
  • Les LLM facilitent la comparaison entre deux mots similaires en analysant leurs collocates respectifs.

Fréquence des Mots Précision des Prédictions

  • Les prédictions de fréquence par les LLM correspondent bien aux données réelles pour certains mots.

Analyse des performances des LLMs

Fréquence des mots et phrases

  • Les mots en jaune apparaissent dans le top 20 des corpus, mais ne sont pas générés par les LLM.
  • Les LLM ont du mal à générer des listes de phrases fréquentes, comme celles en orange.
  • Lorsqu'on leur donne des phrases fréquentes, les LLM peuvent bien les classer par fréquence.

Compréhension des genres

  • Les LLM identifient bien les genres comme la fiction parlée ou académique.
  • Ils sont moins efficaces pour distinguer certains genres comme les blogs d'opinion.
  • Bien qu'ils soient bons pour catégoriser, ils peinent à générer des listes spécifiques par genre.

Changements linguistiques au fil du temps

  • Les prédictions sur l'augmentation ou la diminution de la fréquence des mots concordent avec les données de corpus.
  • Les LLM prédisent efficacement l'évolution de constructions syntaxiques au fil du temps.

Analyse des Modèles de Langage et Variation Dialectale

Prédictions des LLM et Données Corpus

  • Les mots en rouge ne sont pas plus fréquents dans les années 1960 ou 1970 que récemment.
  • Les LLM prédisent bien la fréquence des mots informels dans différents dialectes, comme entre les États-Unis et le Royaume-Uni.
  • Les LLM comparent efficacement les collocates d'un mot, révélant des différences de signification entre pays.

Exemples de Collocates Contrastes

  • Les adjectifs associés à "wife" varient significativement entre les dialectes asiatiques, africains et ceux du cercle intérieur.
  • Les LLM réussissent mieux avec des mots évidents comme "subarctic" au Canada qu'avec des termes moins connus.
  • Des cas existent où les LLM régurgitent simplement l'information sans analyse propre.

Limitations et Erreurs des LLM

  • GPT cite souvent des sources externes pour expliquer les collocates, ce qui peut nuire à l'originalité de l'analyse.
  • Gemini fait état d'une construction verbale largement acceptée qui n'est pas corroborée par les données corpus.
  • Bien que bons pour générer des collocates, les LLM peinent à fournir des données précises sur la fréquence des mots.

Avantages de l'Utilisation de Corpora

  • Les corpora permettent une vérification précise grâce à leur transparence sur la provenance des données.
  • La plupart des données proviennent d'englishcorpra.org, accessible gratuitement en ligne pour vérification.

Avantages des corpus par rapport aux LLMs

Précision et fiabilité

  • Les données varient d'un jour à l'autre, ce qui remet en question leur fiabilité.
  • Les LLM peuvent halluciner des informations syntaxiques incorrectes, comme des constructions verbales.

Construction linguistique

  • Les corpus sont plus précis pour les constructions lexicalement spécifiques que les LLM.
  • Les LLM ont tendance à régurgiter des informations erronées sur des constructions étroites.

Outils d'analyse

  • Les corpus permettent de visualiser les mots dans leur contexte, révélant souvent des motifs intéressants.
  • Contrairement aux LLM, les corpus fournissent des phrases réelles basées sur du texte authentique.

Interface et immersion dans l'apprentissage

Liens riches entre mots

  • Les corpus offrent une interface interactive avec de nombreux liens entre mots et phrases.
  • Exemple : recherche de "trail" montre une page riche en informations connexes.

Exploration approfondie

  • Utilisateurs peuvent naviguer facilement entre définitions, synonymes et collocates.
  • Cette expérience immersive est bien plus connectée que celle offerte par les LLM.

Utilisation conjointe des LLM et des corpus

Avantages pour la recherche

  • Les chercheurs bénéficient de données fiables provenant de véritables corpus plutôt que d'informations générées par les LLM.

Ressources pédagogiques

  • Pour enseignants et apprenants, les collocates dans les LLM sont puissants mais limités comparés aux corpus complets.

Approche équilibrée

Video description

Comparison of the predictions of LLMs (ChatGPT and Gemini) to actual corpus data (mainly from English-Corpora.org). Jump to section: 00:00 Introduction 03:24 Collocates 05:36 Comparing words (via collocates) 08:05 Word frequency 09:57 Phrase frequency 11:23 Genres 14:32 Historical 18:42 Dialects 22:54 Conclusion and discussion: data 25:14 Conclusion and discussion: advantages of corpora