Corpora and AI / LLMs
Introduction Présentation de Mark Davies
- Mark Davies est professeur émérite en linguistique de corpus et a publié sur la création et l'utilisation de corpus.
- Il compare les données de deux modèles linguistiques (LLMs) : Chat GPT40 d'OpenAI et Gemini 1.5 Pro de Google.
- Les corpus d'englishcorpa.org sont plus grands et utiles pour analyser les variations entre genres, périodes ou dialectes.
Objectifs du Vidéo Questions à Explorer
- Deux questions principales : précision des LLM par rapport aux données réelles et rôle des corpus traditionnels face aux LLM.
- Le contenu inclut une comparaison des collocates, fréquence des mots, et variations entre genres et dialectes.
- Conclusion sur l'utilité relative des LLM par rapport aux corpus complets.
Analyse des Collocates Comparaison avec les Corpus
- Les LLM excellent dans l'affichage des collocates, offrant un aperçu significatif du sens des mots.
- Les explications fournies par les LLM surpassent celles disponibles dans les corpus traditionnels.
- Les LLM facilitent la comparaison entre deux mots similaires en analysant leurs collocates respectifs.
Fréquence des Mots Précision des Prédictions
- Les prédictions de fréquence par les LLM correspondent bien aux données réelles pour certains mots.
Analyse des performances des LLMs
Fréquence des mots et phrases
- Les mots en jaune apparaissent dans le top 20 des corpus, mais ne sont pas générés par les LLM.
- Les LLM ont du mal à générer des listes de phrases fréquentes, comme celles en orange.
- Lorsqu'on leur donne des phrases fréquentes, les LLM peuvent bien les classer par fréquence.
Compréhension des genres
- Les LLM identifient bien les genres comme la fiction parlée ou académique.
- Ils sont moins efficaces pour distinguer certains genres comme les blogs d'opinion.
- Bien qu'ils soient bons pour catégoriser, ils peinent à générer des listes spécifiques par genre.
Changements linguistiques au fil du temps
- Les prédictions sur l'augmentation ou la diminution de la fréquence des mots concordent avec les données de corpus.
- Les LLM prédisent efficacement l'évolution de constructions syntaxiques au fil du temps.
Analyse des Modèles de Langage et Variation Dialectale
Prédictions des LLM et Données Corpus
- Les mots en rouge ne sont pas plus fréquents dans les années 1960 ou 1970 que récemment.
- Les LLM prédisent bien la fréquence des mots informels dans différents dialectes, comme entre les États-Unis et le Royaume-Uni.
- Les LLM comparent efficacement les collocates d'un mot, révélant des différences de signification entre pays.
Exemples de Collocates Contrastes
- Les adjectifs associés à "wife" varient significativement entre les dialectes asiatiques, africains et ceux du cercle intérieur.
- Les LLM réussissent mieux avec des mots évidents comme "subarctic" au Canada qu'avec des termes moins connus.
- Des cas existent où les LLM régurgitent simplement l'information sans analyse propre.
Limitations et Erreurs des LLM
- GPT cite souvent des sources externes pour expliquer les collocates, ce qui peut nuire à l'originalité de l'analyse.
- Gemini fait état d'une construction verbale largement acceptée qui n'est pas corroborée par les données corpus.
- Bien que bons pour générer des collocates, les LLM peinent à fournir des données précises sur la fréquence des mots.
Avantages de l'Utilisation de Corpora
- Les corpora permettent une vérification précise grâce à leur transparence sur la provenance des données.
- La plupart des données proviennent d'englishcorpra.org, accessible gratuitement en ligne pour vérification.
Avantages des corpus par rapport aux LLMs
Précision et fiabilité
- Les données varient d'un jour à l'autre, ce qui remet en question leur fiabilité.
- Les LLM peuvent halluciner des informations syntaxiques incorrectes, comme des constructions verbales.
Construction linguistique
- Les corpus sont plus précis pour les constructions lexicalement spécifiques que les LLM.
- Les LLM ont tendance à régurgiter des informations erronées sur des constructions étroites.
Outils d'analyse
- Les corpus permettent de visualiser les mots dans leur contexte, révélant souvent des motifs intéressants.
- Contrairement aux LLM, les corpus fournissent des phrases réelles basées sur du texte authentique.
Interface et immersion dans l'apprentissage
Liens riches entre mots
- Les corpus offrent une interface interactive avec de nombreux liens entre mots et phrases.
- Exemple : recherche de "trail" montre une page riche en informations connexes.
Exploration approfondie
- Utilisateurs peuvent naviguer facilement entre définitions, synonymes et collocates.
- Cette expérience immersive est bien plus connectée que celle offerte par les LLM.
Utilisation conjointe des LLM et des corpus
Avantages pour la recherche
- Les chercheurs bénéficient de données fiables provenant de véritables corpus plutôt que d'informations générées par les LLM.
Ressources pédagogiques
- Pour enseignants et apprenants, les collocates dans les LLM sont puissants mais limités comparés aux corpus complets.
Approche équilibrée