🍓 "As useful as a GOOD grad student" ― Surpasses Human Capability on Many Tasks (but not all!)

🍓 "As useful as a GOOD grad student" ― Surpasses Human Capability on Many Tasks (but not all!)

Comment évaluer l'intelligence de Strawberry ?

Introduction Ă  Strawberry

  • L'intervenant partage ses rĂ©flexions sur la version prĂ©liminaire de Strawberry, notant une accumulation d'opinions et de faits qui l'ont interpellĂ©.
  • Un tweet d'un mathĂ©maticien renommĂ© compare Strawberry Ă  un Ă©tudiant diplĂ´mĂ© mĂ©diocre, suggĂ©rant qu'il est plus intelligent que la moyenne des humains sans Ă©ducation.

Évaluations par des chercheurs

  • Un ami chercheur en ocĂ©anographie a testĂ© Strawberry et a constatĂ© qu'il pouvait presque obtenir les bonnes rĂ©ponses dès le premier essai, bien que le jargon utilisĂ© soit complexe.
  • Un autre utilisateur a demandĂ© Ă  Strawberry de crĂ©er un projet majeur sur le traitement du cancer, ce qui a Ă©tĂ© rĂ©alisĂ© rapidement avec des idĂ©es crĂ©atives et des considĂ©rations stratĂ©giques.

Comparaisons et opinions divergentes

  • Plusieurs chercheurs postdoctoraux estiment que Strawberry est aussi utile qu'un bon Ă©tudiant diplĂ´mĂ©, bien que cette opinion ne soit pas universelle.
  • La comparaison avec les Ă©tudiants diplĂ´mĂ©s fait Ă©cho aux prĂ©dictions antĂ©rieures sur l'intelligence artificielle.

Progrès dans l'évaluation de l'intelligence

  • L'intervenant collecte des donnĂ©es pour Ă©valuer la performance de Strawberry, notant une amĂ©lioration significative dans ses capacitĂ©s.
  • Une avancĂ©e notable passe d'une performance mĂ©diane (25%) Ă  environ 85%, indiquant un changement paradigmatique dans l'apprentissage machine.

Implications pour l'avenir

  • Les progrès rapides sont souvent associĂ©s Ă  des dĂ©couvertes majeures en intelligence artificielle; cela pourrait signaler une direction prometteuse pour les futures recherches.

Comprendre l'impact des modèles d'IA sur la science et l'économie

Évaluation des modèles d'IA

  • OpenAI utilise ses propres benchmarks internes, mais il est crucial de recevoir des retours pratiques de personnes rĂ©elles confrontĂ©es Ă  des problèmes concrets. Les opinions et les benchmarks sont importants, mais leur valeur peut ĂŞtre limitĂ©e.
  • Les benchmarks ont une valeur supĂ©rieure pour Ă©valuer l'intelligence des modèles par rapport aux Ă©valuations basĂ©es sur les opinions. L'impact pratique sur la science et l'Ă©conomie est essentiel pour juger de leur efficacitĂ©.

Comparaison entre les versions de GPT

  • Le modèle 01 Preview pourrait avoir un QI estimĂ© Ă  115, reprĂ©sentant une augmentation significative par rapport aux versions prĂ©cĂ©dentes. Cela suggère que chaque nouvelle version apporte une amĂ©lioration substantielle en intelligence.
  • La progression entre GPT-3 (56) et GPT-4 (83) montre une avancĂ©e notable, bien que le saut en codage soit moins prononcĂ©. Cependant, GPT-4 excelle dans les questions scientifiques au niveau doctorat.

Évolution de la technologie IA

  • Les comparaisons Ă©voluent : alors que GPT Ă©tait autrefois comparĂ© Ă  un Ă©lève du secondaire, il est maintenant mis en parallèle avec des Ă©tudiants diplĂ´mĂ©s. Cela indique une montĂ©e en compĂ©tence continue des modèles d'IA.
  • Le modèle 01 Preview semble encore basĂ© sur GPT-4 mais introduit un nouveau paradigme d'entraĂ®nement qui pourrait augmenter considĂ©rablement son intelligence fonctionnelle.

Débats autour de l'intelligence artificielle

  • La discussion sur ce qui constitue rĂ©ellement "l'intelligence" est complexe. L'accent doit ĂŞtre mis sur la sortie produite par ces systèmes plutĂ´t que sur leurs processus internes.
  • MĂŞme si certains remettent en question la nature vĂ©ritablement intelligente de ces systèmes, leur utilitĂ© Ă©conomique et scientifique reste primordiale pour Ă©valuer leur impact rĂ©el.

Perspectives futures

  • Avec le dĂ©veloppement continu de techniques comme le Chain of Thought et Monte Carlo tree search, on observe une augmentation exponentielle des capacitĂ©s intelligentes dans les nouvelles gĂ©nĂ©rations d'IA.

Qu'est-ce que l'intelligence véritable ?

Philosophie et impact technologique

  • La discussion sur ce qui constitue une "vraie intelligence" est considĂ©rĂ©e comme un leurre, dĂ©tournant l'attention des impacts scientifiques et Ă©conomiques rĂ©els de la technologie.
  • Il est soulignĂ© que mĂŞme si le coĂ»t d'utilisation de cette technologie peut ĂŞtre Ă©levĂ© (1 000 Ă  2 000 dollars par mois), son potentiel intellectuel comparable Ă  celui d'un bon Ă©tudiant diplĂ´mĂ© pourrait justifier cet investissement.
  • L'intervenant admet qu'il pourrait avoir sous-estimĂ© la valeur de cette technologie, suggĂ©rant que les bĂ©nĂ©fices pourraient finalement en valoir la peine.
  • Une rĂ©flexion collective est encouragĂ©e pour Ă©valuer le consensus du groupe sur ces questions, tout en reconnaissant la complexitĂ© des dĂ©bats autour de l'intelligence artificielle.
Channel: David Shapiro