NVIDIA’s New Voice AI is Absolutely WILD! (PersonaPlex)

NVIDIA’s New Voice AI is Absolutely WILD! (PersonaPlex)

Nouveau modèle d'IA : Persona

Introduction à Persona

  • L'interlocuteur se présente comme italien et exprime son intérêt pour le cinéma, mentionnant "Le Parrain" comme son film italien préféré.
  • Introduction du modèle d'IA conversationnelle open-source appelé Persona, développé par Nvidia, qui permet des interactions avec un temps de latence presque nul.

Fonctionnalités de Persona

  • Persona est un modèle full duplex, capable d'écouter et de parler simultanément, contrairement aux systèmes traditionnels qui introduisent un délai perceptible.
  • Le modèle permet le "back channeling", ce qui signifie qu'il peut signaler qu'il écoute activement en temps réel, rendant la conversation plus naturelle.

Architecture et entraînement

  • Basé sur l'architecture Moshi développée par Kiutai, le modèle comprend 7 milliards de paramètres et utilise le codec audio neural Mimi.
  • Pour l'entraînement, Nvidia a utilisé 1 200 heures de conversations humaines réelles et 2 000 heures de données synthétiques pour enseigner les nuances du langage humain.

Performances et applications

  • Persona surpasse d'autres systèmes en termes de prise de tour et latence d'interruption. Il excelle dans des simulations telles que le service client.
  • Dans les tests effectués par Nvidia, il a montré des améliorations significatives dans des scénarios pratiques comme la vérification de transactions bancaires.

Mise en place du projet

  • Le code et les poids du modèle sont disponibles sous une licence ouverte. Un GPU puissant est nécessaire pour une exécution efficace (idéalement avec au moins 24 Go de VRAM).
  • Instructions pour déployer le projet sur un conteneur A40 runpod nécessitant au moins 50 Go d'espace. Configuration du serveur Moshi sur le port 8998.

Démonstration pratique

  • Accès à un serveur web interne après installation. Exemples de prompts textuels fournis pour différentes situations (banque, bureau médical).
  • Exemple d'une interaction simulée avec un assistant bancaire où l'utilisateur tente humoristiquement de voler la banque tout en confirmant son identité.

Conclusion sur l'expérience utilisateur

  • La démonstration met en avant comment Persona gère des conversations inattendues tout en maintenant une approche professionnelle.

Conversation sur le temps et les préférences personnelles

Échange sur la confusion temporelle

  • Paul commence par affirmer qu'il est en 2011, ce qui provoque une surprise chez son interlocuteur qui lui rappelle que nous sommes en 2026.
  • La conversation se poursuit avec des questions sur les goûts personnels, notamment concernant les chiens et les chats.

Préférences personnelles

  • L'interlocuteur exprime sa préférence pour les chiens tout en indiquant qu'il n'aime pas particulièrement les chats.
  • Une question est posée sur l'appréciation de l'autre personne, mais la communication semble confuse.

Discussion sur la musique et l'intelligence artificielle

  • Le dialogue dévie vers un sujet musical, mais Paul semble perdre le fil de la conversation.
  • Un exemple d'IA est introduit où Paul prétend être un ami parlant uniquement italien, ce qui ajoute à la confusion.

Références cinématographiques

  • La discussion s'oriente vers le cinéma italien, avec une mention du film "Le Parrain" comme favori de Paul.
  • Il y a une confusion autour des différentes versions du film "Le Parrain", soulignant l'enthousiasme de Paul pour le cinéma classique.

Évaluation du modèle d'IA

  • À la fin de la conversation, il est mentionné que le modèle d'IA utilisé (Personallex d'Nvidia) offre une expérience agréable malgré quelques incohérences.
  • L'auteur exprime son impression positive quant au potentiel réel de ce modèle d'IA dans des applications concrètes.
Video description

NVIDIA just released PersonaPlex, an open-source AI voice model that can listen and speak at the same time with almost zero latency. In this video, we break down how full-duplex conversation works, why active listening matters, and what makes PersonaPlex feel more human than traditional voice assistants. We also walk through a full setup and demo so you can try it yourself and see how far real-time AI conversations have come. 🔗 Relevant Links PersonaPlex: https://research.nvidia.com/labs/adlr/personaplex/ ❤️ More about us Radically better observability stack: https://betterstack.com/ Written tutorials: https://betterstack.com/community/ Example projects: https://github.com/BetterStackHQ 📱 Socials Twitter: https://twitter.com/betterstackhq Instagram: https://www.instagram.com/betterstackhq/ TikTok: https://www.tiktok.com/@betterstack LinkedIn: https://www.linkedin.com/company/betterstack 📌 Chapters: 00:00 Intro 00:45 What Makes PersonaPlex Different 01:53 How Was PersonaPlex Trained 02:59 Setting Up PersonaPlex 04:12 1st Demo: Customer Service Call 06:12 2nd Demo: Quirky Friend 08:12 3rd Demo: Italian Woman 09:42 I BROKE THE MODEL!!! 10:29 Final Thoughts