NVIDIA’s New Voice AI is Absolutely WILD! (PersonaPlex)

Name: NVIDIA’s New Voice AI is Absolutely WILD! (PersonaPlex)
Uploaded: 2026-01-25T15:40:41.000Z
Duration: 22 min 39 s

Nouveau modèle d'IA : Persona

Introduction à Persona

L'interlocuteur se présente comme italien et exprime son intérêt pour le cinéma, mentionnant "Le Parrain" comme son film italien préféré.

Introduction du modèle d'IA conversationnelle open-source appelé Persona, développé par Nvidia, qui permet des interactions avec un temps de latence presque nul.

Fonctionnalités de Persona

Persona est un modèle full duplex, capable d'écouter et de parler simultanément, contrairement aux systèmes traditionnels qui introduisent un délai perceptible.

Le modèle permet le "back channeling", ce qui signifie qu'il peut signaler qu'il écoute activement en temps réel, rendant la conversation plus naturelle.

Architecture et entraînement

Basé sur l'architecture Moshi développée par Kiutai, le modèle comprend 7 milliards de paramètres et utilise le codec audio neural Mimi.

Pour l'entraînement, Nvidia a utilisé 1 200 heures de conversations humaines réelles et 2 000 heures de données synthétiques pour enseigner les nuances du langage humain.

Performances et applications

Persona surpasse d'autres systèmes en termes de prise de tour et latence d'interruption. Il excelle dans des simulations telles que le service client.

Dans les tests effectués par Nvidia, il a montré des améliorations significatives dans des scénarios pratiques comme la vérification de transactions bancaires.

Mise en place du projet

Le code et les poids du modèle sont disponibles sous une licence ouverte. Un GPU puissant est nécessaire pour une exécution efficace (idéalement avec au moins 24 Go de VRAM).

Instructions pour déployer le projet sur un conteneur A40 runpod nécessitant au moins 50 Go d'espace. Configuration du serveur Moshi sur le port 8998.

Démonstration pratique

Accès à un serveur web interne après installation. Exemples de prompts textuels fournis pour différentes situations (banque, bureau médical).

Exemple d'une interaction simulée avec un assistant bancaire où l'utilisateur tente humoristiquement de voler la banque tout en confirmant son identité.

Conclusion sur l'expérience utilisateur

La démonstration met en avant comment Persona gère des conversations inattendues tout en maintenant une approche professionnelle.

Conversation sur le temps et les préférences personnelles

Échange sur la confusion temporelle

Paul commence par affirmer qu'il est en 2011, ce qui provoque une surprise chez son interlocuteur qui lui rappelle que nous sommes en 2026.

La conversation se poursuit avec des questions sur les goûts personnels, notamment concernant les chiens et les chats.

Préférences personnelles

L'interlocuteur exprime sa préférence pour les chiens tout en indiquant qu'il n'aime pas particulièrement les chats.

Une question est posée sur l'appréciation de l'autre personne, mais la communication semble confuse.

Discussion sur la musique et l'intelligence artificielle

Le dialogue dévie vers un sujet musical, mais Paul semble perdre le fil de la conversation.

Un exemple d'IA est introduit où Paul prétend être un ami parlant uniquement italien, ce qui ajoute à la confusion.

Références cinématographiques

La discussion s'oriente vers le cinéma italien, avec une mention du film "Le Parrain" comme favori de Paul.

Il y a une confusion autour des différentes versions du film "Le Parrain", soulignant l'enthousiasme de Paul pour le cinéma classique.

Évaluation du modèle d'IA

À la fin de la conversation, il est mentionné que le modèle d'IA utilisé (Personallex d'Nvidia) offre une expérience agréable malgré quelques incohérences.

L'auteur exprime son impression positive quant au potentiel réel de ce modèle d'IA dans des applications concrètes.

Video description

NVIDIA just released PersonaPlex, an open-source AI voice model that can listen and speak at the same time with almost zero latency. In this video, we break down how full-duplex conversation works, why active listening matters, and what makes PersonaPlex feel more human than traditional voice assistants. We also walk through a full setup and demo so you can try it yourself and see how far real-time AI conversations have come. 🔗 Relevant Links PersonaPlex: https://research.nvidia.com/labs/adlr/personaplex/ ❤️ More about us Radically better observability stack: https://betterstack.com/ Written tutorials: https://betterstack.com/community/ Example projects: https://github.com/BetterStackHQ 📱 Socials Twitter: https://twitter.com/betterstackhq Instagram: https://www.instagram.com/betterstackhq/ TikTok: https://www.tiktok.com/@betterstack LinkedIn: https://www.linkedin.com/company/betterstack 📌 Chapters: 00:00 Intro 00:45 What Makes PersonaPlex Different 01:53 How Was PersonaPlex Trained 02:59 Setting Up PersonaPlex 04:12 1st Demo: Customer Service Call 06:12 2nd Demo: Quirky Friend 08:12 3rd Demo: Italian Woman 09:42 I BROKE THE MODEL!!! 10:29 Final Thoughts