NVIDIA’s New Voice AI is Absolutely WILD! (PersonaPlex)
Nouveau modèle d'IA : Persona
Introduction à Persona
- L'interlocuteur se présente comme italien et exprime son intérêt pour le cinéma, mentionnant "Le Parrain" comme son film italien préféré.
- Introduction du modèle d'IA conversationnelle open-source appelé Persona, développé par Nvidia, qui permet des interactions avec un temps de latence presque nul.
Fonctionnalités de Persona
- Persona est un modèle full duplex, capable d'écouter et de parler simultanément, contrairement aux systèmes traditionnels qui introduisent un délai perceptible.
- Le modèle permet le "back channeling", ce qui signifie qu'il peut signaler qu'il écoute activement en temps réel, rendant la conversation plus naturelle.
Architecture et entraînement
- Basé sur l'architecture Moshi développée par Kiutai, le modèle comprend 7 milliards de paramètres et utilise le codec audio neural Mimi.
- Pour l'entraînement, Nvidia a utilisé 1 200 heures de conversations humaines réelles et 2 000 heures de données synthétiques pour enseigner les nuances du langage humain.
Performances et applications
- Persona surpasse d'autres systèmes en termes de prise de tour et latence d'interruption. Il excelle dans des simulations telles que le service client.
- Dans les tests effectués par Nvidia, il a montré des améliorations significatives dans des scénarios pratiques comme la vérification de transactions bancaires.
Mise en place du projet
- Le code et les poids du modèle sont disponibles sous une licence ouverte. Un GPU puissant est nécessaire pour une exécution efficace (idéalement avec au moins 24 Go de VRAM).
- Instructions pour déployer le projet sur un conteneur A40 runpod nécessitant au moins 50 Go d'espace. Configuration du serveur Moshi sur le port 8998.
Démonstration pratique
- Accès à un serveur web interne après installation. Exemples de prompts textuels fournis pour différentes situations (banque, bureau médical).
- Exemple d'une interaction simulée avec un assistant bancaire où l'utilisateur tente humoristiquement de voler la banque tout en confirmant son identité.
Conclusion sur l'expérience utilisateur
- La démonstration met en avant comment Persona gère des conversations inattendues tout en maintenant une approche professionnelle.
Conversation sur le temps et les préférences personnelles
Échange sur la confusion temporelle
- Paul commence par affirmer qu'il est en 2011, ce qui provoque une surprise chez son interlocuteur qui lui rappelle que nous sommes en 2026.
- La conversation se poursuit avec des questions sur les goûts personnels, notamment concernant les chiens et les chats.
Préférences personnelles
- L'interlocuteur exprime sa préférence pour les chiens tout en indiquant qu'il n'aime pas particulièrement les chats.
- Une question est posée sur l'appréciation de l'autre personne, mais la communication semble confuse.
Discussion sur la musique et l'intelligence artificielle
- Le dialogue dévie vers un sujet musical, mais Paul semble perdre le fil de la conversation.
- Un exemple d'IA est introduit où Paul prétend être un ami parlant uniquement italien, ce qui ajoute à la confusion.
Références cinématographiques
- La discussion s'oriente vers le cinéma italien, avec une mention du film "Le Parrain" comme favori de Paul.
- Il y a une confusion autour des différentes versions du film "Le Parrain", soulignant l'enthousiasme de Paul pour le cinéma classique.
Évaluation du modèle d'IA
- À la fin de la conversation, il est mentionné que le modèle d'IA utilisé (Personallex d'Nvidia) offre une expérience agréable malgré quelques incohérences.
- L'auteur exprime son impression positive quant au potentiel réel de ce modèle d'IA dans des applications concrètes.