[#82] ¿1,100 idiomas en un solo modelo de IA? Descubre MMS de Meta + Demo en vivo

Name: [#82] ¿1,100 idiomas en un solo modelo de IA? Descubre MMS de Meta + Demo en vivo
Uploaded: 2023-05-24T16:30:08.000Z
Duration: 50 min 49 s

Introducción

Resumen de la sección: En esta sección, el presentador introduce el tema del video y explica que hablará sobre una serie de modelos nuevos relacionados con el lenguaje hablado.

¿Qué es el proyecto de Habla Multilingüe Masiva (MMS)?

Meta acaba de lanzar un nuevo proyecto llamado Habla Multilingüe Masiva (MMS).

El MMS permite tener más de 1000 lenguajes al mismo tiempo.

El modelo Whisper funciona muy bien y está entrenado con unas 600.000 horas de audio grabadas en cualquier lugar, lo que le permite generalizar a muchos idiomas.

Por ahora, funciona con unos 97 lenguajes, pero existen más de 7000 lenguajes en el mundo.

La limitación del modelo Whisper

Es difícil hacer un macheo entre audio grabado en un medio digital y texto relacionado con ese audio para hacer una transcripción precisa.

Meta está combinando su dataset self-supervised learning con un nuevo dataset anotado de 1100 lenguajes y otro no anotado de unos 4000 lenguajes para mejorar la precisión del modelo.

Los avances previos en este campo

Meta ha estado trabajando en esta área durante varios años y ha pasado por varias etapas para llegar al modelo actual.

Meta ha extendido el alcance de su modelo desde un lenguaje por modelo hasta uno que se expande a 53, 200 y ahora 1000 lenguajes al mismo tiempo.

Conclusión

Resumen de la sección: En esta sección, el presentador concluye el video hablando sobre las posibilidades futuras del MMS y cómo puede ayudar a preservar los idiomas en peligro de extinción.

El futuro del MMS

El MMS tiene la capacidad de detectar muchos idiomas nativos y puede ser útil para preservar los idiomas en peligro de extinción.

El MMS también puede ser utilizado para mejorar la accesibilidad para personas con discapacidades auditivas o visuales.

Origen del nuevo dataset

Resumen de la sección: En esta sección, se explica cómo se creó el nuevo dataset para el proyecto. Se utilizó la Biblia como fuente principal y se recopilaron grabaciones del Nuevo Testamento en distintos idiomas de sitios web como los Testigos de Jehová.

Creación del Dataset

El nuevo dataset fue creado a partir de grabaciones del Nuevo Testamento en distintos idiomas.

Las grabaciones fueron obtenidas de sitios web como los Testigos de Jehová.

El dataset consta de aproximadamente 32 horas por idioma en unos 1100 idiomas.

Evaluación del modelo

Resumen de la sección: En esta sección, se evalúa el modelo utilizado en el proyecto y su capacidad para generalizar entre géneros.

Evaluación del Modelo

La evaluación del modelo utiliza una métrica llamada Word Error Rate (WER).

El WER compara las palabras detectadas con las palabras reales.

El modelo tiene un error rate promedio del 44%.

Para los 1100 lenguajes, el error rate promedio es de 18.7%.

Funcionamiento y detalles técnicos

Resumen de la sección: En esta sección, se explican los detalles técnicos detrás del funcionamiento del modelo utilizado en el proyecto.

Detalles Técnicos

El modelo utilizado es un web 2.0 con mil millones de parámetros que incluye un modelo texto-speech y un clasificador para unos 4.000 lenguajes.

Utiliza self-supervised learning para entender cómo funciona el habla.

Utiliza representaciones vectoriales para convertir la información de audio en datos que el modelo pueda entender.

Utiliza fine tuning para personalizar el modelo en un idioma específico.

El dataset utilizado para el fine tuning es Common Voice de Mozilla, que tiene 88.000 personas hablando en varios idiomas.

Disponibilidad del dataset

Resumen de la sección: En esta sección, se discute la disponibilidad del dataset utilizado en el proyecto.

Disponibilidad del Dataset

El dataset utilizado en el proyecto no está disponible públicamente debido a problemas de derechos de autor.

Existen otros datasets disponibles como Common Voice de Mozilla, pero algunos idiomas tienen muy pocas horas disponibles.

Creación de dataset

Resumen de la sección: En esta sección, se habla sobre el proceso de creación del dataset utilizado en el proyecto. Se mencionan dos tipos de datasets: uno anotado con 44,000 horas y otro sin anotaciones con 7,000 horas. Además, se explica cómo se alinearon los textos del Nuevo Testamento para generar los audios en diferentes idiomas.

Proceso de creación del dataset

Se utilizaron audiolibros de personas leyendo el Nuevo Testamento en diferentes idiomas.

Los audios fueron macheados con los textos del Nuevo Testamento utilizando Forza light.

Los audios fueron cortados en secuencias más cortas de aproximadamente 7 segundos.

También se utilizó un audio religioso o bíblico sin anotaciones para generar el segundo tipo de dataset.

Importancia del tiempo disponible por idioma

Existe una iniciativa europea llamada "igualdad de lenguaje europeo" que busca digitalizar todos los idiomas al nivel del inglés.

La cantidad de horas disponibles por cada idioma es importante para medir su nivel de digitalización. El inglés tiene casi 80,000 horas mientras que otros idiomas como el alemán tienen solo 40,000 horas.

Representación subestimada en Latinoamérica y España

Resumen de la sección: En esta sección, se habla sobre la representación subestimada que tienen algunos idiomas en Latinoamérica y España en comparación con otros idiomas que tienen más financiamiento de la Unión Europea.

Representación subestimada

Los idiomas cooficiales de España como el euskera, gallego y catalán tienen una sub representación en comparación con otros idiomas.

Latinoamérica también tiene una representación subestimada en comparación con otros idiomas.

Archivos de audio a 16 kilos

Resumen de la sección: En esta sección, el presentador explica por qué es importante que los archivos de audio estén en formato de 16 kilos. Este es el único formato que acepta el modelo MMS y esto se debe al preprocesamiento que se realizó en los datos.

Importancia del formato de audio

Los archivos de audio deben estar en formato de 16 kilos para ser aceptados por el modelo MMS.

El modelo MMS tiene un error rate más bajo que el modelo Whisper, lo que significa una mayor precisión en la identificación del idioma.

La calidad del modelo MMS mejora significativamente para idiomas menos representados en el dataset original.

Comparación entre modelos

Resumen de la sección: En esta sección, el presentador compara los modelos MMS y Whisper y muestra cómo funcionan para diferentes idiomas.

Comparación entre modelos

El modelo Whisper es utilizado como estado del arte y es utilizado para subtitular videos en inglés.

El modelo MMS tiene un error rate más bajo que el modelo Whisper, lo que significa una mayor precisión en la identificación del idioma.

La calidad del modelo MMS mejora significativamente para idiomas menos representados en el dataset original.

Licencia y uso comercial

Resumen de la sección: En esta sección, el presentador habla sobre las licencias y restricciones asociadas con el modelo MMS.

Licencia y uso comercial

El modelo MMS no es completamente de código libre y no permite su uso comercial.

La información utilizada para entrenar el modelo proviene de los Testigos de Jehová, lo que puede explicar las restricciones en la licencia.

Demostración del modelo MMS

Resumen de la sección: En esta sección, el presentador muestra cómo utilizar el modelo MMS para identificar idiomas en archivos de audio.

Uso del modelo MMS

El repositorio contiene los modelos preentrenados y una lista de los idiomas soportados.

Se utiliza un modelo específico para la tarea de identificación de audio.

Los archivos deben estar en formato de 16 kilos y se pueden descargar desde el repositorio.

Descarga y uso del modelo de lenguaje

Resumen de la sección: En esta sección, el presentador explica cómo descargar y utilizar un modelo de lenguaje para reconocimiento de voz.

Descarga del modelo

El mejor modelo disponible es el de mil millones de parámetros que soporta 1162 lenguajes.

Al descargar el modelo, se generan dos carpetas: una temporal que contiene un diccionario y otra con muestras de audio para reconocer.

El archivo debe ser convertido a 16 kilos antes de subirlo al programa.

Uso del modelo

La inferencia tarda unos minutos en cargar el modelo y hacer la transcripción.

Se puede elegir cualquier idioma disponible en la lista proporcionada por el programa.

Se puede probar con diferentes audios para ver cómo funciona la transcripción.

Prueba del reconocimiento automático del habla

Resumen de la sección: En esta sección, el presentador muestra cómo funciona el reconocimiento automático del habla utilizando un audio como ejemplo.

Funcionamiento del reconocimiento automático del habla

El presentador utiliza un audio como ejemplo para mostrar cómo funciona el reconocimiento automático del habla.

El programa encuentra las palabras correctamente en su mayoría, pero hay algunas diferencias debido a las variaciones entre los datos utilizados para entrenar al modelo y los datos reales.

Se sugiere probar el programa con diferentes tipos de audios para ver cómo funciona la transcripción.

Agradecimiento y cierre

Resumen de la sección: En esta sección, el presentador agradece al público por ver el video y habla sobre el trabajo que está haciendo Meta en torno al lenguaje.

Agradecimiento y cierre

El presentador agradece al público por ver el video.

Habla sobre el trabajo que está haciendo Meta en torno al lenguaje.