¡BRUTAL! OpenAI libera 2 modelos 100% GRATIS 🤯 Nivel O4-mini... Open Source
Open AI Lanza Nuevos Modelos Open Source
Introducción a los Modelos
- Open AI ha liberado dos modelos open source, O3 Mini y O4 Mini, que son gratuitos y uno de ellos puede ejecutarse completamente en local.
- Estos modelos son significativos ya que no se lanzaban nuevos modelos open source desde el GPT-2.
Pruebas Iniciales en la Nube
- Se pueden probar ambos modelos en la plataforma gpt-oss.com; el modelo más grande está diseñado para infraestructuras grandes, mientras que el más pequeño es optimizado para dispositivos locales.
- Al iniciar, se presenta un popup donde se puede elegir ver o no el razonamiento del modelo y seleccionar diferentes niveles de consumo de tokens (bajo, medio, alto).
Comparación con Dipsic R1
- Se realiza una comparación entre el nuevo modelo de Open AI y Dipsic R1, un modelo open source anterior.
- Se prueba un problema sencillo sobre velas: encender tres velas y determinar cuál se apagó primero. El modelo de Open AI responde correctamente.
Problemas Más Complejos
- Un segundo problema involucra bolas de billar numeradas; el truco consiste en girar una bola para cambiar su valor. Dipsic R1 resuelve este problema correctamente, pero el nuevo modelo de Open AI no logra inferir la respuesta.
Evaluación Final
- En otro ejercicio sobre ordenar números del 1 al 100 alfabéticamente, el modelo de Open AI también llega a la respuesta correcta rápidamente.
- Finalmente, se evalúa si el modelo presta atención a palabras clave en las instrucciones. La respuesta del modelo sobre cómo obtener una manzana en invierno muestra su capacidad para razonar sobre detalles específicos.
¿Cómo utilizar modelos de inteligencia artificial para resolver problemas?
Herramientas y métodos para alcanzar objetivos
- Se presentan diversas herramientas o métodos que permiten alcanzar la "fruta" sin necesidad de cruzar a pie, destacando sus ventajas y limitaciones.
- Un modelo ha resuelto correctamente varias instrucciones, aunque no logró un problema de pensamiento lateral. Esto indica que el modelo tiene ciertas limitaciones en su capacidad de razonamiento.
Ejemplo del modelo y su rendimiento
- Se plantea un acertijo sobre cómo transportar una persona y una cabra a través de un río usando una barca. La respuesta correcta es simple: el hombre lleva la cabra en la barca.
- Anteriormente, otros modelos complicaban este tipo de problemas al incluir elementos adicionales como un lobo y una lechuga, generando respuestas innecesariamente complejas.
Importancia de las instrucciones adecuadas
- El éxito del modelo depende en gran medida de cómo se formulan las instrucciones. Conocer cómo dar buenas indicaciones es crucial para obtener resultados óptimos.
- Se recomienda consultar una guía con 190 prompts elaborada por HSPAD, útil para escalar negocios y mejorar diversas áreas como marketing o análisis de datos.
Novedades en modelos open source
- Se presenta GPT OSS, que incluye dos modelos: uno con 120,000 millones de parámetros y otro con 20,000 millones. Estos pueden ejecutarse localmente en ordenadores potentes.
- Los nuevos modelos son completamente open source bajo licencia Apache 2.0, superando a otros modelos similares en tareas de razonamiento.
Ventajas del uso local y privacidad
- Utilizar estos modelos permite realizar inferencias locales sin necesidad de infraestructura costosa, facilitando su uso en entornos productivos.
- La principal ventaja no radica solo en el costo o velocidad sino también en la privacidad y control sobre los datos procesados por el modelo.
Evolución tecnológica significativa
- El modelo más grande (120,000 millones de parámetros) ofrece rendimiento comparable a O4 Mini; mientras que el más pequeño (20,000 millones), se asemeja a otros mini-modelos.
- Estos avances representan un cambio significativo desde la liberación del último modelo similar (GPT2), mostrando progresos notables en generación de lenguaje natural.
Modelos de IA: Características y Evaluaciones
Características Técnicas de los Modelos
- Se presentan dos modelos con arquitecturas MOE (mixture of experts), uno con 120,000 millones de parámetros y otro con 20,000 millones. El modelo más pequeño puede ejecutarse en máquinas de consumo.
- En cada petición, solo un pequeño porcentaje de parámetros se activa: 5,100 millones para el modelo grande y 3,600 millones para el pequeño.
- Se ha aplicado una cuantización a los modelos a 4.25 bits por parámetro, lo que reduce el consumo de memoria. Requieren aproximadamente 16 GB y 80 GB de memoria respectivamente.
- Ambos modelos han sido entrenados post entrenamiento para aplicar cadenas de pensamiento que mejoran la calidad de las respuestas.
Evaluaciones Comparativas
- Los modelos están diseñados para competir con O4 Mini y O3 Mini; el modelo más grande tiene un rendimiento ligeramente inferior al O4 Mini cuando se utilizan herramientas.
- El modelo de 20,000 millones puntúa mejor sin herramientas (2230) en comparación con O3 Mini (2073), sugiriendo que es competitivo incluso sin acceso a herramientas.
- Aunque no son considerados "state of the art", estos modelos open source alcanzan niveles altos comparables a Chat GPT.
Rendimiento en Benchmarks Específicos
- En benchmarks médicos, ambos modelos superan consistentemente a los razonadores disponibles en Chat GPT; el modelo grande supera al O4 Mini y el pequeño al O3 Mini.
- Este patrón se repite en múltiples evaluaciones donde los nuevos modelos demuestran ser competitivos frente a versiones anteriores del estado del arte.
Importancia del Razonamiento
- Los modelos están optimizados para utilizarse en modo razonador aplicando largas cadenas de pensamiento; esto mejora su precisión notablemente en tareas complejas como matemáticas.
- A medida que se permite consumir más tokens durante la generación de respuestas, la precisión mejora significativamente, especialmente en preguntas matemáticas donde el razonamiento es crucial.
Ejemplos Prácticos y Uso Local
- Se presentan ejemplos prácticos sobre cómo interactuar con estos modelos; se recomienda tener una GPU con al menos 16 GB VRAM para su uso local efectivo.
- Existen diferentes plataformas como Oyama o LM Studio que facilitan la regulación del nivel de razonamiento del modelo durante su ejecución.
Instalación y Uso de Modelos en LM Studio
Proceso de Instalación
- Para instalar LM Studio, accede a su página web, selecciona la opción de descarga para Windows e instala el software. Una vez instalado, podrás acceder a una interfaz específica.
- En la interfaz, hay diferentes tipos de usuario: Usuario, Power User y Desarrollador. Seleccionando "Power User", puedes instalar los modelos disponibles.
- Al buscar el modelo OSS, se presentan dos opciones: uno con 20,000 millones de parámetros (ya instalado) y otro con 120,000 millones (disponible para descargar).
Interfaz y Funcionalidades
- En la pestaña "Power User", se puede observar la capacidad del modelo para generar tokens por segundo y ajustar el margen de razonamiento.
- Se realizan pruebas con instrucciones específicas; por ejemplo, al preguntar sobre las velas, el modelo identifica correctamente la respuesta tras un tiempo razonable de procesamiento.
Evaluación del Rendimiento del Modelo
- El modelo demuestra ser más capaz que versiones anteriores ejecutadas localmente. Responde correctamente a preguntas complejas que antes fallaban.
- Se prueba con un nuevo prompt sobre ordenar números alfabéticamente. Aunque inicialmente falla al identificar el número correcto (14), se intenta nuevamente aumentando el margen de razonamiento.
Limitaciones y Ajustes en el Razonamiento
- A pesar de aumentar la capacidad de razonamiento, se encuentra una limitación en la ventana de contexto del modelo durante su ejecución local.
- Al abrir la cadena de razonamiento más extensa, se observa que el modelo había identificado correctamente que 14 era el primer número alfabético aunque no lo presentó como respuesta final debido a restricciones técnicas.
Pruebas Adicionales con Prompts Complejos
- Se ajusta nuevamente el nivel de esfuerzo del razonamiento para evaluar si puede identificar factores contextuales relevantes en prompts relacionados con manzanas e invierno.
- Tras varios intentos y ajustes en los niveles de razonamiento, aunque no logra mencionar explícitamente que podría no haber manzanas en invierno, sí reconoce patrones estacionales relevantes.
¿Cómo se desempeñan los modelos de inteligencia artificial en tareas de razonamiento?
Evaluación del modelo con el problema de las bolas de Villar
- El modelo no ofrece una respuesta perfecta, pero es la mejor obtenida hasta ahora con un modelo local. Se plantea la pregunta sobre las bolas de Villar, que su hermano mayor respondió incorrectamente.
- Se busca evaluar si el modelo puede identificar patrones de pensamiento lateral, como girar el número nueve para convertirlo en seis. La expectativa es baja debido a errores previos.
- A pesar de pensar durante 41 segundos, el modelo no logra identificar que girar el nueve puede ayudar a encontrar una combinación que sume 30.
Prueba del puzzle del río
- Se introduce un nuevo desafío: cruzar una persona y una cabra al otro lado del río. Este problema suele estar afectado por overfitting.
- Después de casi 14 segundos de reflexión, el modelo propone llevar a ambos juntos si no hay restricciones, lo cual es incorrecto según las reglas típicas del puzzle.
- El modelo finalmente describe correctamente cómo realizar las travesías necesarias para cruzar al río sin violar las reglas: primero lleva a la cabra y luego regresa vacío.
Conclusiones sobre los modelos evaluados
- Ambos modelos han superado la prueba con éxito, mostrando un rendimiento notable en comparación con otros modelos que fallaron consistentemente en problemas similares.
- Estos son considerados los mejores modelos disponibles para uso local hoy en día, destacando su capacidad para manejar información confidencial y adaptarse a tareas específicas.
- OpenAI ha proporcionado herramientas valiosas que amplían las posibilidades en inteligencia artificial más allá de sus capacidades básicas.