OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12
Lanzamiento de Modelos de IA
- Se inicia un evento de 12 días con el lanzamiento del modelo 01, destacando su éxito y aceptación.
- Se anunciarán dos nuevos modelos: O3 y O3 mini, en lugar de O2 por razones de nomenclatura.
- No habrá lanzamiento público hoy, pero se abrirá la prueba pública para investigadores.
Pruebas de Seguridad y Acceso Público
- Se implementará un nuevo procedimiento de pruebas de seguridad que incluye acceso público para investigadores.
- Se presentarán demostraciones del rendimiento de los nuevos modelos.
Rendimiento del Modelo O3
- El modelo O3 muestra un 71.7% de precisión en tareas reales, superando al modelo 01 por más del 20%.
- En programación competitiva, el modelo alcanza una puntuación ELO superior a 2700.
Matemáticas y Evaluaciones Avanzadas
- El modelo O3 logra un 96.7% en exámenes matemáticos difíciles, mejorando significativamente respecto al modelo anterior.
- En preguntas científicas a nivel PhD, obtiene un 87.7%, superando el rendimiento anterior.
Nuevos Desafíos en Evaluaciones
- La necesidad de benchmarks más difíciles se ha vuelto evidente debido a la saturación en las evaluaciones actuales.
- Epic AI's Frontier math benchmark es considerado uno de los desafíos más difíciles actualmente.
Colaboración con la Fundación Arc
- Greg Camad presenta la Fundación Arc y su misión hacia la inteligencia general (AGI).
¿Qué es Arc AGI?
- Arc AGI se centra en ejemplos de entrada y salida para entender reglas de transformación.
- Se presenta un ejemplo donde se debe adivinar la acción a realizar con los cuadrados.
- AI ha tenido dificultades para resolver problemas que los humanos pueden hacer rápidamente.
Habilidades Distintas en Tareas
- Cada tarea en Arc AGI requiere habilidades únicas, evitando repetir tareas similares.
- La versión 1 tardó 5 años en alcanzar un 5% de efectividad; ahora el modelo 03 ha alcanzado un nuevo récord.
- El modelo 03 logró un puntaje del 85.7% al aumentar el poder computacional.
Comparación con el Rendimiento Humano
- El rendimiento humano está alrededor del 85%, lo que hace que el puntaje del modelo sea significativo.
- Se necesita más benchmarks duraderos como Arc AGI para medir y guiar el progreso de AI.
- Se planea una colaboración futura con OpenAI para desarrollar nuevos benchmarks.
Introducción a O3 Mini
- O3 Mini es un nuevo modelo enfocado en razonamiento eficiente, lanzado junto a O3.
- Este modelo será accesible inicialmente solo para investigadores de seguridad y seguridad.
Opciones de Razonamiento en O3 Mini
- O3 Mini soportará tres niveles diferentes de esfuerzo de razonamiento: bajo, medio y alto.
- Los usuarios podrán ajustar el tiempo de pensamiento según sus necesidades específicas.
Evaluaciones Iniciales de O3 Mini
- En evaluaciones, O3 Mini mostró mejor rendimiento que modelos anteriores con mayor tiempo de pensamiento.
¿Cómo implementar un generador de código en Python?
- Se está probando un modelo con diferentes niveles de razonamiento: bajo, medio y alto.
- El objetivo es crear un generador de código que ejecute scripts de Python y lance un servidor local con una interfaz de usuario.
- La interfaz permite realizar solicitudes de codificación, enviarlas a la API y recibir el código generado.
Pruebas iniciales del generador
- Se realiza una prueba simple para generar un número aleatorio utilizando el modelo.
- Se plantea la posibilidad de que el modelo obtenga sus propios números GP QA como tarea adicional.
- El modelo debe descargar archivos, identificar preguntas y respuestas, y formular las preguntas para evaluarse.
Evaluación del rendimiento del modelo
- Se discute la dificultad del conjunto de datos GPQ, que contiene problemas fáciles y difíciles.
- Los resultados muestran que el modelo tiene una tasa de éxito del 61.6% al evaluarse a sí mismo rápidamente.
- Se destaca cómo se pidió al modelo escribir un script para autoevaluarse desde su propia interfaz.
Mejoras en el rendimiento y características
- El modelo también muestra buen desempeño en matemáticas comparado con otros modelos similares.
- Se menciona la reducción significativa en latencia al usar el nuevo modelo en comparación con versiones anteriores.
- Nuevas características como llamadas a funciones están siendo implementadas para mejorar la experiencia del desarrollador.
Acceso anticipado y pruebas externas
- Se abre acceso anticipado a investigadores externos para probar la seguridad del nuevo modelo O3 mini.
¿Cómo mejorar la seguridad en los modelos?
Uso de alineación deliberativa
- Se presenta una técnica llamada alineación deliberativa que permite evaluar si un prompt es seguro.
- La alineación deliberativa ayuda a descubrir intenciones ocultas del usuario, incluso si se intenta engañar al modelo.
- Se observa un rendimiento mejorado en métricas de rechazo y revisión gracias a esta técnica.
Resultados y próximos pasos
- Los modelos anteriores mostraban un rendimiento inferior en comparación con los nuevos resultados obtenidos mediante alineación deliberativa.