¿Qué es el Descenso del Gradiente? Algoritmo de Inteligencia Artificial | DotCSV
Introducción al Descenso del Gradiente
Conceptos Básicos de Regresión Lineal
- Se menciona que el modelo de regresión lineal se entrena a partir de datos utilizando el método de mínimos cuadrados para encontrar un punto mínimo en la función de coste.
- El método de cuadrados ordinarios es limitado y se introduce el descenso del gradiente como un algoritmo clave en machine learning.
Funciones Convexas y No Convexas
- La función de coste indica el error del modelo, y su forma puede ser convexa o no convexa. Las funciones convexas tienen un único mínimo global.
- Se explica que las funciones cóncavas pueden transformarse en convexas, pero las funciones no convexas presentan múltiples mínimos locales, lo que complica su resolución.
Desafíos con Funciones No Convexas
Problemas Asociados
- En funciones no convexas, es posible encontrar puntos mínimos locales que no son los mínimos globales, complicando la búsqueda del óptimo.
- La derivada indica la pendiente; igualar a cero ayuda a encontrar puntos donde la pendiente es nula. Esto se vuelve complicado con múltiples ecuaciones en funciones no convexas.
Estrategias para Resolver Múltiples Mínimos
- Al resolver modelos complejos, se busca una solución para las funciones no convexas aprovechando la información proporcionada por la derivada.
Intuición Detrás del Descenso del Gradiente
Analogía Tridimensional
- Se presenta una analogía donde se imagina un terreno tridimensional lleno de colinas y valles. El objetivo es descender al punto más bajo sin conocer el mapa.
- La estrategia consiste en evaluar la inclinación (pendiente), moverse hacia abajo y repetir este proceso hasta llegar al mínimo.
Aplicación Matemática
- Se traduce esta intuición a matemáticas: calcular derivadas parciales para cada parámetro permite determinar cómo descender en cada dirección.
Optimización de Funciones y el Gradiente
Concepto del Gradiente
- El gradiente se define como un vector que indica la dirección en la que la pendiente asciende, utilizando direcciones en un mapa para los ejes norte-sur y este-oeste.
- Para minimizar el coste, se utiliza el gradiente en sentido opuesto, actualizando los parámetros hasta llegar a una zona donde las variaciones del coste son mínimas.
Proceso de Minimización
- Se introduce el ratio de aprendizaje, que determina cuánto afecta el gradiente a la actualización de los parámetros en cada iteración.
- La visualización de funciones mediante curvas de nivel ayuda a entender los desniveles y mínimos locales en la función de coste.
Comportamiento del Algoritmo
- Al ejecutar el algoritmo, se observa cómo avanza hacia zonas de mínimo coste; esto demuestra su efectividad con un ratio de aprendizaje adecuado.
- Un valor muy pequeño del ratio puede hacer que el algoritmo sea ineficiente al requerir muchas iteraciones para aproximarse al mínimo.
Efectos del Ratio de Aprendizaje
- Un valor elevado del ratio provoca pasos demasiado largos, impidiendo que el punto converja dentro de la zona mínima y generando bucles infinitos.