15 Machine Learning Lessons I Wish I Knew Earlier
¿Qué lecciones aprender sobre Machine Learning?
Introducción a la transición de carrera
- El narrador comparte su experiencia al cambiar de carrera hacia el aprendizaje automático y la ciencia de datos, reconociendo que tenía conocimientos básicos pero no era suficiente para conseguir un trabajo.
- Se menciona que el síndrome del impostor es común en todos, incluso entre los más exitosos. Es importante no desanimarse y reconocer que todos comienzan desde algún lugar.
La importancia de la humildad y la curiosidad
- Se enfatiza que es normal no saberlo todo; admitir lo que no se sabe facilita el aprendizaje. Mantenerse curioso y hacer preguntas es crucial en este campo en constante evolución.
Fundamentos del aprendizaje automático
- Los conceptos fundamentales son esenciales para el éxito a largo plazo. Comprender las diferencias entre aprendizaje supervisado y no supervisado, así como técnicas básicas como regresión lineal y logística, es vital.
- Dominar estos fundamentos permite adaptarse a nuevas herramientas y resolver problemas complejos sin depender únicamente de frameworks populares.
Matemáticas detrás del aprendizaje automático
- Entender las bases matemáticas (álgebra lineal, cálculo y estadística) mejora significativamente las habilidades en machine learning. Esto ayuda a elegir algoritmos adecuados y ajustar modelos correctamente.
La calidad de los datos sobre los modelos
- La modelización no es la parte difícil; los datos son más importantes. Pasar tiempo limpiando y preparando datos puede ser más impactante que usar modelos avanzados.
- Un conjunto de datos pequeño pero limpio puede superar uno grande pero desordenado. Es fundamental entender el problema empresarial antes de definir objetivos o limpiar datos.
Conclusiones sobre la preparación para proyectos
Análisis de Datos y Modelado: Claves para el Éxito
Importancia de la Claridad en los Objetivos del Modelo
- La falta de claridad en los objetivos puede llevar a optimizar para metas incorrectas, resultando en resultados empresariales desalineados y recursos desperdiciados.
- Es crucial entender el problema empresarial que se está resolviendo, ya que esto es tan importante como conocer los aspectos técnicos.
Análisis Exploratorio de Datos (EDA)
- El EDA es un proceso fundamental que implica analizar y visualizar conjuntos de datos para descubrir patrones y tendencias, lo cual ayuda a preparar los datos para el modelado.
- A través del EDA, se pueden identificar patrones como correlaciones entre variables y anomalías que podrían afectar el modelo.
- Visualizar las distribuciones de características individuales permite comprender la estructura de los datos y validar supuestos necesarios para algoritmos de aprendizaje automático.
Interpretabilidad del Modelo
- El EDA también facilita la interpretación del modelo al explorar visualmente cómo diferentes características contribuyen al resultado.
- Las visualizaciones generadas durante el EDA ayudan a comunicar hallazgos a partes interesadas no técnicas, guiando futuras iteraciones del proceso de modelado.
Ingeniería de Características
- La ingeniería de características implica crear nuevas características relevantes a partir de datos brutos, lo cual puede impactar más en el rendimiento del modelo que ajustar hiperparámetros o elegir algoritmos avanzados.
- Técnicas como PCA o métodos de selección de características ayudan a reducir la cantidad total, mejorando la eficiencia del modelo y evitando sobreajuste.
Conocimiento del Dominio
- Incorporar conocimiento experto en salud puede guiar la creación de nuevas características significativas; por ejemplo, calcular días desde la última visita hospitalaria puede predecir riesgo de readmisión.
Evitar Obsesionarse con Algoritmos Complejos
- No ignorar la interpretabilidad; modelos complejos pueden ser menos útiles si no se pueden explicar sus decisiones.
- Modelos más simples como regresión lineal son más fáciles de explicar a profesionales no técnicos comparado con redes neuronales profundas.
Equilibrio entre Sesgo y Varianza
- Comprender el equilibrio entre sesgo (errores por simplificación excesiva) y varianza (modelos demasiado complejos que capturan ruido), es clave para construir modelos útiles.
Importancia de la Validación en Modelos de Aprendizaje Automático
Validación y su Rol en el Rendimiento del Modelo
- La validación es crucial para evaluar el rendimiento del modelo en datos no vistos, permitiendo ajustes antes de las pruebas finales.
- La validación cruzada mejora la estimación del rendimiento al dividir los datos en múltiples subconjuntos, evitando el sobreajuste y asegurando una mejor generalización.
Conjunto de Prueba y Prevención de Fugas de Datos
- El conjunto de prueba debe ser utilizado solo una vez y nunca debe incluirse en el entrenamiento o la validación para evitar sesgos.
- La fuga de datos ocurre cuando información externa se incluye accidentalmente durante el entrenamiento, lo que puede dar ventajas injustas al modelo.
Fundamentos del Aprendizaje Automático
Enfoque Inicial y Especialización
- Es recomendable enfocarse primero en fundamentos como estadísticas y modelos básicos antes de explorar subcampos especializados como redes neuronales o visión por computadora.
- Al encontrar un campo apasionante, profundizar permite convertirse en un especialista valioso mientras se mantiene una base generalista adaptable.
Trabajo en Equipo y Habilidades Blandas
- El aprendizaje automático es un esfuerzo colaborativo; trabajar con otros expertos es común, lo que hace esenciales las habilidades blandas como la comunicación efectiva.
- Escuchar a los clientes o expertos del dominio es vital para entender sus necesidades y guiar adecuadamente el modelado.
Herramientas Técnicas Esenciales
Control de Versiones y Documentación
- Familiarizarse con sistemas de control de versiones como Git desde temprano ayuda a evitar problemas futuros al colaborar con otros.
- Una buena documentación ahorra tiempo a largo plazo, facilitando tanto la colaboración como la comprensión personal del código.
Adaptabilidad Continua en Aprendizaje Automático
Evolución Constante del Campo
- El aprendizaje automático está en constante evolución; nunca se deja de aprender ni se domina completamente este campo debido a su naturaleza dinámica.
Demandas Cambiantes en Roles Laborales
- La demanda por roles relacionados con ciencia de datos ha disminuido recientemente debido a cambios económicos y diversificación hacia roles más específicos dentro de IA.
Nuevas Oportunidades Laborales
¿Cómo abordar proyectos de ciencia de datos en el mundo real?
La importancia de la experiencia práctica
- Los tutoriales y competencias como Kaggle son útiles para desarrollar habilidades, pero los conjuntos de datos del mundo real suelen ser ruidosos, incompletos o desbalanceados.
- En el mundo real, los datos serán desordenados, lo que puede ser un choque después de haber trabajado con datos limpios en bootcamps o tutoriales.
- Trabajar en proyectos reales permite probar y entrenar habilidades con menos riesgos que en un primer trabajo formal; es crucial entender el ciclo completo de los proyectos de machine learning.
Desarrollando habilidades a través de proyectos reales
- Los proyectos del mundo real son impredecibles, lo que fomenta la resiliencia y la creatividad en la resolución de problemas.
- Participar en proyectos abiertos, trabajos freelance o pasantías ayuda a construir un portafolio y una red profesional valiosa.
La importancia del networking
- Muchas oportunidades laborales surgen a través del networking; es fundamental conectarse con otros profesionales para avanzar en la carrera.
- Las conexiones pueden llevar a oportunidades no solo laborales, sino también a clientes, cofundadores y mentores.
Estrategias para mejorar tu red profesional