RN2024 - Clase_04_a
Detección de Objetos en Imágenes
Resumen de la Sección: En esta sección, se aborda el tema de la detección de objetos en imágenes, destacando la importancia y las aplicaciones de esta tarea en el análisis de imágenes.
Modelos de Clasificación en Análisis de Imágenes
- La clasificación de imágenes consiste en asignar una imagen a una categoría específica, como identificar si una imagen contiene un gato, perro u otro objeto.
- Los modelos previos se enfocaban en clasificación, con arquitecturas especializadas para trabajar con entradas basadas en imágenes.
Detección de Objetos
- La detección de objetos implica encontrar subimágenes dentro de una imagen general, permitiendo identificar objetos como vasos, autos o animales.
- Un modelo de clasificación determinaría qué objeto es la subimagen detectada; sin embargo, al analizar la imagen completa, puede haber incertidumbre debido a múltiples objetos presentes.
Consideraciones en Modelos de Clasificación
- Los modelos suelen aprender a detectar elementos centrales en las imágenes y considerar los bordes como ruido, lo que puede afectar la precisión del reconocimiento.
- Es crucial tener cuidado al interpretar resultados cuando hay múltiples objetos en una imagen para evitar errores comunes durante la clasificación.
Aplicaciones más Allá del Análisis Visual
Resumen de la Sección: Se explora cómo los conceptos discutidos sobre detección visual pueden extenderse a otros dominios y señales más allá del análisis visual tradicional.
Ampliación a Otras Señales y Dominios
- La detección no solo se limita al análisis visual; también puede aplicarse a señales auditivas para identificar instrumentos musicales presentes en un audio complejo.
- En videos, además del componente temporal, es posible detectar escenas específicas como personas jugando fútbol o autos cruzando calles mediante técnicas similares a las usadas en imágenes estáticas.
Exploración Avanzada: Semántica y Radar
- Existe un campo dedicado a la "detección semántica" que busca describir eventos o situaciones presentes en videos mediante técnicas avanzadas.
Armado de Base de Datos para Modelos de Clasificación
Resumen de la Sección: En esta sección, se aborda el proceso manual de armado de una base de datos para modelos de clasificación, destacando la importancia de seleccionar imágenes representativas y libres de ruido.
Armado Manual de la Base de Datos
- El armado manual implica recortar porciones ajustadas en las imágenes para reducir el ruido.
- Es crucial incluir fotografías relevantes a la temática, como platos de comida, evitando elementos no relacionados.
- Se recomienda tener variedad en las fotografías dentro del dominio específico, asegurando que reflejen situaciones reales.
- La diversidad en las imágenes no relacionadas con comida debe ser coherente con el entorno donde se capturan las fotos.
- La base de datos debe representar fielmente el mundo real, incluyendo elementos como copas, platos vacíos y manos que puedan aparecer en escenas cotidianas.
Modelos y Enfoques para Clasificación
Resumen de la Sección: Aquí se discuten los pasos posteriores al armado del dataset, centrándose en los modelos y enfoques utilizados para la clasificación precisa.
Modelos y Enfoques
- Tras crear un dataset representativo, se procede a entrenar un modelo adecuado para la clasificación.
- Se puede emplear cualquier arquitectura disponible o diseñar una propia según las necesidades del problema a resolver.
- La clasificación puede ser binaria (comida/no comida) o multiclase (diferentes tipos de alimentos), dependiendo del contexto y los inputs recibidos.
- Se menciona un enfoque híbrido en cascada donde se entrena primero un modelo general seguido por uno más específico para categorizar detalladamente los objetos detectados.
Análisis Detallado del Texto
Modelos en Cascada y Detección de Objetos
Descripción de la Sección: En esta sección, se aborda el concepto de modelos en cascada y su aplicación en la detección de objetos en imágenes.
- El proceso de modelos en cascada implica entrenar múltiples modelos especializados para categorías específicas.
- La creación de estos modelos requiere tiempo debido a la necesidad de entrenar diferentes modelos para cada categoría.
- Una vez que se tienen los modelos en cascada, se busca identificar objetos específicos en una imagen compleja.
- Se busca no solo contar objetos, sino también identificar el tipo exacto de objeto presente en la imagen.
- La detección precisa implica encontrar los "bounding boxes" que delimitan los objetos y clasificarlos correctamente.
Enfoque de Fuerza Bruta y Limitaciones
Descripción de la Sección: Aquí se discute el método tradicional de fuerza bruta para detectar objetos y sus limitaciones.
- El método de fuerza bruta consiste en barrer una ventana por toda la imagen para detectar objetos.
- Una limitación clave es definir previamente las dimensiones del bounding box, lo cual puede ser ineficiente.
- El concepto de "stride" es crucial para determinar cómo se desplaza la ventana sobre la imagen.
- Este método genera numerosas subimágenes que deben ser clasificadas secuencialmente, lo que resulta costoso computacionalmente.
- Ajustar constantemente el tamaño del bounding box puede llevar a un aumento significativo en el tiempo y recursos requeridos.
Evolución hacia Métodos más Eficientes
Descripción de la Sección: Se explora cómo los métodos actuales han evolucionado para superar las limitaciones del enfoque tradicional.
- Los avances tecnológicos han permitido desarrollar alternativas más eficientes al método de fuerza bruta.
- Anteriormente, este método era útil para problemas específicos con dimensiones predefinidas como detectar estrellas o patentes.
Detección de Objetos con Redes Neuronales
Resumen de la Sección: En esta sección, se aborda el tema de la detección de objetos utilizando redes neuronales, destacando diferentes enfoques y estrategias utilizadas para lograr una detección eficiente y en tiempo real.
Redes Neuronales para Detección de Objetos
- En los años 2007-2009, se comenzó a investigar si las redes neuronales podían realizar la detección de objetos de manera más rápida que los métodos tradicionales.
- Existen métodos multietapas como YOLO que dividen la imagen en subregiones para su análisis, pero son computacionalmente costosos y no ideales para detecciones en tiempo real.
- Los detectores de objetos "Single Shot" permiten detectar todos los objetos en una sola mirada, agilizando el proceso al proporcionar directamente las ubicaciones y clases de los objetos.
Funcionamiento de Modelos como YOLO
- Los modelos como YOLO producen "bounding boxes" que indican la ubicación, tamaño y clase del objeto detectado en una sola mirada.
- Estos modelos tienen tiempos de respuesta rápidos, lo que los hace aptos para aplicaciones en tiempo real como sistemas de vigilancia.
Arquitectura Especializada: YOLO
- YOLO (You Only Look Once) divide la imagen en cuadrantes y analiza cada uno individualmente para detectar objetos basándose en puntos centrales.
- La salida de YOLO incluye información detallada sobre bounding boxes, clases predichas y probabilidades asociadas a cada objeto detectado.
Procesamiento Específico y Métricas Utilizadas
Clasificación y Localización en Modelos de Visión por Computadora
Resumen de la Sección: En esta sección, se aborda la importancia de la clasificación y localización en modelos de visión por computadora, destacando los errores comunes que pueden surgir en este proceso.
Errores Comunes en Clasificación y Localización
- Se discute el error al asignar incorrectamente la clase del objeto detectado, lo cual puede llevar a penalizaciones.
- Se menciona el uso habitual de la entropía cruzada como medida de error en clasificación, comparando probabilidades esperadas con las predichas.
- Se destaca el error de localización al no coincidir el bounding box esperado con el detectado, involucrando dimensiones y posición del objeto dentro del cuadro delimitador.
- Se explica cómo errores en la localización pueden surgir al no incluir completamente al objeto dentro del bounding box previsto.
- Se diferencia entre error de clasificación (identificar incorrectamente un objeto) y error de localización (bounding box inexacto), resaltando su impacto en la precisión del modelo.
Métricas para Evaluar Errores
- Se introduce el concepto de error de confianza, relacionado con la probabilidad de detección correcta del objeto dentro del bounding box estimado.
- La combinación de errores en clasificación, localización y confianza determina el rendimiento general del modelo, calculándose mediante métricas más complejas que el simple error cuadrático medio.
Métricas para Evaluación en Detección de Objetos
Resumen de la Sección: En esta parte se profundiza sobre las métricas utilizadas para evaluar modelos de detección de objetos, centrándose en conceptos como Intersection over Union (IoU).
Intersection over Union (IoU)
- IoU es una métrica crucial que evalúa qué tan bien coincide el bounding box predicho con el real, calculando la relación entre áreas intersección y unión para medir superposición precisa.
- Explicación detallada sobre cómo se determina IoU a partir del área compartida entre los bounding boxes real y predicho, ofreciendo una medida objetiva basada en píxeles comunes.
- IoU varía entre 0 (sin superposición) y 1 (coincidencia total), siendo fundamental para evaluar tanto precisión espacial como confianza del modelo detectando objetos correctamente.
Desafíos y Limitaciones en Detección con YOLO
Resumen de la Sección: Aquí se exploran los desafíos específicos asociados con YOLO (You Only Look Once), incluyendo sus limitaciones respecto a formas no rectangulares o distorsiones visuales.
Desafíos con YOLO
- YOLO tiene restricciones al trabajar solo con formas rectangulares, lo que limita su capacidad para detectar objetos con geometrías irregulares o no convencionales.
Análisis Detallado de la Arquitectura YOLO
Resumen de la Sección: En esta sección, se profundiza en la arquitectura de YOLO y cómo funciona a nivel matemático.
Detalles Clave
- La arquitectura de YOLO se basa en fórmulas matemáticas como sumas, multiplicaciones y funciones sigmoideas.
- Se discute sobre la interpretabilidad del modelo para comprender cómo detecta los bounding boxes y qué sucede cuando dos cuadros detectan el mismo objeto.
- La primera versión de YOLO tiene una imagen original entrenada con imágenes de 448x448 píxeles y utiliza convoluciones seguidas de capas densas.
- La red neuronal percibe las imágenes a través de convoluciones que trabajan espacialmente en cuadrados 7x7, lo que influye en la detección final.
- El modelo incluye capas fully connected que transforman los datos para predecir los bounding boxes y clases con activaciones como ReLU y sigmoide.
Interpretación de Resultados en YOLO
Resumen de la Sección: Se explora cómo interpretar los resultados obtenidos por YOLO y el significado detrás de las salidas del modelo.
Puntos Clave
- A pesar de ser un "modelo caja negra", se puede analizar conceptualmente el sentido espacial hasta llegar a las capas fully connected donde ocurren transformaciones complejas.
- Los valores generados por el modelo pueden representarse como tensores para facilitar su comprensión conceptual, aunque internamente son vectores numéricos.
- Cada celda del modelo proporciona información sobre las coordenadas (X, Y), dimensiones (ancho, alto) y confianza asociada a cada bounding box detectado.
Interpretación de la Salida de la Red
Resumen de la Sección: En esta parte, se discute cómo interpretar la salida de la red neuronal convolucional.
Detalles Clave
- Los cuadraditos mencionados no existen dentro de la red, son conceptuales.
- La solución que arroja la red se basa en presentarle una imagen y su salida esperada.
- La red aprende a hacer regresión en lugar de clasificación al recibir como entrada el tensor esperado.
Salida Esperada y Aprendizaje de Regresión
Resumen de la Sección: Se profundiza en el proceso de establecer la salida esperada para entrenar a la red en tareas específicas.
Detalles Clave
- Se presenta a la red imágenes con salidas esperadas definidas.
- La red aprende a realizar regresión al recibir las salidas esperadas correspondientes.
- Cada cuadrante tiene asociado un conjunto de valores que representan diferentes características del objeto detectado.
Asociación entre Valores y Cuadrantes
Resumen de la Sección: Se explora cómo se relacionan los valores asignados a cada cuadrante con las características del objeto detectado.
Detalles Clave
- Los valores asignados a cada casilla incluyen información sobre píxeles, altura, ancho, confianza y clase del objeto.
- Estos valores se utilizan para entrenar a la red en tareas específicas como detección de objetos mediante regresión.
Definición y Asociación Espacial en el Dataset
Resumen de la Sección: Se aborda cómo se definen y asocian los datos espaciales dentro del dataset utilizado para el entrenamiento.
Detalles Clave
- El posicionamiento espacial (x, y) está relacionado con el cuadrante pero también con el bounding box.
- La salida esperada para cada valor asociado a un cuadrante incluye información detallada sobre las características del objeto detectado.
Configuración del Dataset y Definición de Objetos
Resumen de la Sección: Se detalla cómo se configura el dataset con información precisa sobre los objetos a detectar por parte del modelo.
Detalles Clave
- Cada objeto tiene asociado un bounding box con coordenadas específicas, altura, ancho, confianza y clase.
- Estos parámetros son fundamentales para que el modelo aprenda correctamente durante el entrenamiento.
Detección de Objetos con Yolo
Resumen de la Sección: En esta sección, se discute el uso de Yolo para la detección de objetos en diversas aplicaciones, desde la industria hasta la medicina y la astronomía.
Aplicaciones en Detección de Personas y Productos Defectuosos
- Se utiliza Yolo para detectar personas y activar alarmas en caso de presencia no deseada.
- Ejemplo de detección de productos defectuosos en una cinta transportadora mediante cámaras.
Utilización en Robótica Autónoma y Medicina
- Aplicaciones en robótica autónoma para llevar objetos a mesas en bares.
- Uso en imágenes médicas para detectar patologías y objetos en documentos.
Caso Específico: Detección de Espectros Astronómicos
- Investigación sobre detección de espectros astronómicos en placas fotográficas del cielo nocturno.
- Colaboración con la Facultad de Astronomía para analizar materiales presentes en objetos brillantes.
Desafíos y Procesos Técnicos
- Dificultades al escanear imágenes digitales con múltiples espectros para su posterior análisis.
- Empleo de Yolo para reconocer y analizar espectros astronómicos individualmente.
Entrenamiento y Modelado con Yolo
- Implementación de Yolo para detectar manos, señales, semillas de trigo, entre otros objetos.
Detección de Objetos con YOLO
Resumen de la Sección: En esta sección, se discute el uso de YOLO (You Only Look Once) para la detección de objetos en imágenes y videos, así como la disponibilidad de modelos pre-entrenados y la adaptación a diferentes problemas.
Versiones y Uso de YOLO
- Se menciona que las versiones de YOLO trabajan con tensores 10x10xProfundidad.
- La empresa Ultralytics mantiene la última versión de YOLO, facilitando su uso para detección de objetos cargando modelos pre-entrenados.
Implementación Práctica
- Para utilizar YOLO, basta con cargar un modelo pre-trenado y analizar una imagen para obtener resultados visuales claros.
- Se comparte material práctico para que los estudiantes puedan experimentar directamente con distintas imágenes y evaluar la robustez del modelo.
Recursos sobre YOLO
- No se encuentran libros específicos sobre YOLO en la cátedra, pero se sugiere revisar papers originales para comprender mejor su arquitectura.
- Se destaca que existen repositorios con referencias a papers originales donde se detalla la arquitectura funcional de YOLO.
Regresión vs. Detección
- Se aclara que YOLO realiza regresión en lugar de detección directa, ajustando pesos para generar salidas interpretadas como bounding boxes por humanos.
- Aunque YOLO no hace detección directa, es eficaz en regresión; se recomienda explorar libros sobre regresión para comprender este aspecto.
Aplicaciones Prácticas
- Los repositorios contienen información valiosa sobre implementaciones prácticas y detalles técnicos relacionados con reconocimiento e imágenes.
- Además del estudio teórico, se alienta a consultar libros específicos sobre detección e imágenes utilizando otros algoritmos además de redes neuronales.
Uso en Videos
- Se explica cómo aplicar YOLO en videos al tratar cada frame como una imagen independiente para detectar objetos en movimiento.
- A pesar de posibles temblores en los bounding boxes debido a variaciones entre frames, el funcionamiento general es efectivo tanto en imágenes estáticas como en videos.
Comparación con Otras Arquitecturas
- Aunque existen otras arquitecturas aparte de YOLO, su amplia documentación y comunidad lo convierten en una opción sólida y popular para tareas de detección.
Resolución de Problemas y Arquitecturas en Machine Learning
Descripción de la Sección: En esta sección, se discute la flexibilidad en la elección de arquitecturas para resolver problemas en Machine Learning.
Yolo y Flexibilidad en Arquitecturas
- Se destaca que Yolo es una opción resuelta y rápida, pero se enfatiza la posibilidad de crear arquitecturas personalizadas.
- La libertad de elegir cualquier arquitectura es mencionada como una ventaja.
- Se plantea la viabilidad de utilizar arquitecturas más simples y modestas para problemas específicos.
- Se subraya que no hay restricciones en el uso exclusivo de Yolo u otras arquitecturas predefinidas.
Comparación entre Arquitecturas en Detección de Objetos
Descripción de la Sección: Aquí se aborda la comparación entre diferentes arquitecturas para detección de objetos.
Rendimiento y Variantes de Yolo
- Se menciona que Yolo destaca por su rapidez, pero existen variantes como Yolo Tiny con menos capas y pesos, ofreciendo mayor velocidad.
- Aunque no se han realizado estudios exhaustivos, se reconoce a Yolo como una opción funcional sin conocer otra arquitectura superior en rendimiento.
Segmentación y Detección Detallada
Descripción de la Sección: En este segmento, se explora la segmentación detallada y las tareas específicas dentro del campo.
Segmentación Detallada
- Se introduce el concepto de segmentación semántica que va más allá de la detección al clasificar píxeles por objeto.
- La segmentación implica asignar píxeles a clases específicas como personas, autos o señales viales.
Segmentación de Imágenes y Redes Neuronales Convolucionales
Resumen de la Sección: En esta sección, se aborda el tema de la segmentación de imágenes y las redes neuronales convolucionales, explorando cómo se clasifican los píxeles en objetos contables e incontables, así como la importancia de la segmentación por distancias y la arquitectura UNet en este proceso.
Objetos Contables e Incontables
- Los objetos contables son entidades individuales como una persona o un auto, mientras que los incontables incluyen conjuntos de píxeles como el cielo o el agua.
Segmentación por Distancias
- La segmentación por distancias clasifica los píxeles según su pertenencia a un objeto específico, identificando instancias separadas dentro del mismo objeto.
Arquitectura UNet y Segmentación Detallada
- La arquitectura UNet es utilizada para segmentar imágenes, asignando colores a píxeles pertenecientes a la misma clase y permitiendo una detección precisa de instancias como personas, autos o semáforos.
Espacio Latente y Reconstrucción de Imágenes
- El espacio latente en las redes neuronales convolucionales sirve para representar características abstractas en vectores multidimensionales, facilitando la reconstrucción fiel de imágenes a partir de instancias detectadas en dicho espacio.
Reconstrucción Detallada con Redes Neuronales
Reconstrucción de Imágenes con Redes Neuronales
Resumen de la Sección: En esta sección, se discute el proceso de reconstrucción de imágenes utilizando redes neuronales, centrándose en cómo se pueden reconstruir objetos y colores a partir de información original.
Reconstrucción de Personas y Objetos
- Se puede reconstruir la posición de personas en una imagen en diferentes ubicaciones, no necesariamente en el centro.
- La información obtenida de bloques anteriores se utiliza como entrada para reconstruir la imagen, permitiendo identificar objetos como personas y autos.
- El proceso de reconstrucción implica dibujar los objetos basándose en la información proporcionada por las salidas previas.
Segmentación y Reconocimiento
- El objetivo es que el codificador aprenda a dibujar los píxeles correspondientes a un objeto específico en la imagen.
- La salida esperada es una imagen segmentada donde cada objeto está pintado del mismo color para su reconocimiento.
Proceso Manual vs. Automatizado
- Aunque existen herramientas para asistir en la segmentación, a menudo se requiere construir manualmente un dataset con imágenes originales y sus versiones segmentadas.
- La entrada consiste en una imagen original mientras que la salida es una representación vectorial que luego se interpreta como una imagen segmentada.
Upsampling y Métodos de Interpolación
- Al realizar upsampling para aumentar el tamaño de una imagen, existen técnicas como repetición o interpolación basada en valores vecinos para asignar nuevos píxeles generados.
- Diferentes métodos de resample determinan cómo asignar valores a los nuevos píxeles durante el proceso de ampliación.
Concatenación y Procesamiento Adicional
- Después del upsampling, se concatena con capas anteriores para continuar aplicando convoluciones y procesamientos adicionales antes de obtener la salida final.
Análisis de Imágenes Biomédicas y Aplicaciones de Redes Neuronales
Resumen de la Sección: En esta sección, se discute el uso de redes neuronales en el análisis de imágenes biomédicas y otras aplicaciones como la conducción autónoma y la cartografía.
Uso de Redes Neuronales en Imágenes Biomédicas
- Se menciona que la arquitectura UNet surgió de un paper para analizar imágenes biomédicas.
- La UNet ha sido utilizada en conducción autónoma para detectar autos, peatones, entre otros, así como en análisis de imágenes satelitales para cartografía.
- También se ha empleado para segmentar elementos como casas, manzanas o parcelas en aplicaciones agrícolas.
Segmentación con Ultralytics y Modelos Preentrenados
Resumen de la Sección: Aquí se explora cómo Ultralytics permite la segmentación de imágenes a través de modelos preentrenados.
Segmentación con Ultralytics
- Ultralytics facilita la segmentación de imágenes sin utilizar bounding boxes, generando salidas como imágenes segmentadas.
- Se destaca que el proceso es similar al modelo YOLO pero cargando un modelo específico para segmentación.
Construcción Personalizada de Arquitecturas con UNet
Resumen de la Sección: Se detalla cómo construir arquitecturas personalizadas utilizando bloques en codificador y decodificador.
Personalización con UNet
- La flexibilidad del modelo UNet permite agregar bloques tanto en el codificador como en el decodificador según las necesidades del problema.
- Es posible diseñar una arquitectura simple con pocos pasos para resolver problemas específicos.
Entrenamiento y Normalización Automática
Resumen de la Sección: Aquí se aborda el proceso previo al entrenamiento del modelo, incluyendo normalización automática.
Entrenamiento y Normalización
- Los modelos también se encargan automáticamente de normalizar las imágenes antes del entrenamiento.
Análisis Detallado del Modelo de Estimación de Postura
Resumen de la Sección: En esta sección, se detalla el proceso del modelo completo de estimación de postura, desde la detección de puntos clave hasta la reconstrucción de la imagen final.
Proceso del Modelo Completo
- Los hit Maps son utilizados para detectar los puntos clave en una imagen.
- El modelo consta de dos partes: el hit map para detectar las articulaciones y el estimador para identificar los key points.
- La primera parte del estimador utiliza el hit map como entrada para detectar las posibles articulaciones.
- El detector inicial, como Yolo, es entrenado para permitir inclinaciones en los bounding boxes.
- El estimador busca detectar el esqueleto cuando está perpendicular al piso.
Arquitectura y Entrenamiento del Modelo
Resumen de la Sección: Se explora la arquitectura secuencial del modelo y su entrenamiento para obtener un espacio latente y recrear el hit map.
Arquitectura Secuencial
- La arquitectura es secuencial hacia abajo y hacia arriba, similar a Unet pero representada diferente.
- Se busca una reducción para obtener un espacio latente y recrear el hit map capa a capa.
Entrenamiento y Resultados del Modelo
Resumen de la Sección: Se describe el proceso de entrenamiento por etapas del modelo hasta obtener los key points deseados.
Entrenamiento por Etapas
- El primer modelito se entrena con la parte central (hit map), mientras que la izquierda se entrena por separado.
- Una vez que se logra aprender los hit maps correctamente, se procede con el entrenamiento completo del modelo.
Limitaciones y Aplicaciones Prácticas
Resumen de la Sección: Se discuten las limitaciones del modelo en cuanto a detección individual y sus aplicaciones prácticas en fisioterapia.
Limitaciones y Aplicaciones
- El modelo actualmente solo puede detectar la pose de una sola persona en una imagen.
Clase de Realidad Virtual y Aumentada
Resumen de la Sección: En esta sección, se discute el uso de la realidad virtual y aumentada en el entretenimiento, centrándose en la interacción humana con computadoras y dispositivos.
Realidad Virtual y Aumentada en Entretenimiento
- Se evalúa la precisión de las poses en juegos mediante sistemas que detectan movimientos como saltos o movimientos hacia atrás.
- La interacción humana con computadoras es fundamental para controlar los juegos, como disparar flechas o usar escudos, todo a través del movimiento físico.
- Se menciona la importancia de detectar key points en manos para reconocimiento de gestos y expresiones faciales, como tristeza o sonrisas.
- Existen modelos específicos para detectar poses completas del cuerpo humano, así como otros enfocados solo en manos o caras.
Estudio de Modelos y Problemas de Regresión
Resumen de la Sección: Aquí se aborda el estudio detallado de modelos y problemas relacionados con regresión en inteligencia artificial.
Modelos Específicos y Problemas de Regresión
- Se plantea la búsqueda de modelos específicos para diferentes problemas, como determinar el tamaño de una persona a partir de una foto o video.
- La importancia radica en buscar algoritmos adecuados para detección humana, ya sea posturas corporales (pose), manos (hand post), o rostros (face post).
- Se destaca la capacidad del algoritmo para detectar poses humanas en imágenes, lo cual es crucial dentro del campo del reconocimiento visual.
Prácticas e Implementación Efectiva
Resumen de la Sección: En este segmento se discute sobre las prácticas efectivas al implementar modelos y resolver problemas reales utilizando inteligencia artificial.
Prácticas Efectivas
- Se menciona la importancia de realizar prácticas sobre problemas reales propios, permitiendo comprender mejor los errores y ajustes necesarios.
- Los estudiantes son alentados a experimentar con sus propios problemas reales utilizando los cuadernos proporcionados, lo que facilita un aprendizaje más significativo.