PRECISION, RECALL Y F-SCORE: ¿qué son y cuándo usarlos?
Introducción a Métricas de Desempeño en Clasificadores
Contexto y Objetivo del Video
- En un vídeo anterior se discutió la matriz de confusión y su uso para evaluar el desempeño de un clasificador.
- Se menciona que la matriz de confusión no es suficiente para conjuntos de datos desbalanceados, lo que lleva a la introducción de nuevas métricas: precisión y recall.
Recursos Adicionales
- Se invita a visitar codificando bits.com para acceder a una academia online y servicios en ciencia de datos y Machine Learning.
- Se ofrece contacto para formación personalizada o desarrollo de proyectos en áreas relacionadas con inteligencia artificial.
Limitaciones de la Exactitud y Matriz de Confusión
Evaluación del Desempeño
- Se revisan las limitaciones de la exactitud y la matriz de confusión como herramientas para evaluar clasificadores.
- La exactitud mide el número total de aciertos sobre el total, sin considerar categorías específicas.
Ejemplo Práctico
- Un conjunto desbalanceado puede dar lugar a una alta exactitud engañosa; por ejemplo, 90% puede ocultar un mal desempeño en clasificaciones críticas.
- En un caso práctico con 90 sujetos normales y 10 anormales, se ilustra cómo los resultados pueden ser engañosos al calcular solo la exactitud.
Matriz de Confusión: Análisis Detallado
Comprensión Profunda
- La matriz permite visualizar aciertos y desaciertos por categoría, pero no cuantifica adecuadamente falsos positivos o negativos.
- A través del análisis detallado se identifican falsos positivos (anormales clasificados como normales) y falsos negativos (normales clasificados incorrectamente).
Introducción a Nuevas Métricas: Precisión y Recall
Definiciones Iniciales
- Se introduce el concepto inicial sobre precisión, destacando su importancia en contextos donde hay desequilibrio entre clases.
Clasificación Binaria y Métricas de Evaluación
Introducción a la Clasificación Binaria
- Se presentan dos categorías en la clasificación binaria: positivos y negativos, dependiendo de la aplicación que se esté desarrollando.
- En el contexto médico, los "positivos" son sujetos normales sin problemas cardíacos, mientras que los "negativos" son sujetos anormales.
Definiciones Clave
- Se definen cuatro situaciones posibles en la clasificación:
- Verdaderos positivos: clasificados correctamente como normales.
- Falsos positivos: anormales clasificados incorrectamente como normales.
- Verdaderos negativos: anormales clasificados correctamente como tales.
- Falsos negativos: normales clasificados incorrectamente como anormales.
Cálculo de Precisión
- La precisión se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos positivos.
- En el caso presentado, se observa una columna con datos clasificados como positivos, donde algunos son falsos positivos (anormales mal clasificados).
- El valor ideal de precisión es del 100%, indicando que todos los casos clasificados como positivos son realmente positivos.
Ejemplo Práctico
- Se introduce una matriz de confusión para calcular individualmente los verdaderos y falsos positivos.
- Con un total de 89 verdaderos positivos y un falso negativo, se obtiene una precisión del 98.9%.
Introducción al Recall
- A diferencia de la precisión, el recall mide cuántos casos realmente positivos fueron identificados correctamente.
- De los 91 datos conocidos como normales, solo 89 fueron clasificados correctamente; esto da lugar a un cálculo específico para el recall.
Cálculo del Recall
- El recall se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos negativos.
- Un valor ideal para el recall es también del 100%, lo que indicaría que no hay falsos negativos en las predicciones realizadas.
Resultados Comparativos
- En este ejemplo hipotético, se obtuvo un recall del 97.8% junto con una precisión del 98.9%.
Clasificación y Métricas de Evaluación
Importancia de la Precisión y el Recall
- La elección del clasificador depende de la aplicación; si se busca minimizar falsos positivos, es crucial enfocarse en la precisión para reducir los anormales detectados como normales.
- La precisión mide indirectamente los falsos positivos; al reducir estos, la precisión aumenta. Por lo tanto, se debe buscar un valor alto de precisión.
- Si el objetivo es reducir falsos negativos (FN), se debe priorizar el recall, que indica cuántos normales fueron incorrectamente clasificados como anormales.
- En situaciones donde ambas métricas son importantes, no se puede priorizar una sobre otra; aquí entra en juego el F-score, que combina precisión y recall en un solo valor.
Cálculo del F-score
- El F-score tiene una ecuación que incluye un parámetro beta, que determina la importancia relativa entre precisión y recall.
- Al establecer beta a cero, se ignora el recall y solo se considera la precisión. Esto significa que nos enfocamos únicamente en minimizar los falsos positivos.
- Con beta igual a 0.5, hay un balance entre precisión y recall; esto implica dar más peso al recall en comparación con la precisión.
- Cuando beta es igual a 1 (One Score), ambos tienen igual importancia. Esta métrica es útil cuando queremos equilibrar las dos métricas.
Aplicación a Clasificadores Multiclase
- Para clasificadores multiclase, construimos una matriz de confusión cuadrada donde cada categoría tiene su propia fila y columna para evaluar aciertos y desaciertos.
- Se pueden calcular precisiones o recalls individuales para cada categoría analizando columnas (precisión) o filas (recall).
- Es importante calcular métricas específicas para cada categoría para caracterizar adecuadamente el rendimiento del clasificador multiclase.
Consideraciones sobre Datos Desbalanceados
¿Cómo se relacionan precisión y recall en clasificadores?
Conceptos Clave sobre Precisión y Recall
- La precisión se prioriza para reducir la tasa de falsos positivos, mientras que el recall se enfoca en disminuir la tasa de falsos negativos.
- La elección de la métrica a utilizar depende del objetivo: minimizar falsos positivos o falsos negativos, lo que afecta directamente el desempeño del clasificador.
- El número de aciertos y desaciertos está influenciado por un umbral que podemos establecer; este umbral impacta los valores de precisión y recall.
Herramientas para Evaluar Clasificadores
- Para encontrar el umbral más adecuado según la aplicación, es útil recurrir a herramientas como la curva ROC o la curva precisión-recall, las cuales permiten visualizar el rendimiento del clasificador.