PRECISION, RECALL Y F-SCORE: ¿qué son y cuándo usarlos?

Name: PRECISION, RECALL Y F-SCORE: ¿qué son y cuándo usarlos?
Uploaded: 2023-03-03T17:30:07.000Z
Duration: 40 min 13 s

Introducción a Métricas de Desempeño en Clasificadores

Contexto y Objetivo del Video

En un vídeo anterior se discutió la matriz de confusión y su uso para evaluar el desempeño de un clasificador.

Se menciona que la matriz de confusión no es suficiente para conjuntos de datos desbalanceados, lo que lleva a la introducción de nuevas métricas: precisión y recall.

Recursos Adicionales

Se invita a visitar codificando bits.com para acceder a una academia online y servicios en ciencia de datos y Machine Learning.

Se ofrece contacto para formación personalizada o desarrollo de proyectos en áreas relacionadas con inteligencia artificial.

Limitaciones de la Exactitud y Matriz de Confusión

Evaluación del Desempeño

Se revisan las limitaciones de la exactitud y la matriz de confusión como herramientas para evaluar clasificadores.

La exactitud mide el número total de aciertos sobre el total, sin considerar categorías específicas.

Ejemplo Práctico

Un conjunto desbalanceado puede dar lugar a una alta exactitud engañosa; por ejemplo, 90% puede ocultar un mal desempeño en clasificaciones críticas.

En un caso práctico con 90 sujetos normales y 10 anormales, se ilustra cómo los resultados pueden ser engañosos al calcular solo la exactitud.

Matriz de Confusión: Análisis Detallado

Comprensión Profunda

La matriz permite visualizar aciertos y desaciertos por categoría, pero no cuantifica adecuadamente falsos positivos o negativos.

A través del análisis detallado se identifican falsos positivos (anormales clasificados como normales) y falsos negativos (normales clasificados incorrectamente).

Introducción a Nuevas Métricas: Precisión y Recall

Definiciones Iniciales

Se introduce el concepto inicial sobre precisión, destacando su importancia en contextos donde hay desequilibrio entre clases.

Clasificación Binaria y Métricas de Evaluación

Introducción a la Clasificación Binaria

Se presentan dos categorías en la clasificación binaria: positivos y negativos, dependiendo de la aplicación que se esté desarrollando.

En el contexto médico, los "positivos" son sujetos normales sin problemas cardíacos, mientras que los "negativos" son sujetos anormales.

Definiciones Clave

Se definen cuatro situaciones posibles en la clasificación:

Verdaderos positivos: clasificados correctamente como normales.

Falsos positivos: anormales clasificados incorrectamente como normales.

Verdaderos negativos: anormales clasificados correctamente como tales.

Falsos negativos: normales clasificados incorrectamente como anormales.

Cálculo de Precisión

La precisión se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos positivos.

En el caso presentado, se observa una columna con datos clasificados como positivos, donde algunos son falsos positivos (anormales mal clasificados).

El valor ideal de precisión es del 100%, indicando que todos los casos clasificados como positivos son realmente positivos.

Ejemplo Práctico

Se introduce una matriz de confusión para calcular individualmente los verdaderos y falsos positivos.

Con un total de 89 verdaderos positivos y un falso negativo, se obtiene una precisión del 98.9%.

Introducción al Recall

A diferencia de la precisión, el recall mide cuántos casos realmente positivos fueron identificados correctamente.

De los 91 datos conocidos como normales, solo 89 fueron clasificados correctamente; esto da lugar a un cálculo específico para el recall.

Cálculo del Recall

El recall se calcula dividiendo los verdaderos positivos entre la suma de verdaderos positivos y falsos negativos.

Un valor ideal para el recall es también del 100%, lo que indicaría que no hay falsos negativos en las predicciones realizadas.

Resultados Comparativos

En este ejemplo hipotético, se obtuvo un recall del 97.8% junto con una precisión del 98.9%.

Clasificación y Métricas de Evaluación

Importancia de la Precisión y el Recall

La elección del clasificador depende de la aplicación; si se busca minimizar falsos positivos, es crucial enfocarse en la precisión para reducir los anormales detectados como normales.

La precisión mide indirectamente los falsos positivos; al reducir estos, la precisión aumenta. Por lo tanto, se debe buscar un valor alto de precisión.

Si el objetivo es reducir falsos negativos (FN), se debe priorizar el recall, que indica cuántos normales fueron incorrectamente clasificados como anormales.

En situaciones donde ambas métricas son importantes, no se puede priorizar una sobre otra; aquí entra en juego el F-score, que combina precisión y recall en un solo valor.

Cálculo del F-score

El F-score tiene una ecuación que incluye un parámetro beta, que determina la importancia relativa entre precisión y recall.

Al establecer beta a cero, se ignora el recall y solo se considera la precisión. Esto significa que nos enfocamos únicamente en minimizar los falsos positivos.

Con beta igual a 0.5, hay un balance entre precisión y recall; esto implica dar más peso al recall en comparación con la precisión.

Cuando beta es igual a 1 (One Score), ambos tienen igual importancia. Esta métrica es útil cuando queremos equilibrar las dos métricas.

Aplicación a Clasificadores Multiclase

Para clasificadores multiclase, construimos una matriz de confusión cuadrada donde cada categoría tiene su propia fila y columna para evaluar aciertos y desaciertos.

Se pueden calcular precisiones o recalls individuales para cada categoría analizando columnas (precisión) o filas (recall).

Es importante calcular métricas específicas para cada categoría para caracterizar adecuadamente el rendimiento del clasificador multiclase.

Consideraciones sobre Datos Desbalanceados

¿Cómo se relacionan precisión y recall en clasificadores?

Conceptos Clave sobre Precisión y Recall

La precisión se prioriza para reducir la tasa de falsos positivos, mientras que el recall se enfoca en disminuir la tasa de falsos negativos.

La elección de la métrica a utilizar depende del objetivo: minimizar falsos positivos o falsos negativos, lo que afecta directamente el desempeño del clasificador.

El número de aciertos y desaciertos está influenciado por un umbral que podemos establecer; este umbral impacta los valores de precisión y recall.

Herramientas para Evaluar Clasificadores

Para encontrar el umbral más adecuado según la aplicación, es útil recurrir a herramientas como la curva ROC o la curva precisión-recall, las cuales permiten visualizar el rendimiento del clasificador.