Getting Started with Orange 13: Silhouette
Cómo encontrar un buen número de clusters en nuestros datos
Resumen de la sección: En esta sección, se aborda el tema de cómo determinar el número adecuado de clusters en nuestros datos utilizando la puntuación de silueta.
Entendiendo la puntuación de silueta
- La puntuación de silueta es una medida de calidad del cluster que nos ayuda a encontrar el valor k para nuestro algoritmo k-means.
- Es importante comprender cómo funciona la puntuación de silueta.
Cálculo de la puntuación de silueta
- Para calcular la puntuación de silueta, primero necesitamos medir las distancias promedio entre los puntos y los demás puntos dentro del mismo cluster (distancia A).
- Luego, medimos las distancias promedio entre los puntos y los puntos del cluster más cercano (distancia B).
- Si un punto está bien ubicado en su cluster, esperamos que la distancia B sea grande y la distancia A sea pequeña.
Normalización y cálculo final
- Para normalizar esta puntuación, dividimos la diferencia entre las distancias B y A por el máximo valor entre ellas.
- El resultado final es una puntuación de silueta para cada punto, donde valores altos indican que el punto está bien asignado a su cluster.
Visualización y aplicación práctica
- Podemos visualizar los clusters utilizando un gráfico de dispersión y conectarlo con la puntuación de silueta.
- La puntuación de silueta nos permite identificar los puntos que están cerca del centro del cluster y aquellos en los límites.
- También podemos utilizar gráficos de silueta para analizar datos con atributos o clases discretas.
Los valores atípicos más grandes
Resumen de la sección: En esta sección, se discuten los valores atípicos más grandes.
Valores atípicos más grandes
- Se mencionan los valores atípicos más grandes encontrados en el análisis.
- No se proporciona información adicional sobre estos valores atípicos.