Getting Started with Orange 13: Silhouette

Getting Started with Orange 13: Silhouette

Cómo encontrar un buen número de clusters en nuestros datos

Resumen de la sección: En esta sección, se aborda el tema de cómo determinar el número adecuado de clusters en nuestros datos utilizando la puntuación de silueta.

Entendiendo la puntuación de silueta

  • La puntuación de silueta es una medida de calidad del cluster que nos ayuda a encontrar el valor k para nuestro algoritmo k-means.
  • Es importante comprender cómo funciona la puntuación de silueta.

Cálculo de la puntuación de silueta

  • Para calcular la puntuación de silueta, primero necesitamos medir las distancias promedio entre los puntos y los demás puntos dentro del mismo cluster (distancia A).
  • Luego, medimos las distancias promedio entre los puntos y los puntos del cluster más cercano (distancia B).
  • Si un punto está bien ubicado en su cluster, esperamos que la distancia B sea grande y la distancia A sea pequeña.

Normalización y cálculo final

  • Para normalizar esta puntuación, dividimos la diferencia entre las distancias B y A por el máximo valor entre ellas.
  • El resultado final es una puntuación de silueta para cada punto, donde valores altos indican que el punto está bien asignado a su cluster.

Visualización y aplicación práctica

  • Podemos visualizar los clusters utilizando un gráfico de dispersión y conectarlo con la puntuación de silueta.
  • La puntuación de silueta nos permite identificar los puntos que están cerca del centro del cluster y aquellos en los límites.
  • También podemos utilizar gráficos de silueta para analizar datos con atributos o clases discretas.

Los valores atípicos más grandes

Resumen de la sección: En esta sección, se discuten los valores atípicos más grandes.

Valores atípicos más grandes

  • Se mencionan los valores atípicos más grandes encontrados en el análisis.
  • No se proporciona información adicional sobre estos valores atípicos.
Video description

Explanation of silhouette score and how to use it for finding the outliers and the inliers. For more information on silhouette score, read the blog: [Silhouette Score] http://blog.biolab.si/2016/03/23/all-i-see-is-silhouette/ License: GNU GPL + CC Music by: http://www.bensound.com/ Website: https://orangedatamining.com Created by: Laboratory for Bioinformatics, Faculty of Computer and Information Science, University of Ljubljana