Prueba de bondad y ajuste Ji-cuadrado. ¿Te esperabas la conclusión?

Prueba de bondad y ajuste Ji-cuadrado. ¿Te esperabas la conclusión?

¿Cómo funciona una prueba de bondad de ajuste y cuadrada?

Introducción a la Prueba de Bondad de Ajuste

  • En este vídeo se explica el funcionamiento de una prueba de bondad de ajuste y cuadrada, utilizando un libro recomendado llamado "Art by Example" que aborda temas interesantes en estadística aplicados en R.

Experimento del Test de Weldon

  • Se presenta el experimento conocido como "Wheldon test", donde Weldon lanzó 26,300 veces 12 dados al aire para estudiar los resultados.
  • Weldon definió un éxito como obtener cinco o seis puntos en la cara superior del dado, estableciendo así que la probabilidad de éxito es 2/6 o un tercio, asumiendo dados equilibrados.

Registro y Conteo de Éxitos

  • Durante cada lanzamiento, Weldon registró cuántos éxitos obtuvo. Por ejemplo, si tres dados mostraron cinco y dos mostraron seis, eso contaba como cinco éxitos.
  • Al final del experimento, Weldon contabilizó cuántas veces obtuvo cero éxitos hasta doce éxitos, creando un vector con estos valores observados.

Comparación con Distribución Binomial

  • La prueba busca determinar si el vector observado sigue una distribución específica; en este caso, se comparará con una distribución binomial.

Implementación en R

  • Se introduce el uso del software R para realizar la prueba. Se importan bibliotecas necesarias y se declara un vector que representa las posibilidades del número de éxitos al lanzar los dados.
  • Se simula una variable aleatoria distribuida binomialmente para contrastar los resultados obtenidos por Weldon.

Cálculo y Resultados Esperados

  • Se multiplican las probabilidades por el número total de experimentos (26,300 lanzamientos), lo que permite calcular cuántas veces se esperaría obtener cada cantidad de éxitos.
  • Los valores esperados son organizados junto a los valores observados por Weldon para facilitar la comparación entre ambos conjuntos.

Creación del Data Frame

  • Se crea un data frame que incluye tanto los valores esperados (de la distribución binomial simulada) como los observados por Weldon. Esto ayuda a visualizar mejor los datos y su origen.

Gráfica de Distribuciones y Prueba de Bondad de Ajuste

Creación de la Gráfica

  • Se inicia el proceso para graficar utilizando la función jiji plot, donde se especifica el data frame y los ejes x (número de éxitos) e y (conteo de éxitos).
  • El eje x abarca valores del 0 al 12, mientras que el eje y representa el conteo. La gráfica se separa por origen: distribución binomial simulada vs. datos observados por Wheldon.

Comparación Visual

  • Se establece una gráfica de barras con argumentos stat = identity y position para facilitar la comparación entre las dos distribuciones.
  • Las barras rojas representan la distribución binomial simulada, mientras que las azules corresponden a los datos observados. Aunque son similares, hay diferencias notables en ciertos puntos.

Análisis Cuantitativo

  • Se realiza una prueba de bondad de ajuste utilizando una columna adicional que muestra la diferencia absoluta entre ambas distribuciones.
  • Se observa que hay pocas coincidencias para 11 y 12 éxitos; se decide compactar las últimas tres categorías debido a estas bajas coincidencias.

Ajustes en los Vectores

  • Se genera un nuevo vector para los datos observados, manteniendo los primeros diez valores iguales y sumando las últimas tres categorías.
  • Similarmente, se ajustan las probabilidades en el vector binomial, asegurando que también sumen las últimas tres probabilidades.

Prueba de Hipótesis

  • Con ambos vectores ajustados listos, se plantea la hipótesis nula: los datos observados por Wheldon siguen una distribución binomial con parámetros específicos.
  • La hipótesis alternativa sugiere lo contrario. Se procederá a calcular manualmente el estadístico usando fórmulas específicas antes de utilizar funciones predefinidas en R.

Cálculo del Estadístico

  • Se suma nuevamente las últimas tres categorías para obtener un data frame con resultados aplicando la fórmula del estadístico.
  • La fórmula implica restar lo esperado menos lo observado, elevarlo al cuadrado y dividirlo entre lo esperado. Los resultados son analizados posteriormente.

Evaluación Final

  • Al sumar la columna del estadístico obtenido, se llega a un valor total significativo (35.70), comparándolo con tablas estadísticas correspondientes.

Análisis del Estadístico de Prueba en Distribuciones Binomiales

Evaluación del Estadístico de Prueba

  • Se presenta el estadístico de prueba, que es un valor cercano a 35.5, lo que indica una similitud con los resultados previos obtenidos por Wheldon.
  • El análisis se basa en una distribución binomial con parámetros específicos: n igual a 26,300 lanzamientos y p igual a un tercio.
  • Se menciona que el número de grados de libertad es 10, lo cual es relevante para la interpretación del estadístico chi-cuadrado.
  • El valor p obtenido (0.0001028) sugiere que hay una baja probabilidad de observar datos tan extremos bajo la hipótesis nula.
Video description

Ciencia de datos y análisis de datos.