Prueba de bondad y ajuste Ji-cuadrado. ¿Te esperabas la conclusión?

Name: Prueba de bondad y ajuste Ji-cuadrado. ¿Te esperabas la conclusión?
Uploaded: 2022-02-10T06:06:57.000Z
Duration: 36 min 10 s
Description: Ciencia de datos y análisis de datos.

¿Cómo funciona una prueba de bondad de ajuste y cuadrada?

Introducción a la Prueba de Bondad de Ajuste

En este vídeo se explica el funcionamiento de una prueba de bondad de ajuste y cuadrada, utilizando un libro recomendado llamado "Art by Example" que aborda temas interesantes en estadística aplicados en R.

Experimento del Test de Weldon

Se presenta el experimento conocido como "Wheldon test", donde Weldon lanzó 26,300 veces 12 dados al aire para estudiar los resultados.

Weldon definió un éxito como obtener cinco o seis puntos en la cara superior del dado, estableciendo así que la probabilidad de éxito es 2/6 o un tercio, asumiendo dados equilibrados.

Registro y Conteo de Éxitos

Durante cada lanzamiento, Weldon registró cuántos éxitos obtuvo. Por ejemplo, si tres dados mostraron cinco y dos mostraron seis, eso contaba como cinco éxitos.

Al final del experimento, Weldon contabilizó cuántas veces obtuvo cero éxitos hasta doce éxitos, creando un vector con estos valores observados.

Comparación con Distribución Binomial

La prueba busca determinar si el vector observado sigue una distribución específica; en este caso, se comparará con una distribución binomial.

Implementación en R

Se introduce el uso del software R para realizar la prueba. Se importan bibliotecas necesarias y se declara un vector que representa las posibilidades del número de éxitos al lanzar los dados.

Se simula una variable aleatoria distribuida binomialmente para contrastar los resultados obtenidos por Weldon.

Cálculo y Resultados Esperados

Se multiplican las probabilidades por el número total de experimentos (26,300 lanzamientos), lo que permite calcular cuántas veces se esperaría obtener cada cantidad de éxitos.

Los valores esperados son organizados junto a los valores observados por Weldon para facilitar la comparación entre ambos conjuntos.

Creación del Data Frame

Se crea un data frame que incluye tanto los valores esperados (de la distribución binomial simulada) como los observados por Weldon. Esto ayuda a visualizar mejor los datos y su origen.

Gráfica de Distribuciones y Prueba de Bondad de Ajuste

Creación de la Gráfica

Se inicia el proceso para graficar utilizando la función jiji plot, donde se especifica el data frame y los ejes x (número de éxitos) e y (conteo de éxitos).

El eje x abarca valores del 0 al 12, mientras que el eje y representa el conteo. La gráfica se separa por origen: distribución binomial simulada vs. datos observados por Wheldon.

Comparación Visual

Se establece una gráfica de barras con argumentos stat = identity y position para facilitar la comparación entre las dos distribuciones.

Las barras rojas representan la distribución binomial simulada, mientras que las azules corresponden a los datos observados. Aunque son similares, hay diferencias notables en ciertos puntos.

Análisis Cuantitativo

Se realiza una prueba de bondad de ajuste utilizando una columna adicional que muestra la diferencia absoluta entre ambas distribuciones.

Se observa que hay pocas coincidencias para 11 y 12 éxitos; se decide compactar las últimas tres categorías debido a estas bajas coincidencias.

Ajustes en los Vectores

Se genera un nuevo vector para los datos observados, manteniendo los primeros diez valores iguales y sumando las últimas tres categorías.

Similarmente, se ajustan las probabilidades en el vector binomial, asegurando que también sumen las últimas tres probabilidades.

Prueba de Hipótesis

Con ambos vectores ajustados listos, se plantea la hipótesis nula: los datos observados por Wheldon siguen una distribución binomial con parámetros específicos.

La hipótesis alternativa sugiere lo contrario. Se procederá a calcular manualmente el estadístico usando fórmulas específicas antes de utilizar funciones predefinidas en R.

Cálculo del Estadístico

Se suma nuevamente las últimas tres categorías para obtener un data frame con resultados aplicando la fórmula del estadístico.

La fórmula implica restar lo esperado menos lo observado, elevarlo al cuadrado y dividirlo entre lo esperado. Los resultados son analizados posteriormente.

Evaluación Final

Al sumar la columna del estadístico obtenido, se llega a un valor total significativo (35.70), comparándolo con tablas estadísticas correspondientes.

Análisis del Estadístico de Prueba en Distribuciones Binomiales

Evaluación del Estadístico de Prueba

Se presenta el estadístico de prueba, que es un valor cercano a 35.5, lo que indica una similitud con los resultados previos obtenidos por Wheldon.

El análisis se basa en una distribución binomial con parámetros específicos: n igual a 26,300 lanzamientos y p igual a un tercio.

Se menciona que el número de grados de libertad es 10, lo cual es relevante para la interpretación del estadístico chi-cuadrado.

El valor p obtenido (0.0001028) sugiere que hay una baja probabilidad de observar datos tan extremos bajo la hipótesis nula.