Tablas de contingencia y prueba de Independencia Ji-Cuadrada.
¿Para qué sirven las tablas de contingencia en estadística?
Introducción a las Tablas de Contingencia
- En este vídeo se explica la utilidad de las tablas de contingencia en estadística y se realiza una prueba de independencia entre dos variables.
- Se introduce el conjunto de datos "iris", que contiene registros sobre diferentes especies de plantas y sus medidas morfológicas.
Descripción del Conjunto de Datos Iris
- El dataset fue creado por el botánico estadounidense Edgar Anderson para cuantificar la variación morfológica entre varias especies.
- Cada registro representa una planta, con información sobre longitud y ancho del sépalo y pétalo, así como la especie a la que pertenece.
Preparación del Análisis
- Se asigna el dataframe iris a una variable llamada "datos" para su uso posterior en el análisis.
- Se aplica la función
mutatepara agregar una nueva columna llamada "size", categorizando los registros como "small" o "big" según su longitud.
Visualización Gráfica
- Se generan tres gráficos para visualizar cómo se comportan los datos. El primer gráfico muestra un conteo absoluto por especie y tamaño.
- El segundo gráfico presenta proporciones relativas, mientras que el tercero separa las barras por categoría, facilitando la comparación visual.
Creación de la Tabla de Contingencia
- Se utiliza la función
tablepara crear una tabla que relaciona las especies con sus categorías (big/small).
Prueba de Independencia entre Variables
Introducción a la Prueba de Independencia
- Se presenta la prueba de independencia entre dos variables, estableciendo las hipótesis:
- Hipótesis nula (H0): Las variables son independientes.
- Hipótesis alternativa (H1): Las variables son dependientes.
Realización de la Prueba
- Se utiliza la función
chick.testpara realizar la prueba con los datos de una tabla de contingencia previamente creada.
- Los resultados incluyen el estadístico chi-cuadrado (86.03) y los grados de libertad (2), calculados como:
- Grados de libertad = (número de renglones - 1) * (número de columnas - 1).
Conclusiones Iniciales
- Comparando el estadístico obtenido con el valor crítico en la tabla chi-cuadrado para un nivel de significancia del 0.05, se encuentra que:
- Valor crítico = 5.99; dado que 86.03 > 5.99, se rechaza H0.
- Alternativamente, al observar que el p-value es menor a alfa (0.05), también se puede rechazar H0.
Cálculo del Estadístico Chi-Cuadrado
- La fórmula para calcular el estadístico chi-cuadrado es:
[
chi^2 = sum (O_i - E_i)^2/E_i
]
- Se obtienen los valores esperados utilizando los datos observados en la tabla de contingencia.
Obtención y Análisis de Residuos
- Para calcular los residuos, se usa la fórmula:
[
Residuo = (O_i - E_i)/sqrtE_i
]
- Se pueden analizar qué tanto contribuyó cada conteo al resultado final aplicando una fórmula adicional que relaciona residuos y el estadístico chi-cuadrado.
Visualización Gráfica
- Se grafica el impacto relativo usando
core.plot, donde círculos más rojos indican mayor influencia en el resultado.
- La especie "versicolor" muestra poco impacto en comparación con otras especies, evidenciado por su color blanco en el gráfico.