Tablas de contingencia y prueba de Independencia Ji-Cuadrada.

Tablas de contingencia y prueba de Independencia Ji-Cuadrada.

¿Para qué sirven las tablas de contingencia en estadística?

Introducción a las Tablas de Contingencia

  • En este vídeo se explica la utilidad de las tablas de contingencia en estadística y se realiza una prueba de independencia entre dos variables.
  • Se introduce el conjunto de datos "iris", que contiene registros sobre diferentes especies de plantas y sus medidas morfológicas.

Descripción del Conjunto de Datos Iris

  • El dataset fue creado por el botánico estadounidense Edgar Anderson para cuantificar la variación morfológica entre varias especies.
  • Cada registro representa una planta, con información sobre longitud y ancho del sépalo y pétalo, así como la especie a la que pertenece.

Preparación del Análisis

  • Se asigna el dataframe iris a una variable llamada "datos" para su uso posterior en el análisis.
  • Se aplica la función mutate para agregar una nueva columna llamada "size", categorizando los registros como "small" o "big" según su longitud.

Visualización Gráfica

  • Se generan tres gráficos para visualizar cómo se comportan los datos. El primer gráfico muestra un conteo absoluto por especie y tamaño.
  • El segundo gráfico presenta proporciones relativas, mientras que el tercero separa las barras por categoría, facilitando la comparación visual.

Creación de la Tabla de Contingencia

  • Se utiliza la función table para crear una tabla que relaciona las especies con sus categorías (big/small).

Prueba de Independencia entre Variables

Introducción a la Prueba de Independencia

  • Se presenta la prueba de independencia entre dos variables, estableciendo las hipótesis:
  • Hipótesis nula (H0): Las variables son independientes.
  • Hipótesis alternativa (H1): Las variables son dependientes.

Realización de la Prueba

  • Se utiliza la función chick.test para realizar la prueba con los datos de una tabla de contingencia previamente creada.
  • Los resultados incluyen el estadístico chi-cuadrado (86.03) y los grados de libertad (2), calculados como:
  • Grados de libertad = (número de renglones - 1) * (número de columnas - 1).

Conclusiones Iniciales

  • Comparando el estadístico obtenido con el valor crítico en la tabla chi-cuadrado para un nivel de significancia del 0.05, se encuentra que:
  • Valor crítico = 5.99; dado que 86.03 > 5.99, se rechaza H0.
  • Alternativamente, al observar que el p-value es menor a alfa (0.05), también se puede rechazar H0.

Cálculo del Estadístico Chi-Cuadrado

  • La fórmula para calcular el estadístico chi-cuadrado es:

[

chi^2 = sum (O_i - E_i)^2/E_i

]

  • Se obtienen los valores esperados utilizando los datos observados en la tabla de contingencia.

Obtención y Análisis de Residuos

  • Para calcular los residuos, se usa la fórmula:

[

Residuo = (O_i - E_i)/sqrtE_i

]

  • Se pueden analizar qué tanto contribuyó cada conteo al resultado final aplicando una fórmula adicional que relaciona residuos y el estadístico chi-cuadrado.

Visualización Gráfica

  • Se grafica el impacto relativo usando core.plot, donde círculos más rojos indican mayor influencia en el resultado.
  • La especie "versicolor" muestra poco impacto en comparación con otras especies, evidenciado por su color blanco en el gráfico.
Video description

Ciencia de datos, Análisis de datos y Estadística.