Regresión y Correlación EG
¿Qué es la regresión lineal simple y cómo se relaciona con la correlación?
Introducción a la correlación
- Se inicia el video explicando que antes de abordar la regresión lineal simple, es fundamental entender el concepto de correlación.
- Se introduce el diagrama de dispersión como herramienta para visualizar la relación entre dos variables cuantitativas, comúnmente denominadas x e y.
Diagrama de dispersión
- La nube de puntos en un diagrama indica si los datos presentan correlación; un patrón discernible sugiere una relación entre las variables.
- Si no hay un patrón reconocible en la nube de puntos, se concluye que no existe correlación entre los datos.
Tipos de correlaciones
- Se describen dos tipos principales de correlaciones: positivas (ambas variables aumentan juntas) y negativas (una variable aumenta mientras la otra disminuye).
- La fuerza o intensidad de estas relaciones se puede medir utilizando el coeficiente de correlación lineal de Pearson, que solo mide relaciones lineales.
Coeficiente de Correlación Lineal
- El coeficiente se representa comúnmente como "r" y varía entre -1 y 1; valores cercanos a cero indican una relación débil.
- Un valor cercano a 1 o -1 indica una fuerte relación positiva o negativa respectivamente.
Ejemplos visuales del ajuste
- Se presentan gráficos que ilustran diferentes niveles de ajuste: desde un buen ajuste lineal hasta casos donde no hay patrones discernibles.
- En algunos gráficos, aunque hay cierta correlación positiva, los puntos están más dispersos, lo que sugiere un ajuste menos preciso.
Prueba de hipótesis sobre la correlación
- Para determinar si el coeficiente es significativo, se utiliza una prueba donde la hipótesis nula establece que no hay correlación (coeficiente igual a cero).
Correlación vs Causalidad
- Se discute que probar una correlación no implica necesariamente establecer causalidad; se presenta el ejemplo humorístico sobre cigüeñas y bebés para ilustrar este punto.
Causalidad y Correlación en Estadística
Coincidencias y Causalidad Reversa
- La relación entre dos variables puede ser una coincidencia al azar, donde no hay conexión real entre ellas.
- Se presenta la causalidad reversa, donde es difícil identificar cuál variable causa el efecto debido a su correlación bidireccional.
Variables Comunes y Correlaciones
- Un ejemplo de correlación sin causalidad es el consumo de alcohol y el cáncer de pulmón; ambos pueden estar relacionados con una tercera variable como el tabaquismo.
- Las correlaciones suelen asociarse a variables cuantitativas, pero también se pueden medir asociaciones en variables cualitativas mediante coeficientes.
Coeficientes de Asociación
- El coeficiente de Pearson mide la dependencia entre variables, variando entre -1 (dependencia inversa) y 1 (dependencia directa).
- Este coeficiente es equivalente al coeficiente de correlación cuando se codifican adecuadamente las variables.
Riesgos Relativos y Coeficientes de Contingencia
- El riesgo relativo compara probabilidades entre situaciones A y B, indicando cuán probable es que ocurra una condición dada otra.
- El coeficiente de contingencia indica independencia absoluta con un valor máximo distinto a uno en tablas más complejas que 2x2.
Análisis de Regresión
- El análisis de regresión permite predecir valores (por ejemplo, peso basado en estatura), ajustando una línea recta a datos dispersos.
- La ecuación resultante ayuda a entender cómo las variables independientes afectan la variable dependiente.
Aplicaciones del Análisis Predictivo
- Se utiliza para responder preguntas sobre relaciones significativas entre variables, como rentabilidad empresarial o gastos familiares.
Modelos Econométricos y Regresión Lineal
Introducción a los Modelos Econométricos
- Los modelos econométricos identifican relaciones entre la variable dependiente (a pronosticar) y variables explicativas o independientes.
- Existen diferentes tipos de modelos: regresiones simples, múltiples, ecuaciones simultáneas y vectores autoregresivos. Estos pueden ser estáticos o dinámicos, dependiendo del uso de datos temporales o series cronológicas.
Tipos de Variables en Modelos
- Se distinguen dos tipos de variables: endógenas (valores determinados por el modelo) y exógenas (valores determinados fuera del modelo).
- Las variables exógenas pueden ser corrientes o retardadas, lo que indica si se relacionan con valores actuales o pasados.
Estructura del Modelo de Regresión Lineal Simple
- La forma básica del modelo es: Y = β₀ + β₁X + ε, donde Y es la variable respuesta, β₀ es el intercepto, β₁ es el coeficiente de la variable predictora X y ε representa el término de error.
- El modelo de mínimos cuadrados busca minimizar la distancia entre los puntos en un gráfico de dispersión y la recta de regresión para obtener el mejor ajuste.
Variabilidad en Modelos
- Se distingue entre variabilidad explicada (diferencias entre valores estimados y promedio), variabilidad no explicada (errores entre valores reales y estimados), y variabilidad total (la suma de ambas).
- Un buen modelo debe maximizar la variabilidad explicada en comparación con la no explicada.
Pruebas Estadísticas en Regresión
- Para validar los coeficientes del modelo se aplican pruebas de hipótesis; la hipótesis nula establece que un coeficiente es igual a cero.
- Se deben cumplir ciertos supuestos: relación lineal entre variables, distribución normal de errores e independencia entre ellos.
Validación del Modelo
- La existencia de una relación lineal puede observarse mediante diagramas de dispersión.
- La normalidad se puede probar usando histogramas para visualizar la distribución de errores.
Homocedasticidad y Autocorrelación
- La homocedasticidad se verifica observando gráficos donde los residuos deben distribuirse uniformemente alrededor del valor medio.
- Para comprobar autocorrelación se utiliza la prueba Durbin-Watson; valores entre 1.5 y 2.5 sugieren independencia en los residuos.
Evaluación del Modelo Predictivo
Análisis de Errores en Modelos Predictivos
Cuadrático Medio y Detección de Datos Atípicos
- El cuadrático medio penaliza las diferencias grandes al elevarlas al cuadrado, lo que ayuda a detectar datos atípicos en el modelo.
- Este método es útil para evaluar la precisión del modelo, ya que magnifica los errores significativos.
Error Absoluto Promedio del Porcentaje (MAPE)
- El MAPE se calcula como el promedio de las diferencias absolutas entre los valores pronosticados y los reales, expresándose como un porcentaje.
- La ventaja del MAPE radica en su interpretación atractiva, facilitando comparaciones entre diferentes series o conjuntos de datos.