Regresión y Correlación EG

Regresión y Correlación EG

¿Qué es la regresión lineal simple y cómo se relaciona con la correlación?

Introducción a la correlación

  • Se inicia el video explicando que antes de abordar la regresión lineal simple, es fundamental entender el concepto de correlación.
  • Se introduce el diagrama de dispersión como herramienta para visualizar la relación entre dos variables cuantitativas, comúnmente denominadas x e y.

Diagrama de dispersión

  • La nube de puntos en un diagrama indica si los datos presentan correlación; un patrón discernible sugiere una relación entre las variables.
  • Si no hay un patrón reconocible en la nube de puntos, se concluye que no existe correlación entre los datos.

Tipos de correlaciones

  • Se describen dos tipos principales de correlaciones: positivas (ambas variables aumentan juntas) y negativas (una variable aumenta mientras la otra disminuye).
  • La fuerza o intensidad de estas relaciones se puede medir utilizando el coeficiente de correlación lineal de Pearson, que solo mide relaciones lineales.

Coeficiente de Correlación Lineal

  • El coeficiente se representa comúnmente como "r" y varía entre -1 y 1; valores cercanos a cero indican una relación débil.
  • Un valor cercano a 1 o -1 indica una fuerte relación positiva o negativa respectivamente.

Ejemplos visuales del ajuste

  • Se presentan gráficos que ilustran diferentes niveles de ajuste: desde un buen ajuste lineal hasta casos donde no hay patrones discernibles.
  • En algunos gráficos, aunque hay cierta correlación positiva, los puntos están más dispersos, lo que sugiere un ajuste menos preciso.

Prueba de hipótesis sobre la correlación

  • Para determinar si el coeficiente es significativo, se utiliza una prueba donde la hipótesis nula establece que no hay correlación (coeficiente igual a cero).

Correlación vs Causalidad

  • Se discute que probar una correlación no implica necesariamente establecer causalidad; se presenta el ejemplo humorístico sobre cigüeñas y bebés para ilustrar este punto.

Causalidad y Correlación en Estadística

Coincidencias y Causalidad Reversa

  • La relación entre dos variables puede ser una coincidencia al azar, donde no hay conexión real entre ellas.
  • Se presenta la causalidad reversa, donde es difícil identificar cuál variable causa el efecto debido a su correlación bidireccional.

Variables Comunes y Correlaciones

  • Un ejemplo de correlación sin causalidad es el consumo de alcohol y el cáncer de pulmón; ambos pueden estar relacionados con una tercera variable como el tabaquismo.
  • Las correlaciones suelen asociarse a variables cuantitativas, pero también se pueden medir asociaciones en variables cualitativas mediante coeficientes.

Coeficientes de Asociación

  • El coeficiente de Pearson mide la dependencia entre variables, variando entre -1 (dependencia inversa) y 1 (dependencia directa).
  • Este coeficiente es equivalente al coeficiente de correlación cuando se codifican adecuadamente las variables.

Riesgos Relativos y Coeficientes de Contingencia

  • El riesgo relativo compara probabilidades entre situaciones A y B, indicando cuán probable es que ocurra una condición dada otra.
  • El coeficiente de contingencia indica independencia absoluta con un valor máximo distinto a uno en tablas más complejas que 2x2.

Análisis de Regresión

  • El análisis de regresión permite predecir valores (por ejemplo, peso basado en estatura), ajustando una línea recta a datos dispersos.
  • La ecuación resultante ayuda a entender cómo las variables independientes afectan la variable dependiente.

Aplicaciones del Análisis Predictivo

  • Se utiliza para responder preguntas sobre relaciones significativas entre variables, como rentabilidad empresarial o gastos familiares.

Modelos Econométricos y Regresión Lineal

Introducción a los Modelos Econométricos

  • Los modelos econométricos identifican relaciones entre la variable dependiente (a pronosticar) y variables explicativas o independientes.
  • Existen diferentes tipos de modelos: regresiones simples, múltiples, ecuaciones simultáneas y vectores autoregresivos. Estos pueden ser estáticos o dinámicos, dependiendo del uso de datos temporales o series cronológicas.

Tipos de Variables en Modelos

  • Se distinguen dos tipos de variables: endógenas (valores determinados por el modelo) y exógenas (valores determinados fuera del modelo).
  • Las variables exógenas pueden ser corrientes o retardadas, lo que indica si se relacionan con valores actuales o pasados.

Estructura del Modelo de Regresión Lineal Simple

  • La forma básica del modelo es: Y = β₀ + β₁X + ε, donde Y es la variable respuesta, β₀ es el intercepto, β₁ es el coeficiente de la variable predictora X y ε representa el término de error.
  • El modelo de mínimos cuadrados busca minimizar la distancia entre los puntos en un gráfico de dispersión y la recta de regresión para obtener el mejor ajuste.

Variabilidad en Modelos

  • Se distingue entre variabilidad explicada (diferencias entre valores estimados y promedio), variabilidad no explicada (errores entre valores reales y estimados), y variabilidad total (la suma de ambas).
  • Un buen modelo debe maximizar la variabilidad explicada en comparación con la no explicada.

Pruebas Estadísticas en Regresión

  • Para validar los coeficientes del modelo se aplican pruebas de hipótesis; la hipótesis nula establece que un coeficiente es igual a cero.
  • Se deben cumplir ciertos supuestos: relación lineal entre variables, distribución normal de errores e independencia entre ellos.

Validación del Modelo

  • La existencia de una relación lineal puede observarse mediante diagramas de dispersión.
  • La normalidad se puede probar usando histogramas para visualizar la distribución de errores.

Homocedasticidad y Autocorrelación

  • La homocedasticidad se verifica observando gráficos donde los residuos deben distribuirse uniformemente alrededor del valor medio.
  • Para comprobar autocorrelación se utiliza la prueba Durbin-Watson; valores entre 1.5 y 2.5 sugieren independencia en los residuos.

Evaluación del Modelo Predictivo

Análisis de Errores en Modelos Predictivos

Cuadrático Medio y Detección de Datos Atípicos

  • El cuadrático medio penaliza las diferencias grandes al elevarlas al cuadrado, lo que ayuda a detectar datos atípicos en el modelo.
  • Este método es útil para evaluar la precisión del modelo, ya que magnifica los errores significativos.

Error Absoluto Promedio del Porcentaje (MAPE)

  • El MAPE se calcula como el promedio de las diferencias absolutas entre los valores pronosticados y los reales, expresándose como un porcentaje.
  • La ventaja del MAPE radica en su interpretación atractiva, facilitando comparaciones entre diferentes series o conjuntos de datos.