Regresión y Correlación EG

Name: Regresión y Correlación EG
Uploaded: 2023-02-14T16:10:02.000Z
Duration: 42 min 19 s

¿Qué es la regresión lineal simple y cómo se relaciona con la correlación?

Introducción a la correlación

Se inicia el video explicando que antes de abordar la regresión lineal simple, es fundamental entender el concepto de correlación.

Se introduce el diagrama de dispersión como herramienta para visualizar la relación entre dos variables cuantitativas, comúnmente denominadas x e y.

Diagrama de dispersión

La nube de puntos en un diagrama indica si los datos presentan correlación; un patrón discernible sugiere una relación entre las variables.

Si no hay un patrón reconocible en la nube de puntos, se concluye que no existe correlación entre los datos.

Tipos de correlaciones

Se describen dos tipos principales de correlaciones: positivas (ambas variables aumentan juntas) y negativas (una variable aumenta mientras la otra disminuye).

La fuerza o intensidad de estas relaciones se puede medir utilizando el coeficiente de correlación lineal de Pearson, que solo mide relaciones lineales.

Coeficiente de Correlación Lineal

El coeficiente se representa comúnmente como "r" y varía entre -1 y 1; valores cercanos a cero indican una relación débil.

Un valor cercano a 1 o -1 indica una fuerte relación positiva o negativa respectivamente.

Ejemplos visuales del ajuste

Se presentan gráficos que ilustran diferentes niveles de ajuste: desde un buen ajuste lineal hasta casos donde no hay patrones discernibles.

En algunos gráficos, aunque hay cierta correlación positiva, los puntos están más dispersos, lo que sugiere un ajuste menos preciso.

Prueba de hipótesis sobre la correlación

Para determinar si el coeficiente es significativo, se utiliza una prueba donde la hipótesis nula establece que no hay correlación (coeficiente igual a cero).

Correlación vs Causalidad

Se discute que probar una correlación no implica necesariamente establecer causalidad; se presenta el ejemplo humorístico sobre cigüeñas y bebés para ilustrar este punto.

Causalidad y Correlación en Estadística

Coincidencias y Causalidad Reversa

La relación entre dos variables puede ser una coincidencia al azar, donde no hay conexión real entre ellas.

Se presenta la causalidad reversa, donde es difícil identificar cuál variable causa el efecto debido a su correlación bidireccional.

Variables Comunes y Correlaciones

Un ejemplo de correlación sin causalidad es el consumo de alcohol y el cáncer de pulmón; ambos pueden estar relacionados con una tercera variable como el tabaquismo.

Las correlaciones suelen asociarse a variables cuantitativas, pero también se pueden medir asociaciones en variables cualitativas mediante coeficientes.

Coeficientes de Asociación

El coeficiente de Pearson mide la dependencia entre variables, variando entre -1 (dependencia inversa) y 1 (dependencia directa).

Este coeficiente es equivalente al coeficiente de correlación cuando se codifican adecuadamente las variables.

Riesgos Relativos y Coeficientes de Contingencia

El riesgo relativo compara probabilidades entre situaciones A y B, indicando cuán probable es que ocurra una condición dada otra.

El coeficiente de contingencia indica independencia absoluta con un valor máximo distinto a uno en tablas más complejas que 2x2.

Análisis de Regresión

El análisis de regresión permite predecir valores (por ejemplo, peso basado en estatura), ajustando una línea recta a datos dispersos.

La ecuación resultante ayuda a entender cómo las variables independientes afectan la variable dependiente.

Aplicaciones del Análisis Predictivo

Se utiliza para responder preguntas sobre relaciones significativas entre variables, como rentabilidad empresarial o gastos familiares.

Modelos Econométricos y Regresión Lineal

Introducción a los Modelos Econométricos

Los modelos econométricos identifican relaciones entre la variable dependiente (a pronosticar) y variables explicativas o independientes.

Existen diferentes tipos de modelos: regresiones simples, múltiples, ecuaciones simultáneas y vectores autoregresivos. Estos pueden ser estáticos o dinámicos, dependiendo del uso de datos temporales o series cronológicas.

Tipos de Variables en Modelos

Se distinguen dos tipos de variables: endógenas (valores determinados por el modelo) y exógenas (valores determinados fuera del modelo).

Las variables exógenas pueden ser corrientes o retardadas, lo que indica si se relacionan con valores actuales o pasados.

Estructura del Modelo de Regresión Lineal Simple

La forma básica del modelo es: Y = β₀ + β₁X + ε, donde Y es la variable respuesta, β₀ es el intercepto, β₁ es el coeficiente de la variable predictora X y ε representa el término de error.

El modelo de mínimos cuadrados busca minimizar la distancia entre los puntos en un gráfico de dispersión y la recta de regresión para obtener el mejor ajuste.

Variabilidad en Modelos

Se distingue entre variabilidad explicada (diferencias entre valores estimados y promedio), variabilidad no explicada (errores entre valores reales y estimados), y variabilidad total (la suma de ambas).

Un buen modelo debe maximizar la variabilidad explicada en comparación con la no explicada.

Pruebas Estadísticas en Regresión

Para validar los coeficientes del modelo se aplican pruebas de hipótesis; la hipótesis nula establece que un coeficiente es igual a cero.

Se deben cumplir ciertos supuestos: relación lineal entre variables, distribución normal de errores e independencia entre ellos.

Validación del Modelo

La existencia de una relación lineal puede observarse mediante diagramas de dispersión.

La normalidad se puede probar usando histogramas para visualizar la distribución de errores.

Homocedasticidad y Autocorrelación

La homocedasticidad se verifica observando gráficos donde los residuos deben distribuirse uniformemente alrededor del valor medio.

Para comprobar autocorrelación se utiliza la prueba Durbin-Watson; valores entre 1.5 y 2.5 sugieren independencia en los residuos.

Evaluación del Modelo Predictivo

Análisis de Errores en Modelos Predictivos

Cuadrático Medio y Detección de Datos Atípicos

El cuadrático medio penaliza las diferencias grandes al elevarlas al cuadrado, lo que ayuda a detectar datos atípicos en el modelo.

Este método es útil para evaluar la precisión del modelo, ya que magnifica los errores significativos.

Error Absoluto Promedio del Porcentaje (MAPE)

El MAPE se calcula como el promedio de las diferencias absolutas entre los valores pronosticados y los reales, expresándose como un porcentaje.

La ventaja del MAPE radica en su interpretación atractiva, facilitando comparaciones entre diferentes series o conjuntos de datos.