Introducción

En este módulo, exploraremos dos conceptos fundamentales en el análisis estadístico: la correlación y la regresión. Ambos son herramientas esenciales para entender y modelar las relaciones entre variables.

Objetivos del Módulo

  • Comprender el concepto de correlación y cómo se mide.
  • Aprender a calcular y visualizar la correlación entre variables en R.
  • Entender los fundamentos de la regresión lineal.
  • Aprender a ajustar un modelo de regresión lineal en R y a interpretar sus resultados.

Correlación

¿Qué es la Correlación?

La correlación mide la relación y la dependencia entre dos variables. Se expresa mediante un coeficiente de correlación que varía entre -1 y 1:

  • 1 indica una correlación positiva perfecta.
  • 0 indica que no hay correlación.
  • -1 indica una correlación negativa perfecta.

Tipos de Correlación

  • Correlación de Pearson: Mide la relación lineal entre dos variables continuas.
  • Correlación de Spearman: Mide la relación monotónica entre dos variables ordinales o continuas.

Cálculo de la Correlación en R

Correlación de Pearson

# Generar datos de ejemplo
set.seed(123)
x <- rnorm(100)
y <- 2 * x + rnorm(100)

# Calcular la correlación de Pearson
cor_pearson <- cor(x, y, method = "pearson")
print(cor_pearson)

Correlación de Spearman

# Calcular la correlación de Spearman
cor_spearman <- cor(x, y, method = "spearman")
print(cor_spearman)

Visualización de la Correlación

# Instalar y cargar el paquete ggplot2
install.packages("ggplot2")
library(ggplot2)

# Crear un scatter plot
ggplot(data = data.frame(x, y), aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Scatter Plot con Línea de Regresión",
       x = "Variable X",
       y = "Variable Y")

Regresión

¿Qué es la Regresión?

La regresión es una técnica estadística que permite modelar y analizar la relación entre una variable dependiente y una o más variables independientes.

Regresión Lineal Simple

La regresión lineal simple modela la relación entre dos variables mediante una línea recta. La ecuación de la línea es:

\[ y = \beta_0 + \beta_1 x + \epsilon \]

donde:

  • \( y \) es la variable dependiente.
  • \( x \) es la variable independiente.
  • \( \beta_0 \) es la intersección (intercepto).
  • \( \beta_1 \) es la pendiente.
  • \( \epsilon \) es el término de error.

Ajuste de un Modelo de Regresión Lineal en R

# Ajustar el modelo de regresión lineal
modelo <- lm(y ~ x, data = data.frame(x, y))

# Resumen del modelo
summary(modelo)

Interpretación de los Resultados

El resumen del modelo proporciona información clave:

  • Coeficientes: Los valores de \( \beta_0 \) y \( \beta_1 \).
  • Error estándar: La precisión de los coeficientes estimados.
  • Valor p: La significancia estadística de los coeficientes.
  • R-cuadrado: La proporción de la variabilidad en \( y \) explicada por \( x \).

Visualización del Modelo de Regresión

# Visualizar el modelo de regresión
ggplot(data = data.frame(x, y), aes(x = x, y = y)) +
  geom_point() +
  geom_smooth(method = "lm", col = "blue") +
  labs(title = "Modelo de Regresión Lineal",
       x = "Variable X",
       y = "Variable Y")

Ejercicios Prácticos

Ejercicio 1: Cálculo de la Correlación

Instrucciones:

  1. Genera dos conjuntos de datos aleatorios.
  2. Calcula la correlación de Pearson y Spearman entre ellos.
  3. Visualiza la relación entre las variables.
# Generar datos
set.seed(456)
a <- rnorm(100)
b <- 3 * a + rnorm(100)

# Calcular correlaciones
cor_pearson_a_b <- cor(a, b, method = "pearson")
cor_spearman_a_b <- cor(a, b, method = "spearman")

# Imprimir resultados
print(cor_pearson_a_b)
print(cor_spearman_a_b)

# Visualizar datos
ggplot(data = data.frame(a, b), aes(x = a, y = b)) +
  geom_point() +
  geom_smooth(method = "lm", col = "red") +
  labs(title = "Scatter Plot con Línea de Regresión",
       x = "Variable A",
       y = "Variable B")

Ejercicio 2: Ajuste de un Modelo de Regresión

Instrucciones:

  1. Usa los datos generados en el ejercicio anterior.
  2. Ajusta un modelo de regresión lineal.
  3. Interpreta los resultados del modelo.
# Ajustar el modelo de regresión lineal
modelo_ab <- lm(b ~ a, data = data.frame(a, b))

# Resumen del modelo
summary(modelo_ab)

# Visualizar el modelo de regresión
ggplot(data = data.frame(a, b), aes(x = a, y = b)) +
  geom_point() +
  geom_smooth(method = "lm", col = "red") +
  labs(title = "Modelo de Regresión Lineal",
       x = "Variable A",
       y = "Variable B")

Conclusión

En este módulo, hemos aprendido a:

  • Calcular y visualizar la correlación entre variables.
  • Ajustar e interpretar un modelo de regresión lineal en R.

Estos conceptos son fundamentales para el análisis de datos y proporcionan una base sólida para técnicas más avanzadas en estadística y aprendizaje automático. En el próximo módulo, exploraremos el análisis de varianza (ANOVA) y las pruebas chi-cuadrado.

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

© Copyright 2024. Todos los derechos reservados