Introducción

En este estudio de caso, aplicaremos los conceptos de análisis estadístico que hemos aprendido a lo largo del curso. Utilizaremos un conjunto de datos real para realizar un análisis completo, que incluirá estadísticas descriptivas, pruebas de hipótesis, análisis de correlación y regresión, y ANOVA. Este ejercicio te permitirá consolidar tus conocimientos y habilidades en análisis estadístico utilizando R.

Objetivos

  1. Realizar un análisis exploratorio de datos (EDA) para comprender la estructura y características del conjunto de datos.
  2. Calcular y interpretar estadísticas descriptivas.
  3. Realizar pruebas de hipótesis para comparar grupos.
  4. Analizar la relación entre variables mediante correlación y regresión.
  5. Aplicar ANOVA para comparar múltiples grupos.

Conjunto de Datos

Para este estudio de caso, utilizaremos el conjunto de datos mtcars que viene incluido en R. Este conjunto de datos contiene información sobre diferentes modelos de automóviles y varias características de rendimiento.

# Cargar el conjunto de datos
data(mtcars)
# Ver las primeras filas del conjunto de datos
head(mtcars)

Análisis Exploratorio de Datos (EDA)

  1. Resumen del Conjunto de Datos

Primero, obtendremos un resumen general del conjunto de datos para entender su estructura y las variables que contiene.

# Resumen del conjunto de datos
summary(mtcars)

  1. Estadísticas Descriptivas

Calcularemos estadísticas descriptivas para las variables numéricas del conjunto de datos.

# Cargar la librería dplyr para manipulación de datos
library(dplyr)

# Calcular estadísticas descriptivas
mtcars %>%
  summarise(
    mean_mpg = mean(mpg),
    sd_mpg = sd(mpg),
    median_mpg = median(mpg),
    min_mpg = min(mpg),
    max_mpg = max(mpg)
  )

  1. Visualización de Datos

Crearemos algunos gráficos básicos para visualizar la distribución de las variables.

# Cargar la librería ggplot2 para visualización
library(ggplot2)

# Histograma de la variable mpg
ggplot(mtcars, aes(x = mpg)) +
  geom_histogram(binwidth = 2, fill = "blue", color = "black") +
  labs(title = "Distribución de MPG", x = "MPG", y = "Frecuencia")

Pruebas de Hipótesis

  1. Prueba t de Student

Compararemos el consumo de combustible (mpg) entre automóviles con transmisión manual y automática.

# Crear una variable categórica para la transmisión
mtcars$am <- factor(mtcars$am, labels = c("Automática", "Manual"))

# Prueba t de Student
t_test_result <- t.test(mpg ~ am, data = mtcars)
t_test_result

  1. Prueba de Chi-Cuadrado

Evaluaremos si hay una relación significativa entre el tipo de transmisión y el número de cilindros.

# Tabla de contingencia
table_am_cyl <- table(mtcars$am, mtcars$cyl)

# Prueba de Chi-Cuadrado
chi_square_result <- chisq.test(table_am_cyl)
chi_square_result

Análisis de Correlación y Regresión

  1. Matriz de Correlación

Calcularemos la matriz de correlación para las variables numéricas.

# Matriz de correlación
cor_matrix <- cor(mtcars)
cor_matrix

  1. Regresión Lineal

Realizaremos una regresión lineal para predecir el consumo de combustible (mpg) basado en el peso del automóvil (wt).

# Modelo de regresión lineal
lm_model <- lm(mpg ~ wt, data = mtcars)
summary(lm_model)

# Gráfico de regresión
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point() +
  geom_smooth(method = "lm", col = "red") +
  labs(title = "Regresión Lineal: MPG vs Peso", x = "Peso (1000 lbs)", y = "MPG")

ANOVA

  1. ANOVA de un Factor

Compararemos el consumo de combustible (mpg) entre automóviles con diferentes números de cilindros.

# ANOVA
anova_result <- aov(mpg ~ factor(cyl), data = mtcars)
summary(anova_result)

Conclusión

En este estudio de caso, hemos aplicado diversas técnicas de análisis estadístico utilizando R. Hemos realizado un análisis exploratorio de datos, calculado estadísticas descriptivas, llevado a cabo pruebas de hipótesis, analizado la relación entre variables mediante correlación y regresión, y aplicado ANOVA para comparar grupos. Estos métodos son fundamentales para cualquier análisis de datos y te proporcionan una base sólida para abordar problemas estadísticos en el futuro.

Resumen de Conceptos Clave

  • Estadísticas Descriptivas: Proporcionan un resumen de las características principales de un conjunto de datos.
  • Pruebas de Hipótesis: Permiten comparar grupos y evaluar relaciones entre variables.
  • Correlación y Regresión: Analizan la relación y la dependencia entre variables.
  • ANOVA: Compara las medias de múltiples grupos para determinar si hay diferencias significativas.

Preparación para el Siguiente Tema

Con este estudio de caso, has consolidado tus habilidades en análisis estadístico. En el próximo módulo, aplicaremos estos conocimientos en un proyecto final que integrará todos los conceptos aprendidos a lo largo del curso. ¡Prepárate para poner a prueba tus habilidades y conocimientos en un contexto más amplio y desafiante!

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

© Copyright 2024. Todos los derechos reservados