En este estudio de caso, aplicaremos los conocimientos adquiridos a lo largo del curso para realizar un análisis de datos completo. Utilizaremos un conjunto de datos real y pasaremos por las etapas de importación, limpieza, manipulación, visualización y análisis estadístico.

Objetivos del Estudio de Caso

  1. Importar y explorar el conjunto de datos.
  2. Limpiar y preparar los datos para el análisis.
  3. Realizar análisis descriptivo y visualización de datos.
  4. Aplicar técnicas de análisis estadístico.
  5. Interpretar los resultados y extraer conclusiones.

Conjunto de Datos

Para este estudio de caso, utilizaremos el conjunto de datos mtcars, que viene preinstalado en R. Este conjunto de datos contiene información sobre diferentes modelos de automóviles y varias características de rendimiento.

Paso 1: Importar y Explorar el Conjunto de Datos

Importar el Conjunto de Datos

# Cargar el conjunto de datos mtcars
data(mtcars)

Explorar el Conjunto de Datos

# Ver las primeras filas del conjunto de datos
head(mtcars)

# Resumen estadístico del conjunto de datos
summary(mtcars)

# Estructura del conjunto de datos
str(mtcars)

Explicación:

  • head(mtcars): Muestra las primeras seis filas del conjunto de datos.
  • summary(mtcars): Proporciona un resumen estadístico de cada columna.
  • str(mtcars): Muestra la estructura del conjunto de datos, incluyendo el tipo de cada columna.

Paso 2: Limpiar y Preparar los Datos

Verificar y Manejar Valores Faltantes

# Verificar si hay valores faltantes
sum(is.na(mtcars))

Normalizar los Datos

# Normalizar las columnas numéricas
mtcars_normalized <- as.data.frame(scale(mtcars))

Explicación:

  • sum(is.na(mtcars)): Cuenta el número de valores faltantes en el conjunto de datos.
  • scale(mtcars): Normaliza las columnas numéricas para que tengan media 0 y desviación estándar 1.

Paso 3: Análisis Descriptivo y Visualización de Datos

Análisis Descriptivo

# Calcular la media y desviación estándar de las columnas numéricas
mean_sd <- sapply(mtcars, function(x) c(mean = mean(x), sd = sd(x)))
mean_sd

Visualización de Datos

# Cargar la librería ggplot2
library(ggplot2)

# Crear un histograma del consumo de combustible (mpg)
ggplot(mtcars, aes(x = mpg)) +
  geom_histogram(binwidth = 2, fill = "blue", color = "black") +
  labs(title = "Distribución del Consumo de Combustible (mpg)", x = "Millas por Galón (mpg)", y = "Frecuencia")

# Crear un gráfico de dispersión entre el peso del vehículo (wt) y el consumo de combustible (mpg)
ggplot(mtcars, aes(x = wt, y = mpg)) +
  geom_point(color = "red") +
  labs(title = "Relación entre el Peso del Vehículo y el Consumo de Combustible", x = "Peso del Vehículo (1000 lbs)", y = "Millas por Galón (mpg)")

Explicación:

  • sapply(mtcars, function(x) c(mean = mean(x), sd = sd(x))): Calcula la media y la desviación estándar de cada columna numérica.
  • ggplot(mtcars, aes(x = mpg)) + geom_histogram(...): Crea un histograma del consumo de combustible.
  • ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point(...): Crea un gráfico de dispersión entre el peso del vehículo y el consumo de combustible.

Paso 4: Análisis Estadístico

Correlación

# Calcular la matriz de correlación
cor_matrix <- cor(mtcars)
cor_matrix

Regresión Lineal

# Ajustar un modelo de regresión lineal
model <- lm(mpg ~ wt + hp, data = mtcars)
summary(model)

Explicación:

  • cor(mtcars): Calcula la matriz de correlación entre las variables.
  • lm(mpg ~ wt + hp, data = mtcars): Ajusta un modelo de regresión lineal para predecir el consumo de combustible (mpg) en función del peso del vehículo (wt) y la potencia (hp).

Paso 5: Interpretación de Resultados y Conclusiones

Interpretación de Resultados

  • Histograma del Consumo de Combustible: La mayoría de los vehículos tienen un consumo de combustible entre 15 y 20 millas por galón.
  • Gráfico de Dispersión: Existe una relación negativa entre el peso del vehículo y el consumo de combustible, es decir, a mayor peso, menor consumo de combustible.
  • Matriz de Correlación: Las variables wt y mpg tienen una alta correlación negativa (-0.87), lo que confirma la relación observada en el gráfico de dispersión.
  • Modelo de Regresión Lineal: El modelo sugiere que tanto el peso del vehículo como la potencia son predictores significativos del consumo de combustible.

Conclusiones

En este estudio de caso, hemos aplicado técnicas de análisis de datos para explorar y analizar el conjunto de datos mtcars. Hemos identificado relaciones clave entre las variables y ajustado un modelo de regresión lineal para predecir el consumo de combustible. Este proceso nos ha permitido consolidar los conocimientos adquiridos a lo largo del curso y aplicar técnicas de análisis de datos en un contexto real.

Ejercicio Práctico

Ejercicio: Realiza un análisis similar utilizando el conjunto de datos iris, que también viene preinstalado en R. Sigue los mismos pasos: importación, exploración, limpieza, análisis descriptivo, visualización y análisis estadístico.

Solución:

# Importar el conjunto de datos iris
data(iris)

# Explorar el conjunto de datos
head(iris)
summary(iris)
str(iris)

# Verificar y manejar valores faltantes
sum(is.na(iris))

# Análisis descriptivo
mean_sd_iris <- sapply(iris[, 1:4], function(x) c(mean = mean(x), sd = sd(x)))
mean_sd_iris

# Visualización de datos
library(ggplot2)

# Histograma de la longitud del sépalo (Sepal.Length)
ggplot(iris, aes(x = Sepal.Length)) +
  geom_histogram(binwidth = 0.5, fill = "green", color = "black") +
  labs(title = "Distribución de la Longitud del Sépalo", x = "Longitud del Sépalo (cm)", y = "Frecuencia")

# Gráfico de dispersión entre la longitud del sépalo y la longitud del pétalo
ggplot(iris, aes(x = Sepal.Length, y = Petal.Length, color = Species)) +
  geom_point() +
  labs(title = "Relación entre la Longitud del Sépalo y la Longitud del Pétalo", x = "Longitud del Sépalo (cm)", y = "Longitud del Pétalo (cm)")

# Análisis estadístico: Correlación
cor_matrix_iris <- cor(iris[, 1:4])
cor_matrix_iris

# Análisis estadístico: Regresión lineal
model_iris <- lm(Petal.Length ~ Sepal.Length + Sepal.Width, data = iris)
summary(model_iris)

Conclusión del Ejercicio: Al realizar un análisis similar con el conjunto de datos iris, los estudiantes podrán reforzar su comprensión de las técnicas de análisis de datos y aplicar lo aprendido en un nuevo contexto.

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

© Copyright 2024. Todos los derechos reservados