En este estudio de caso, aplicaremos los conocimientos adquiridos a lo largo del curso para realizar un análisis de datos completo. Utilizaremos un conjunto de datos real y pasaremos por las etapas de importación, limpieza, manipulación, visualización y análisis estadístico.
Objetivos del Estudio de Caso
- Importar y explorar el conjunto de datos.
- Limpiar y preparar los datos para el análisis.
- Realizar análisis descriptivo y visualización de datos.
- Aplicar técnicas de análisis estadístico.
- Interpretar los resultados y extraer conclusiones.
Conjunto de Datos
Para este estudio de caso, utilizaremos el conjunto de datos mtcars
, que viene preinstalado en R. Este conjunto de datos contiene información sobre diferentes modelos de automóviles y varias características de rendimiento.
Paso 1: Importar y Explorar el Conjunto de Datos
Importar el Conjunto de Datos
Explorar el Conjunto de Datos
# Ver las primeras filas del conjunto de datos head(mtcars) # Resumen estadístico del conjunto de datos summary(mtcars) # Estructura del conjunto de datos str(mtcars)
Explicación:
head(mtcars)
: Muestra las primeras seis filas del conjunto de datos.summary(mtcars)
: Proporciona un resumen estadístico de cada columna.str(mtcars)
: Muestra la estructura del conjunto de datos, incluyendo el tipo de cada columna.
Paso 2: Limpiar y Preparar los Datos
Verificar y Manejar Valores Faltantes
Normalizar los Datos
Explicación:
sum(is.na(mtcars))
: Cuenta el número de valores faltantes en el conjunto de datos.scale(mtcars)
: Normaliza las columnas numéricas para que tengan media 0 y desviación estándar 1.
Paso 3: Análisis Descriptivo y Visualización de Datos
Análisis Descriptivo
# Calcular la media y desviación estándar de las columnas numéricas mean_sd <- sapply(mtcars, function(x) c(mean = mean(x), sd = sd(x))) mean_sd
Visualización de Datos
# Cargar la librería ggplot2 library(ggplot2) # Crear un histograma del consumo de combustible (mpg) ggplot(mtcars, aes(x = mpg)) + geom_histogram(binwidth = 2, fill = "blue", color = "black") + labs(title = "Distribución del Consumo de Combustible (mpg)", x = "Millas por Galón (mpg)", y = "Frecuencia") # Crear un gráfico de dispersión entre el peso del vehículo (wt) y el consumo de combustible (mpg) ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point(color = "red") + labs(title = "Relación entre el Peso del Vehículo y el Consumo de Combustible", x = "Peso del Vehículo (1000 lbs)", y = "Millas por Galón (mpg)")
Explicación:
sapply(mtcars, function(x) c(mean = mean(x), sd = sd(x)))
: Calcula la media y la desviación estándar de cada columna numérica.ggplot(mtcars, aes(x = mpg)) + geom_histogram(...)
: Crea un histograma del consumo de combustible.ggplot(mtcars, aes(x = wt, y = mpg)) + geom_point(...)
: Crea un gráfico de dispersión entre el peso del vehículo y el consumo de combustible.
Paso 4: Análisis Estadístico
Correlación
Regresión Lineal
Explicación:
cor(mtcars)
: Calcula la matriz de correlación entre las variables.lm(mpg ~ wt + hp, data = mtcars)
: Ajusta un modelo de regresión lineal para predecir el consumo de combustible (mpg) en función del peso del vehículo (wt) y la potencia (hp).
Paso 5: Interpretación de Resultados y Conclusiones
Interpretación de Resultados
- Histograma del Consumo de Combustible: La mayoría de los vehículos tienen un consumo de combustible entre 15 y 20 millas por galón.
- Gráfico de Dispersión: Existe una relación negativa entre el peso del vehículo y el consumo de combustible, es decir, a mayor peso, menor consumo de combustible.
- Matriz de Correlación: Las variables
wt
ympg
tienen una alta correlación negativa (-0.87), lo que confirma la relación observada en el gráfico de dispersión. - Modelo de Regresión Lineal: El modelo sugiere que tanto el peso del vehículo como la potencia son predictores significativos del consumo de combustible.
Conclusiones
En este estudio de caso, hemos aplicado técnicas de análisis de datos para explorar y analizar el conjunto de datos mtcars
. Hemos identificado relaciones clave entre las variables y ajustado un modelo de regresión lineal para predecir el consumo de combustible. Este proceso nos ha permitido consolidar los conocimientos adquiridos a lo largo del curso y aplicar técnicas de análisis de datos en un contexto real.
Ejercicio Práctico
Ejercicio: Realiza un análisis similar utilizando el conjunto de datos iris
, que también viene preinstalado en R. Sigue los mismos pasos: importación, exploración, limpieza, análisis descriptivo, visualización y análisis estadístico.
Solución:
# Importar el conjunto de datos iris data(iris) # Explorar el conjunto de datos head(iris) summary(iris) str(iris) # Verificar y manejar valores faltantes sum(is.na(iris)) # Análisis descriptivo mean_sd_iris <- sapply(iris[, 1:4], function(x) c(mean = mean(x), sd = sd(x))) mean_sd_iris # Visualización de datos library(ggplot2) # Histograma de la longitud del sépalo (Sepal.Length) ggplot(iris, aes(x = Sepal.Length)) + geom_histogram(binwidth = 0.5, fill = "green", color = "black") + labs(title = "Distribución de la Longitud del Sépalo", x = "Longitud del Sépalo (cm)", y = "Frecuencia") # Gráfico de dispersión entre la longitud del sépalo y la longitud del pétalo ggplot(iris, aes(x = Sepal.Length, y = Petal.Length, color = Species)) + geom_point() + labs(title = "Relación entre la Longitud del Sépalo y la Longitud del Pétalo", x = "Longitud del Sépalo (cm)", y = "Longitud del Pétalo (cm)") # Análisis estadístico: Correlación cor_matrix_iris <- cor(iris[, 1:4]) cor_matrix_iris # Análisis estadístico: Regresión lineal model_iris <- lm(Petal.Length ~ Sepal.Length + Sepal.Width, data = iris) summary(model_iris)
Conclusión del Ejercicio:
Al realizar un análisis similar con el conjunto de datos iris
, los estudiantes podrán reforzar su comprensión de las técnicas de análisis de datos y aplicar lo aprendido en un nuevo contexto.
Programación en R: De Principiante a Avanzado
Módulo 1: Introducción a R
- Introducción a R y RStudio
- Sintaxis Básica de R
- Tipos y Estructuras de Datos
- Operaciones y Funciones Básicas
- Importación y Exportación de Datos
Módulo 2: Manipulación de Datos
- Vectores y Listas
- Matrices y Arreglos
- Data Frames
- Factores
- Manipulación de Datos con dplyr
- Manipulación de Cadenas
Módulo 3: Visualización de Datos
- Introducción a la Visualización de Datos
- Gráficos Base R
- Fundamentos de ggplot2
- ggplot2 Avanzado
- Visualizaciones Interactivas con plotly
Módulo 4: Análisis Estadístico
- Estadísticas Descriptivas
- Distribuciones de Probabilidad
- Pruebas de Hipótesis
- Correlación y Regresión
- ANOVA y Pruebas Chi-Cuadrado
Módulo 5: Manejo Avanzado de Datos
- Manejo de Fechas y Tiempos
- Reestructuración de Datos
- Trabajo con Grandes Conjuntos de Datos
- Web Scraping
- APIs y JSON
Módulo 6: Conceptos Avanzados de Programación
- Escritura de Funciones
- Depuración y Manejo de Errores
- Programación Orientada a Objetos en R
- Programación Funcional
- Computación Paralela
Módulo 7: Aprendizaje Automático con R
- Introducción al Aprendizaje Automático
- Preprocesamiento de Datos
- Aprendizaje Supervisado
- Aprendizaje No Supervisado
- Evaluación y Ajuste de Modelos
Módulo 8: Temas Especializados
- Análisis de Series Temporales
- Análisis de Datos Espaciales
- Minería de Textos y Procesamiento de Lenguaje Natural
- Bioinformática con R
- Análisis de Datos Financieros