El paquete dplyr es una de las herramientas más poderosas y populares en R para la manipulación de datos. Proporciona una gramática coherente y fácil de usar para realizar operaciones comunes de manipulación de datos. En esta sección, aprenderás a utilizar dplyr para transformar y analizar tus datos de manera eficiente.

Contenido

  1. Introducción a dplyr
  2. Operaciones Básicas
    • Selección de columnas (select)
    • Filtrado de filas (filter)
    • Ordenación de datos (arrange)
    • Creación de nuevas variables (mutate)
    • Resumen de datos (summarize)
  3. Agrupación de Datos (group_by)
  4. Operaciones de Unión de Datos (join)
  5. Ejercicios Prácticos

  1. Introducción a dplyr

dplyr es parte del ecosistema de paquetes tidyverse, diseñado para hacer que la manipulación de datos sea más intuitiva y eficiente. Para comenzar a usar dplyr, primero necesitas instalar y cargar el paquete:

install.packages("dplyr")
library(dplyr)

  1. Operaciones Básicas

Selección de Columnas (select)

La función select se utiliza para seleccionar columnas específicas de un data frame.

# Ejemplo de uso de select
data <- mtcars
selected_data <- select(data, mpg, cyl, hp)
head(selected_data)

Explicación:

  • data: El data frame original.
  • mpg, cyl, hp: Las columnas que queremos seleccionar.

Filtrado de Filas (filter)

La función filter se utiliza para filtrar filas basadas en condiciones lógicas.

# Ejemplo de uso de filter
filtered_data <- filter(data, mpg > 20, cyl == 4)
head(filtered_data)

Explicación:

  • mpg > 20: Filtra las filas donde mpg es mayor que 20.
  • cyl == 4: Filtra las filas donde cyl es igual a 4.

Ordenación de Datos (arrange)

La función arrange se utiliza para ordenar los datos en función de una o más columnas.

# Ejemplo de uso de arrange
arranged_data <- arrange(data, desc(mpg))
head(arranged_data)

Explicación:

  • desc(mpg): Ordena los datos en orden descendente de mpg.

Creación de Nuevas Variables (mutate)

La función mutate se utiliza para crear nuevas variables o modificar las existentes.

# Ejemplo de uso de mutate
mutated_data <- mutate(data, power_to_weight = hp / wt)
head(mutated_data)

Explicación:

  • power_to_weight: Nueva variable que es la relación entre hp y wt.

Resumen de Datos (summarize)

La función summarize se utiliza para crear resúmenes estadísticos de los datos.

# Ejemplo de uso de summarize
summary_data <- summarize(data, avg_mpg = mean(mpg), max_hp = max(hp))
summary_data

Explicación:

  • avg_mpg: Promedio de mpg.
  • max_hp: Máximo valor de hp.

  1. Agrupación de Datos (group_by)

La función group_by se utiliza para agrupar los datos en función de una o más variables, lo que permite realizar operaciones de resumen por grupo.

# Ejemplo de uso de group_by y summarize
grouped_data <- group_by(data, cyl)
summary_grouped_data <- summarize(grouped_data, avg_mpg = mean(mpg), max_hp = max(hp))
summary_grouped_data

Explicación:

  • group_by(data, cyl): Agrupa los datos por la columna cyl.
  • summarize(grouped_data, avg_mpg = mean(mpg), max_hp = max(hp)): Calcula el promedio de mpg y el máximo de hp para cada grupo de cyl.

  1. Operaciones de Unión de Datos (join)

dplyr proporciona varias funciones para unir data frames, como inner_join, left_join, right_join y full_join.

# Ejemplo de uso de inner_join
data1 <- data.frame(id = 1:5, value1 = c(10, 20, 30, 40, 50))
data2 <- data.frame(id = 3:7, value2 = c(30, 40, 50, 60, 70))
joined_data <- inner_join(data1, data2, by = "id")
joined_data

Explicación:

  • inner_join(data1, data2, by = "id"): Une data1 y data2 en las filas donde id coincide en ambos data frames.

  1. Ejercicios Prácticos

Ejercicio 1: Selección y Filtrado

Instrucciones:

  1. Usa el data frame mtcars.
  2. Selecciona las columnas mpg, cyl y gear.
  3. Filtra las filas donde mpg es mayor que 25 y gear es igual a 4.

Solución:

exercise1_data <- mtcars %>%
  select(mpg, cyl, gear) %>%
  filter(mpg > 25, gear == 4)
exercise1_data

Ejercicio 2: Agrupación y Resumen

Instrucciones:

  1. Usa el data frame mtcars.
  2. Agrupa los datos por la columna cyl.
  3. Calcula el promedio de hp y el máximo de wt para cada grupo de cyl.

Solución:

exercise2_data <- mtcars %>%
  group_by(cyl) %>%
  summarize(avg_hp = mean(hp), max_wt = max(wt))
exercise2_data

Ejercicio 3: Creación de Nuevas Variables

Instrucciones:

  1. Usa el data frame mtcars.
  2. Crea una nueva variable efficiency que sea el resultado de mpg dividido por hp.

Solución:

exercise3_data <- mtcars %>%
  mutate(efficiency = mpg / hp)
head(exercise3_data)

Conclusión

En esta sección, hemos explorado las funciones básicas de dplyr para la manipulación de datos, incluyendo la selección, filtrado, ordenación, creación de nuevas variables, resumen y agrupación de datos. También hemos visto cómo unir data frames utilizando dplyr. Estas herramientas son fundamentales para cualquier análisis de datos en R y te permitirán trabajar de manera más eficiente y efectiva con tus conjuntos de datos.

En el próximo módulo, profundizaremos en la visualización de datos, comenzando con una introducción a las herramientas y técnicas básicas para crear gráficos en R.

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

© Copyright 2024. Todos los derechos reservados