El Proyecto | Sobre nosotros | Contribuir | Donaciones | Licencia

HOME

El paquete dplyr es una de las herramientas más poderosas y populares en R para la manipulación de datos. Proporciona una gramática coherente y fácil de usar para realizar operaciones comunes de manipulación de datos. En esta sección, aprenderás a utilizar dplyr para transformar y analizar tus datos de manera eficiente.

Contenido

Introducción a dplyr
Operaciones Básicas
- Selección de columnas (select)
- Filtrado de filas (filter)
- Ordenación de datos (arrange)
- Creación de nuevas variables (mutate)
- Resumen de datos (summarize)
Agrupación de Datos (group_by)
Operaciones de Unión de Datos (join)
Ejercicios Prácticos

Introducción a `dplyr`

dplyr es parte del ecosistema de paquetes tidyverse, diseñado para hacer que la manipulación de datos sea más intuitiva y eficiente. Para comenzar a usar dplyr, primero necesitas instalar y cargar el paquete:

install.packages("dplyr")
library(dplyr)

Operaciones Básicas

Selección de Columnas (`select`)

La función select se utiliza para seleccionar columnas específicas de un data frame.

# Ejemplo de uso de select
data <- mtcars
selected_data <- select(data, mpg, cyl, hp)
head(selected_data)

Explicación:

data: El data frame original.
mpg, cyl, hp: Las columnas que queremos seleccionar.

Filtrado de Filas (`filter`)

La función filter se utiliza para filtrar filas basadas en condiciones lógicas.

# Ejemplo de uso de filter
filtered_data <- filter(data, mpg > 20, cyl == 4)
head(filtered_data)

Explicación:

mpg > 20: Filtra las filas donde mpg es mayor que 20.
cyl == 4: Filtra las filas donde cyl es igual a 4.

Ordenación de Datos (`arrange`)

La función arrange se utiliza para ordenar los datos en función de una o más columnas.

# Ejemplo de uso de arrange
arranged_data <- arrange(data, desc(mpg))
head(arranged_data)

Explicación:

desc(mpg): Ordena los datos en orden descendente de mpg.

Creación de Nuevas Variables (`mutate`)

La función mutate se utiliza para crear nuevas variables o modificar las existentes.

# Ejemplo de uso de mutate
mutated_data <- mutate(data, power_to_weight = hp / wt)
head(mutated_data)

Explicación:

power_to_weight: Nueva variable que es la relación entre hp y wt.

Resumen de Datos (`summarize`)

La función summarize se utiliza para crear resúmenes estadísticos de los datos.

# Ejemplo de uso de summarize
summary_data <- summarize(data, avg_mpg = mean(mpg), max_hp = max(hp))
summary_data

Explicación:

avg_mpg: Promedio de mpg.
max_hp: Máximo valor de hp.

Agrupación de Datos (`group_by`)

La función group_by se utiliza para agrupar los datos en función de una o más variables, lo que permite realizar operaciones de resumen por grupo.

# Ejemplo de uso de group_by y summarize
grouped_data <- group_by(data, cyl)
summary_grouped_data <- summarize(grouped_data, avg_mpg = mean(mpg), max_hp = max(hp))
summary_grouped_data

Explicación:

group_by(data, cyl): Agrupa los datos por la columna cyl.
summarize(grouped_data, avg_mpg = mean(mpg), max_hp = max(hp)): Calcula el promedio de mpg y el máximo de hp para cada grupo de cyl.

Operaciones de Unión de Datos (`join`)

dplyr proporciona varias funciones para unir data frames, como inner_join, left_join, right_join y full_join.

# Ejemplo de uso de inner_join
data1 <- data.frame(id = 1:5, value1 = c(10, 20, 30, 40, 50))
data2 <- data.frame(id = 3:7, value2 = c(30, 40, 50, 60, 70))
joined_data <- inner_join(data1, data2, by = "id")
joined_data

Explicación:

inner_join(data1, data2, by = "id"): Une data1 y data2 en las filas donde id coincide en ambos data frames.

Ejercicios Prácticos

Ejercicio 1: Selección y Filtrado

Instrucciones:

Usa el data frame mtcars.
Selecciona las columnas mpg, cyl y gear.
Filtra las filas donde mpg es mayor que 25 y gear es igual a 4.

Solución:

exercise1_data <- mtcars %>%
  select(mpg, cyl, gear) %>%
  filter(mpg > 25, gear == 4)
exercise1_data

Ejercicio 2: Agrupación y Resumen

Instrucciones:

Usa el data frame mtcars.
Agrupa los datos por la columna cyl.
Calcula el promedio de hp y el máximo de wt para cada grupo de cyl.

Solución:

exercise2_data <- mtcars %>%
  group_by(cyl) %>%
  summarize(avg_hp = mean(hp), max_wt = max(wt))
exercise2_data

Ejercicio 3: Creación de Nuevas Variables

Instrucciones:

Usa el data frame mtcars.
Crea una nueva variable efficiency que sea el resultado de mpg dividido por hp.

Solución:

exercise3_data <- mtcars %>%
  mutate(efficiency = mpg / hp)
head(exercise3_data)

Conclusión

En esta sección, hemos explorado las funciones básicas de dplyr para la manipulación de datos, incluyendo la selección, filtrado, ordenación, creación de nuevas variables, resumen y agrupación de datos. También hemos visto cómo unir data frames utilizando dplyr. Estas herramientas son fundamentales para cualquier análisis de datos en R y te permitirán trabajar de manera más eficiente y efectiva con tus conjuntos de datos.

En el próximo módulo, profundizaremos en la visualización de datos, comenzando con una introducción a las herramientas y técnicas básicas para crear gráficos en R.

Manipulación de Datos con dplyr

Contenido

Introducción a `dplyr`

Operaciones Básicas

Selección de Columnas (`select`)

Filtrado de Filas (`filter`)

Ordenación de Datos (`arrange`)

Creación de Nuevas Variables (`mutate`)

Resumen de Datos (`summarize`)

Agrupación de Datos (`group_by`)

Operaciones de Unión de Datos (`join`)

Ejercicios Prácticos

Ejercicio 1: Selección y Filtrado

Ejercicio 2: Agrupación y Resumen

Ejercicio 3: Creación de Nuevas Variables

Conclusión

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

Manipulación de Datos con dplyr

Contenido

Introducción a dplyr

Operaciones Básicas

Selección de Columnas (select)

Filtrado de Filas (filter)

Ordenación de Datos (arrange)

Creación de Nuevas Variables (mutate)

Resumen de Datos (summarize)

Agrupación de Datos (group_by)

Operaciones de Unión de Datos (join)

Ejercicios Prácticos

Ejercicio 1: Selección y Filtrado

Ejercicio 2: Agrupación y Resumen

Ejercicio 3: Creación de Nuevas Variables

Conclusión

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

Introducción a `dplyr`

Selección de Columnas (`select`)

Filtrado de Filas (`filter`)

Ordenación de Datos (`arrange`)

Creación de Nuevas Variables (`mutate`)

Resumen de Datos (`summarize`)

Agrupación de Datos (`group_by`)

Operaciones de Unión de Datos (`join`)