Introducción

Las estadísticas descriptivas son fundamentales para el análisis de datos, ya que permiten resumir y describir las características principales de un conjunto de datos. En este módulo, aprenderás a calcular y interpretar medidas de tendencia central, dispersión y forma utilizando R.

Objetivos

  • Comprender los conceptos básicos de las estadísticas descriptivas.
  • Aprender a calcular medidas de tendencia central (media, mediana, moda).
  • Aprender a calcular medidas de dispersión (rango, varianza, desviación estándar).
  • Aprender a calcular medidas de forma (asimetría, curtosis).
  • Aplicar estos conceptos utilizando R.

Contenido

Medidas de Tendencia Central

Media

La media es el promedio aritmético de un conjunto de datos.

# Calcular la media
data <- c(10, 20, 30, 40, 50)
mean(data)

Mediana

La mediana es el valor central de un conjunto de datos ordenados.

# Calcular la mediana
median(data)

Moda

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.

# Calcular la moda
mode <- function(x) {
  ux <- unique(x)
  ux[which.max(tabulate(match(x, ux)))]
}
mode(data)

Medidas de Dispersión

Rango

El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.

# Calcular el rango
range(data)
diff(range(data))

Varianza

La varianza mide la dispersión de los datos respecto a la media.

# Calcular la varianza
var(data)

Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza y proporciona una medida de dispersión en las mismas unidades que los datos originales.

# Calcular la desviación estándar
sd(data)

Medidas de Forma

Asimetría

La asimetría mide la simetría de la distribución de los datos.

# Calcular la asimetría
library(e1071)
skewness(data)

Curtosis

La curtosis mide la "puntiagudez" de la distribución de los datos.

# Calcular la curtosis
kurtosis(data)

Ejemplos Prácticos en R

Vamos a aplicar todas estas medidas a un conjunto de datos de ejemplo.

# Conjunto de datos de ejemplo
data <- c(10, 20, 30, 40, 50, 60, 70, 80, 90, 100)

# Medidas de tendencia central
mean_value <- mean(data)
median_value <- median(data)
mode_value <- mode(data)

# Medidas de dispersión
range_value <- range(data)
variance_value <- var(data)
sd_value <- sd(data)

# Medidas de forma
skewness_value <- skewness(data)
kurtosis_value <- kurtosis(data)

# Imprimir resultados
cat("Media:", mean_value, "\n")
cat("Mediana:", median_value, "\n")
cat("Moda:", mode_value, "\n")
cat("Rango:", range_value, "\n")
cat("Varianza:", variance_value, "\n")
cat("Desviación Estándar:", sd_value, "\n")
cat("Asimetría:", skewness_value, "\n")
cat("Curtosis:", kurtosis_value, "\n")

Ejercicios

Ejercicio 1

Dado el siguiente conjunto de datos, calcula la media, mediana, moda, rango, varianza, desviación estándar, asimetría y curtosis.

data <- c(5, 10, 15, 20, 25, 30, 35, 40, 45, 50)

Solución

data <- c(5, 10, 15, 20, 25, 30, 35, 40, 45, 50)

# Medidas de tendencia central
mean_value <- mean(data)
median_value <- median(data)
mode_value <- mode(data)

# Medidas de dispersión
range_value <- range(data)
variance_value <- var(data)
sd_value <- sd(data)

# Medidas de forma
skewness_value <- skewness(data)
kurtosis_value <- kurtosis(data)

# Imprimir resultados
cat("Media:", mean_value, "\n")
cat("Mediana:", median_value, "\n")
cat("Moda:", mode_value, "\n")
cat("Rango:", range_value, "\n")
cat("Varianza:", variance_value, "\n")
cat("Desviación Estándar:", sd_value, "\n")
cat("Asimetría:", skewness_value, "\n")
cat("Curtosis:", kurtosis_value, "\n")

Ejercicio 2

Crea una función en R que reciba un conjunto de datos y devuelva una lista con todas las medidas estadísticas calculadas.

Solución

calculate_statistics <- function(data) {
  result <- list(
    mean = mean(data),
    median = median(data),
    mode = mode(data),
    range = range(data),
    variance = var(data),
    sd = sd(data),
    skewness = skewness(data),
    kurtosis = kurtosis(data)
  )
  return(result)
}

# Probar la función
data <- c(5, 10, 15, 20, 25, 30, 35, 40, 45, 50)
statistics <- calculate_statistics(data)
print(statistics)

Conclusión

En esta sección, hemos cubierto las estadísticas descriptivas básicas, incluyendo medidas de tendencia central, dispersión y forma. Estas herramientas son esenciales para resumir y comprender los datos antes de realizar análisis más complejos. En el próximo módulo, profundizaremos en las distribuciones de probabilidad, que son fundamentales para el análisis estadístico inferencial.

Programación en R: De Principiante a Avanzado

Módulo 1: Introducción a R

Módulo 2: Manipulación de Datos

Módulo 3: Visualización de Datos

Módulo 4: Análisis Estadístico

Módulo 5: Manejo Avanzado de Datos

Módulo 6: Conceptos Avanzados de Programación

Módulo 7: Aprendizaje Automático con R

Módulo 8: Temas Especializados

Módulo 9: Proyecto y Estudios de Caso

© Copyright 2024. Todos los derechos reservados