Introducción
Las estadísticas descriptivas son fundamentales para el análisis de datos, ya que permiten resumir y describir las características principales de un conjunto de datos. En este módulo, aprenderás a calcular y interpretar medidas de tendencia central, dispersión y forma utilizando R.
Objetivos
- Comprender los conceptos básicos de las estadísticas descriptivas.
- Aprender a calcular medidas de tendencia central (media, mediana, moda).
- Aprender a calcular medidas de dispersión (rango, varianza, desviación estándar).
- Aprender a calcular medidas de forma (asimetría, curtosis).
- Aplicar estos conceptos utilizando R.
Contenido
Medidas de Tendencia Central
Media
La media es el promedio aritmético de un conjunto de datos.
Mediana
La mediana es el valor central de un conjunto de datos ordenados.
Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos.
# Calcular la moda mode <- function(x) { ux <- unique(x) ux[which.max(tabulate(match(x, ux)))] } mode(data)
Medidas de Dispersión
Rango
El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
Varianza
La varianza mide la dispersión de los datos respecto a la media.
Desviación Estándar
La desviación estándar es la raíz cuadrada de la varianza y proporciona una medida de dispersión en las mismas unidades que los datos originales.
Medidas de Forma
Asimetría
La asimetría mide la simetría de la distribución de los datos.
Curtosis
La curtosis mide la "puntiagudez" de la distribución de los datos.
Ejemplos Prácticos en R
Vamos a aplicar todas estas medidas a un conjunto de datos de ejemplo.
# Conjunto de datos de ejemplo data <- c(10, 20, 30, 40, 50, 60, 70, 80, 90, 100) # Medidas de tendencia central mean_value <- mean(data) median_value <- median(data) mode_value <- mode(data) # Medidas de dispersión range_value <- range(data) variance_value <- var(data) sd_value <- sd(data) # Medidas de forma skewness_value <- skewness(data) kurtosis_value <- kurtosis(data) # Imprimir resultados cat("Media:", mean_value, "\n") cat("Mediana:", median_value, "\n") cat("Moda:", mode_value, "\n") cat("Rango:", range_value, "\n") cat("Varianza:", variance_value, "\n") cat("Desviación Estándar:", sd_value, "\n") cat("Asimetría:", skewness_value, "\n") cat("Curtosis:", kurtosis_value, "\n")
Ejercicios
Ejercicio 1
Dado el siguiente conjunto de datos, calcula la media, mediana, moda, rango, varianza, desviación estándar, asimetría y curtosis.
Solución
data <- c(5, 10, 15, 20, 25, 30, 35, 40, 45, 50) # Medidas de tendencia central mean_value <- mean(data) median_value <- median(data) mode_value <- mode(data) # Medidas de dispersión range_value <- range(data) variance_value <- var(data) sd_value <- sd(data) # Medidas de forma skewness_value <- skewness(data) kurtosis_value <- kurtosis(data) # Imprimir resultados cat("Media:", mean_value, "\n") cat("Mediana:", median_value, "\n") cat("Moda:", mode_value, "\n") cat("Rango:", range_value, "\n") cat("Varianza:", variance_value, "\n") cat("Desviación Estándar:", sd_value, "\n") cat("Asimetría:", skewness_value, "\n") cat("Curtosis:", kurtosis_value, "\n")
Ejercicio 2
Crea una función en R que reciba un conjunto de datos y devuelva una lista con todas las medidas estadísticas calculadas.
Solución
calculate_statistics <- function(data) { result <- list( mean = mean(data), median = median(data), mode = mode(data), range = range(data), variance = var(data), sd = sd(data), skewness = skewness(data), kurtosis = kurtosis(data) ) return(result) } # Probar la función data <- c(5, 10, 15, 20, 25, 30, 35, 40, 45, 50) statistics <- calculate_statistics(data) print(statistics)
Conclusión
En esta sección, hemos cubierto las estadísticas descriptivas básicas, incluyendo medidas de tendencia central, dispersión y forma. Estas herramientas son esenciales para resumir y comprender los datos antes de realizar análisis más complejos. En el próximo módulo, profundizaremos en las distribuciones de probabilidad, que son fundamentales para el análisis estadístico inferencial.
Programación en R: De Principiante a Avanzado
Módulo 1: Introducción a R
- Introducción a R y RStudio
- Sintaxis Básica de R
- Tipos y Estructuras de Datos
- Operaciones y Funciones Básicas
- Importación y Exportación de Datos
Módulo 2: Manipulación de Datos
- Vectores y Listas
- Matrices y Arreglos
- Data Frames
- Factores
- Manipulación de Datos con dplyr
- Manipulación de Cadenas
Módulo 3: Visualización de Datos
- Introducción a la Visualización de Datos
- Gráficos Base R
- Fundamentos de ggplot2
- ggplot2 Avanzado
- Visualizaciones Interactivas con plotly
Módulo 4: Análisis Estadístico
- Estadísticas Descriptivas
- Distribuciones de Probabilidad
- Pruebas de Hipótesis
- Correlación y Regresión
- ANOVA y Pruebas Chi-Cuadrado
Módulo 5: Manejo Avanzado de Datos
- Manejo de Fechas y Tiempos
- Reestructuración de Datos
- Trabajo con Grandes Conjuntos de Datos
- Web Scraping
- APIs y JSON
Módulo 6: Conceptos Avanzados de Programación
- Escritura de Funciones
- Depuración y Manejo de Errores
- Programación Orientada a Objetos en R
- Programación Funcional
- Computación Paralela
Módulo 7: Aprendizaje Automático con R
- Introducción al Aprendizaje Automático
- Preprocesamiento de Datos
- Aprendizaje Supervisado
- Aprendizaje No Supervisado
- Evaluación y Ajuste de Modelos
Módulo 8: Temas Especializados
- Análisis de Series Temporales
- Análisis de Datos Espaciales
- Minería de Textos y Procesamiento de Lenguaje Natural
- Bioinformática con R
- Análisis de Datos Financieros