Las medidas de dispersión son estadísticas que describen la variabilidad o dispersión de un conjunto de datos. Mientras que las medidas de tendencia central (como la media, la mediana y la moda) nos indican dónde se encuentra el centro de los datos, las medidas de dispersión nos informan sobre la extensión o dispersión de los datos alrededor de ese centro.
Conceptos Clave
- Rango: La diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
- Varianza: La media de las diferencias al cuadrado entre cada valor y la media del conjunto de datos.
- Desviación estándar: La raíz cuadrada de la varianza, que proporciona una medida de dispersión en las mismas unidades que los datos originales.
- Rango intercuartílico (IQR): La diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), que mide la dispersión de la mitad central de los datos.
- Rango
El rango es la medida de dispersión más simple y se calcula como:
\[ \text{Rango} = \text{Valor máximo} - \text{Valor mínimo} \]
Ejemplo:
Supongamos que tenemos el siguiente conjunto de datos: 3, 7, 8, 5, 12, 14, 21, 13, 18.
- Valor máximo: 21
- Valor mínimo: 3
\[ \text{Rango} = 21 - 3 = 18 \]
- Varianza
La varianza mide la dispersión de los datos respecto a la media. Se calcula de la siguiente manera:
\[ \text{Varianza} (\sigma^2) = \frac{\sum_{i=1}^{n} (x_i - \mu)^2}{n} \]
Donde:
- \( x_i \) son los valores individuales del conjunto de datos.
- \( \mu \) es la media del conjunto de datos.
- \( n \) es el número de valores en el conjunto de datos.
Ejemplo:
Usando el mismo conjunto de datos: 3, 7, 8, 5, 12, 14, 21, 13, 18.
- Calcular la media (\( \mu \)):
\[ \mu = \frac{3 + 7 + 8 + 5 + 12 + 14 + 21 + 13 + 18}{9} = \frac{101}{9} \approx 11.22 \]
- Calcular la varianza:
\[ \sigma^2 = \frac{(3-11.22)^2 + (7-11.22)^2 + (8-11.22)^2 + (5-11.22)^2 + (12-11.22)^2 + (14-11.22)^2 + (21-11.22)^2 + (13-11.22)^2 + (18-11.22)^2}{9} \]
\[ \sigma^2 \approx \frac{67.85 + 17.79 + 10.37 + 38.78 + 0.61 + 7.71 + 95.09 + 3.16 + 45.97}{9} \]
\[ \sigma^2 \approx \frac{287.33}{9} \approx 31.93 \]
- Desviación Estándar
La desviación estándar es la raíz cuadrada de la varianza y proporciona una medida de dispersión en las mismas unidades que los datos originales.
\[ \sigma = \sqrt{\sigma^2} \]
Ejemplo:
Usando la varianza calculada anteriormente (\( \sigma^2 \approx 31.93 \)):
\[ \sigma \approx \sqrt{31.93} \approx 5.65 \]
- Rango Intercuartílico (IQR)
El rango intercuartílico mide la dispersión de la mitad central de los datos y se calcula como:
\[ \text{IQR} = Q3 - Q1 \]
Donde:
- \( Q1 \) es el primer cuartil (25% de los datos).
- \( Q3 \) es el tercer cuartil (75% de los datos).
Ejemplo:
Usando el mismo conjunto de datos: 3, 7, 8, 5, 12, 14, 21, 13, 18.
- Ordenar los datos: 3, 5, 7, 8, 12, 13, 14, 18, 21.
- Encontrar \( Q1 \) (primer cuartil) y \( Q3 \) (tercer cuartil):
- \( Q1 \) es el valor en la posición \( \frac{n+1}{4} \):
\[ Q1 = \text{valor en la posición} \frac{9+1}{4} = \text{valor en la posición} 2.5 \approx 6 \]
- \( Q3 \) es el valor en la posición \( 3 \times \frac{n+1}{4} \):
\[ Q3 = \text{valor en la posición} 3 \times \frac{9+1}{4} = \text{valor en la posición} 7.5 \approx 15 \]
\[ \text{IQR} = 15 - 6 = 9 \]
Ejercicios Prácticos
Ejercicio 1:
Calcular el rango, la varianza, la desviación estándar y el rango intercuartílico para el siguiente conjunto de datos: 4, 8, 6, 5, 3, 7, 10, 9.
Solución:
-
Rango:
- Valor máximo: 10
- Valor mínimo: 3
- Rango: \( 10 - 3 = 7 \)
-
Varianza:
- Media (\( \mu \)): \( \frac{4 + 8 + 6 + 5 + 3 + 7 + 10 + 9}{8} = \frac{52}{8} = 6.5 \)
- Varianza (\( \sigma^2 \)): \( \frac{(4-6.5)^2 + (8-6.5)^2 + (6-6.5)^2 + (5-6.5)^2 + (3-6.5)^2 + (7-6.5)^2 + (10-6.5)^2 + (9-6.5)^2}{8} \approx 6.25 \)
-
Desviación Estándar:
- \( \sigma = \sqrt{6.25} \approx 2.5 \)
-
Rango Intercuartílico (IQR):
- Ordenar los datos: 3, 4, 5, 6, 7, 8, 9, 10
- \( Q1 \): valor en la posición \( \frac{8+1}{4} = 2.25 \approx 4.5 \)
- \( Q3 \): valor en la posición \( 3 \times \frac{8+1}{4} = 6.75 \approx 8.5 \)
- IQR: \( 8.5 - 4.5 = 4 \)
Conclusión
En esta sección, hemos aprendido sobre las medidas de dispersión, incluyendo el rango, la varianza, la desviación estándar y el rango intercuartílico. Estas medidas son esenciales para entender la variabilidad de los datos y complementan las medidas de tendencia central para proporcionar una imagen completa del conjunto de datos. En la próxima sección, exploraremos cómo representar gráficamente los datos para visualizar mejor su distribución y características.