El análisis de correlación es una técnica estadística utilizada para medir y analizar la fuerza y la dirección de la relación entre dos variables cuantitativas. Este método es fundamental para identificar si existe una asociación entre las variables y cómo se comportan juntas.
Conceptos Clave
- Correlación: Medida que indica la relación entre dos variables. Puede ser positiva, negativa o nula.
- Coeficiente de Correlación (r): Valor numérico que varía entre -1 y 1, indicando la fuerza y dirección de la relación.
- r = 1: Correlación positiva perfecta.
- r = -1: Correlación negativa perfecta.
- r = 0: No hay correlación.
- Diagrama de Dispersión: Representación gráfica de dos variables que muestra la relación entre ellas.
Tipos de Correlación
- Correlación Positiva: Cuando una variable aumenta, la otra también lo hace.
- Correlación Negativa: Cuando una variable aumenta, la otra disminuye.
- Correlación Nula: No hay relación aparente entre las variables.
Cálculo del Coeficiente de Correlación de Pearson
El coeficiente de correlación de Pearson es el más comúnmente utilizado y se calcula con la siguiente fórmula:
\[ r = \frac{n(\sum xy) - (\sum x)(\sum y)}{\sqrt{[n \sum x^2 - (\sum x)^2][n \sum y^2 - (\sum y)^2]}} \]
Donde:
- \( n \) = número de pares de datos
- \( x \) = valores de la primera variable
- \( y \) = valores de la segunda variable
Ejemplo Práctico
Supongamos que tenemos los siguientes datos sobre horas de estudio y calificaciones de un grupo de estudiantes:
Estudiante | Horas de Estudio (X) | Calificación (Y) |
---|---|---|
A | 2 | 50 |
B | 3 | 60 |
C | 5 | 80 |
D | 7 | 85 |
E | 9 | 95 |
Para calcular el coeficiente de correlación de Pearson:
- Calcular los productos \( xy \), \( x^2 \) y \( y^2 \):
Estudiante | X | Y | XY | X² | Y² |
---|---|---|---|---|---|
A | 2 | 50 | 100 | 4 | 2500 |
B | 3 | 60 | 180 | 9 | 3600 |
C | 5 | 80 | 400 | 25 | 6400 |
D | 7 | 85 | 595 | 49 | 7225 |
E | 9 | 95 | 855 | 81 | 9025 |
- Sumar los valores:
\[ \sum X = 26 \] \[ \sum Y = 370 \] \[ \sum XY = 2130 \] \[ \sum X^2 = 168 \] \[ \sum Y^2 = 28750 \]
- Sustituir en la fórmula:
\[ r = \frac{5(2130) - (26)(370)}{\sqrt{[5(168) - (26)^2][5(28750) - (370)^2]}} \] \[ r = \frac{10650 - 9620}{\sqrt{[840 - 676][143750 - 136900]}} \] \[ r = \frac{1030}{\sqrt{164 \times 6850}} \] \[ r = \frac{1030}{\sqrt{1123400}} \] \[ r = \frac{1030}{1060.8} \] \[ r \approx 0.97 \]
El coeficiente de correlación de Pearson es aproximadamente 0.97, lo que indica una fuerte correlación positiva entre las horas de estudio y las calificaciones.
Ejercicio Práctico
Ejercicio 1
Dado el siguiente conjunto de datos, calcula el coeficiente de correlación de Pearson:
Estudiante | Horas de Ejercicio (X) | Peso Perdido (Y) |
---|---|---|
A | 1 | 2 |
B | 2 | 3 |
C | 3 | 5 |
D | 4 | 4 |
E | 5 | 6 |
Solución
- Calcular los productos \( xy \), \( x^2 \) y \( y^2 \):
Estudiante | X | Y | XY | X² | Y² |
---|---|---|---|---|---|
A | 1 | 2 | 2 | 1 | 4 |
B | 2 | 3 | 6 | 4 | 9 |
C | 3 | 5 | 15 | 9 | 25 |
D | 4 | 4 | 16 | 16 | 16 |
E | 5 | 6 | 30 | 25 | 36 |
- Sumar los valores:
\[ \sum X = 15 \] \[ \sum Y = 20 \] \[ \sum XY = 69 \] \[ \sum X^2 = 55 \] \[ \sum Y^2 = 90 \]
- Sustituir en la fórmula:
\[ r = \frac{5(69) - (15)(20)}{\sqrt{[5(55) - (15)^2][5(90) - (20)^2]}} \] \[ r = \frac{345 - 300}{\sqrt{[275 - 225][450 - 400]}} \] \[ r = \frac{45}{\sqrt{50 \times 50}} \] \[ r = \frac{45}{50} \] \[ r = 0.9 \]
El coeficiente de correlación de Pearson es 0.9, indicando una fuerte correlación positiva entre las horas de ejercicio y el peso perdido.
Conclusión
El análisis de correlación es una herramienta poderosa para entender la relación entre dos variables. El coeficiente de correlación de Pearson es una medida cuantitativa que nos ayuda a determinar la fuerza y la dirección de esta relación. A través de ejemplos prácticos y ejercicios, hemos aprendido a calcular y interpretar este coeficiente, lo que nos permite aplicar estos conocimientos en diversas situaciones del mundo real.
En el siguiente tema, profundizaremos en el Análisis de Regresión, que nos permitirá no solo medir la relación entre variables, sino también predecir valores futuros basados en esta relación.