En este tema, aprenderemos cómo utilizar Power Query en Power BI para limpiar y transformar datos. La limpieza y transformación de datos son pasos cruciales en el proceso de análisis de datos, ya que aseguran que los datos sean precisos, consistentes y estén en un formato adecuado para el análisis.

Objetivos de aprendizaje

  • Comprender la importancia de la limpieza y transformación de datos.
  • Aprender a utilizar Power Query para realizar tareas comunes de limpieza y transformación.
  • Aplicar técnicas de transformación de datos para preparar los datos para el análisis.

  1. Introducción a Power Query

Power Query es una herramienta de ETL (Extracción, Transformación y Carga) integrada en Power BI que permite importar, limpiar y transformar datos de diversas fuentes.

Características clave de Power Query:

  • Interfaz intuitiva: Permite realizar transformaciones mediante una interfaz gráfica sin necesidad de escribir código.
  • Conectividad: Soporta una amplia variedad de fuentes de datos.
  • Transformaciones repetibles: Las transformaciones se registran como pasos que pueden ser revisados y modificados.

  1. Limpieza de datos

La limpieza de datos implica corregir o eliminar datos incorrectos, incompletos o irrelevantes. A continuación, se presentan algunas tareas comunes de limpieza de datos en Power Query.

2.1. Eliminar filas y columnas innecesarias

A menudo, los conjuntos de datos contienen filas o columnas que no son relevantes para el análisis. Estas pueden ser eliminadas fácilmente en Power Query.

Ejemplo:

1. Selecciona la columna o fila que deseas eliminar.
2. Haz clic derecho y selecciona "Eliminar".

2.2. Manejo de valores nulos

Los valores nulos pueden afectar los análisis y visualizaciones. Power Query ofrece varias opciones para manejar valores nulos, como reemplazarlos o eliminarlos.

Ejemplo:

1. Selecciona la columna que contiene valores nulos.
2. En la pestaña "Transformar", selecciona "Reemplazar valores".
3. Ingresa el valor que deseas usar para reemplazar los valores nulos.

2.3. Corrección de errores de datos

Los errores de datos, como errores tipográficos o formatos inconsistentes, pueden ser corregidos utilizando las funciones de transformación de Power Query.

Ejemplo:

1. Selecciona la columna con errores de datos.
2. Utiliza las opciones de transformación en la pestaña "Transformar" para corregir los errores (por ejemplo, "Reemplazar valores", "Dividir columna", etc.).

  1. Transformación de datos

La transformación de datos implica cambiar el formato o la estructura de los datos para que sean más adecuados para el análisis.

3.1. Cambiar el tipo de datos

Es importante asegurarse de que cada columna tenga el tipo de datos correcto (por ejemplo, texto, número, fecha).

Ejemplo:

1. Selecciona la columna cuyo tipo de datos deseas cambiar.
2. En la pestaña "Transformar", selecciona "Tipo de datos" y elige el tipo de datos adecuado.

3.2. Dividir columnas

A veces, es necesario dividir una columna en varias columnas para facilitar el análisis.

Ejemplo:

1. Selecciona la columna que deseas dividir.
2. En la pestaña "Transformar", selecciona "Dividir columna" y elige la opción adecuada (por ejemplo, "Por delimitador", "Por número de caracteres").

3.3. Agrupar datos

Agrupar datos permite resumir información y obtener insights más claros.

Ejemplo:

1. Selecciona las columnas por las que deseas agrupar.
2. En la pestaña "Transformar", selecciona "Agrupar por".
3. Configura las opciones de agrupación y agregación según sea necesario.

  1. Ejercicio práctico

Ejercicio:

  1. Importa un conjunto de datos de ejemplo (puedes usar un archivo CSV con datos ficticios).
  2. Realiza las siguientes tareas de limpieza y transformación:
    • Elimina las columnas irrelevantes.
    • Reemplaza los valores nulos en la columna "Edad" con la media de las edades.
    • Corrige los errores tipográficos en la columna "Ciudad".
    • Cambia el tipo de datos de la columna "Fecha de nacimiento" a "Fecha".
    • Divide la columna "Nombre completo" en "Nombre" y "Apellido".
    • Agrupa los datos por "Ciudad" y calcula la media de la "Edad" para cada ciudad.

Solución:

1. Importa el archivo CSV en Power BI.
2. En Power Query, selecciona las columnas irrelevantes y elimínalas.
3. Selecciona la columna "Edad", ve a "Transformar" > "Reemplazar valores" y reemplaza los valores nulos con la media de las edades.
4. Selecciona la columna "Ciudad" y corrige los errores tipográficos utilizando "Reemplazar valores".
5. Selecciona la columna "Fecha de nacimiento", ve a "Transformar" > "Tipo de datos" y selecciona "Fecha".
6. Selecciona la columna "Nombre completo", ve a "Transformar" > "Dividir columna" > "Por delimitador" y elige el espacio como delimitador.
7. Selecciona las columnas "Ciudad" y "Edad", ve a "Transformar" > "Agrupar por" y configura la agrupación para calcular la media de la "Edad" por "Ciudad".

Conclusión

En esta sección, hemos aprendido cómo utilizar Power Query para limpiar y transformar datos en Power BI. Estas habilidades son fundamentales para preparar los datos para el análisis y asegurar que los resultados sean precisos y significativos. En el próximo módulo, exploraremos cómo crear visualizaciones básicas para representar los datos de manera efectiva.

© Copyright 2024. Todos los derechos reservados