En este módulo, aprenderás cómo cargar datos en BigQuery desde diversas fuentes. BigQuery permite la importación de datos desde archivos locales, Google Cloud Storage, Google Drive, y otras bases de datos. Este proceso es fundamental para poder realizar análisis y consultas sobre tus datos.

Objetivos de Aprendizaje

  • Entender los diferentes métodos para cargar datos en BigQuery.
  • Aprender a cargar datos desde archivos locales y Google Cloud Storage.
  • Conocer las mejores prácticas para la carga de datos.

Métodos de Carga de Datos

BigQuery ofrece varias formas de cargar datos:

  1. Archivos Locales: Puedes cargar datos directamente desde tu máquina local.
  2. Google Cloud Storage (GCS): Es una opción común para manejar grandes volúmenes de datos.
  3. Google Drive: Útil para datos almacenados en hojas de cálculo de Google.
  4. Otras Bases de Datos: Utilizando herramientas de ETL (Extract, Transform, Load) como Dataflow o servicios de terceros.

Cargando Datos desde Archivos Locales

Paso 1: Preparar el Archivo

Asegúrate de que tu archivo esté en un formato compatible, como CSV, JSON, Avro, Parquet, ORC, o Datastore export.

Paso 2: Acceder a la Consola de BigQuery

  1. Ve a la Consola de BigQuery.
  2. Selecciona tu proyecto y dataset donde deseas cargar los datos.

Paso 3: Iniciar el Proceso de Carga

  1. Haz clic en el botón Crear tabla.
  2. En la sección Origen, selecciona Subir y elige tu archivo local.
  3. Configura el formato del archivo (CSV, JSON, etc.).

Paso 4: Configurar la Tabla de Destino

  1. En la sección Destino, selecciona el dataset y proporciona un nombre para la nueva tabla.
  2. Configura el esquema de la tabla (puedes hacerlo manualmente o permitir que BigQuery lo detecte automáticamente).

Paso 5: Opciones Avanzadas (Opcional)

  1. Configura opciones adicionales como la partición de la tabla, el agrupamiento, y las opciones de carga (por ejemplo, ignorar errores).

Paso 6: Iniciar la Carga

  1. Haz clic en Crear tabla para iniciar el proceso de carga.

Ejemplo de Carga de Datos desde un Archivo CSV

bq --location=US load --source_format=CSV mydataset.mytable ./myfile.csv ./myschema.json

En este comando:

  • --location=US especifica la ubicación del dataset.
  • --source_format=CSV indica que el archivo de origen es un CSV.
  • mydataset.mytable es el dataset y la tabla de destino.
  • ./myfile.csv es el archivo de origen.
  • ./myschema.json es el archivo de esquema (opcional).

Cargando Datos desde Google Cloud Storage

Paso 1: Subir el Archivo a GCS

  1. Ve a la Consola de Google Cloud Storage.
  2. Sube tu archivo al bucket de GCS.

Paso 2: Iniciar el Proceso de Carga en BigQuery

  1. En la Consola de BigQuery, haz clic en Crear tabla.
  2. En la sección Origen, selecciona Google Cloud Storage y proporciona la URI del archivo (por ejemplo, gs://mybucket/myfile.csv).

Paso 3: Configurar la Tabla de Destino

  1. Selecciona el dataset y proporciona un nombre para la nueva tabla.
  2. Configura el esquema de la tabla.

Paso 4: Opciones Avanzadas (Opcional)

  1. Configura opciones adicionales como la partición de la tabla, el agrupamiento, y las opciones de carga.

Paso 5: Iniciar la Carga

  1. Haz clic en Crear tabla para iniciar el proceso de carga.

Ejemplo de Carga de Datos desde GCS

bq --location=US load --source_format=CSV mydataset.mytable gs://mybucket/myfile.csv ./myschema.json

Ejercicio Práctico

Ejercicio 1: Cargar un Archivo CSV desde tu Máquina Local

  1. Prepara un archivo CSV con datos de ejemplo.
  2. Sigue los pasos descritos para cargar el archivo en BigQuery.
  3. Verifica que los datos se hayan cargado correctamente ejecutando una consulta simple.

Ejercicio 2: Cargar un Archivo JSON desde Google Cloud Storage

  1. Sube un archivo JSON a un bucket de GCS.
  2. Sigue los pasos descritos para cargar el archivo en BigQuery.
  3. Verifica que los datos se hayan cargado correctamente ejecutando una consulta simple.

Soluciones

Solución al Ejercicio 1

  1. Prepara un archivo data.csv con el siguiente contenido:
    id,name,age
    1,John Doe,30
    2,Jane Smith,25
    3,Bob Johnson,40
    
  2. Carga el archivo en BigQuery siguiendo los pasos descritos.
  3. Ejecuta la siguiente consulta para verificar los datos:
    SELECT * FROM mydataset.mytable;
    

Solución al Ejercicio 2

  1. Sube un archivo data.json a GCS con el siguiente contenido:
    {"id": 1, "name": "John Doe", "age": 30}
    {"id": 2, "name": "Jane Smith", "age": 25}
    {"id": 3, "name": "Bob Johnson", "age": 40}
    
  2. Carga el archivo en BigQuery siguiendo los pasos descritos.
  3. Ejecuta la siguiente consulta para verificar los datos:
    SELECT * FROM mydataset.mytable;
    

Conclusión

En esta sección, has aprendido cómo cargar datos en BigQuery desde archivos locales y Google Cloud Storage. Estos métodos son fundamentales para preparar tus datos para análisis y consultas. En el próximo módulo, exploraremos cómo exportar datos desde BigQuery.

Curso de BigQuery

Módulo 1: Introducción a BigQuery

Módulo 2: SQL Básico en BigQuery

Módulo 3: SQL Intermedio en BigQuery

Módulo 4: SQL Avanzado en BigQuery

Módulo 5: Gestión de Datos en BigQuery

Módulo 6: Optimización del Rendimiento de BigQuery

Módulo 7: Seguridad y Cumplimiento en BigQuery

Módulo 8: Integración y Automatización de BigQuery

Módulo 9: Machine Learning en BigQuery (BQML)

Módulo 10: Casos de Uso de BigQuery en el Mundo Real

© Copyright 2024. Todos los derechos reservados