Introducción a la carga, transformación y exportación de datos

En este documento, se describen los enfoques de integración de datos para cargar y transformar datos en BigQuery con los procesos de extracción, carga y transformación (ELT) o extracción, transformación y carga (ETL). También se describe la exportación de datos de BigQuery para aplicar estadísticas en otros sistemas, lo que se conoce como ETL inversa.

Cómo decidir entre ELT o ETL

Es común transformar tus datos antes o después de cargarlos en BigQuery. Una decisión fundamental es si transformar los datos antes de cargarlos en BigQuery (enfoque de extracción, transformación y carga o ETL) o cargar los datos sin procesar en BigQuery y realizar transformaciones con BigQuery (enfoque de extracción, carga y transformación o ELT).

En el siguiente gráfico, se muestran las distintas opciones para integrar datos en BigQuery, ya sea con ELT o ETL.

Árbol de decisión de los productos que se usan en los flujos de trabajo de ELT o ETL para la integración de datos en BigQuery

En general, recomendamos el enfoque de ELT a la mayoría de los clientes. El flujo de trabajo de ELT divide la compleja integración de datos en dos partes administrables: extracción y carga, y luego transformación. Los usuarios pueden elegir entre una variedad de métodos de carga de datos que se adapten a sus necesidades. Una vez que sus datos se cargan en BigQuery, los usuarios que conocen SQL pueden desarrollar canalizaciones de transformación con herramientas como Dataform.

En las siguientes secciones, se describe cada flujo de trabajo con más detalle.

Carga y transformación de datos

Es común transformar tus datos antes o después de cargarlos en BigQuery. En las siguientes secciones, se describen los dos enfoques comunes para la integración de datos, ETL y ELT.

Enfoque de integración de datos con ELT

Con el enfoque de extracción, carga y transformación (ELT), realizas la integración de datos en dos pasos discretos:

  • Extrae y carga datos
  • Transforma los datos

Por ejemplo, puedes extraer y cargar datos de una fuente de archivos JSON en una tabla de BigQuery. Luego, puedes usar canalizaciones para extraer y transformar campos en tablas de destino.

El enfoque de ELT puede simplificar tu flujo de trabajo de integración de datos de las siguientes maneras:

  • Elimina la necesidad de otras herramientas de procesamiento de datos
  • Divide el proceso de integración de datos, a menudo complejo, en dos partes manejables
  • Aprovecha al máximo las capacidades de BigQuery para preparar, transformar y optimizar tus datos a gran escala

Extracción y carga de datos

En el enfoque de integración de datos de ELT, extraes datos de una fuente de datos y los cargas en BigQuery con cualquiera de los métodos admitidos para cargar o acceder a datos externos.

Transforma datos en BigQuery

Después de cargar los datos en BigQuery, puedes prepararlos y transformarlos con las siguientes herramientas:

  • Para compilar, probar, documentar y programar de forma colaborativa canalizaciones avanzadas de transformación de datos de SQL, usa Dataform.
  • Para flujos de trabajo de transformación de datos más pequeños que ejecutan código SQL, notebooks de Python o preparaciones de datos según una programación, usa las canalizaciones de BigQuery.
  • Para limpiar tus datos para el análisis, usa la preparación de datos mejorada por IA.

Cada una de estas herramientas funciona con la API de Dataform.

Para obtener más información, consulta Introducción a las transformaciones.

Enfoque de integración de datos con ETL

En el enfoque de extracción, transformación y carga (ETL), extraes y transformas los datos antes de que lleguen a BigQuery. Este enfoque es beneficioso si ya tienes un proceso establecido para la transformación de datos o si deseas reducir el uso de recursos en BigQuery.

Cloud Data Fusion puede ayudarte a facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.

Exporta datos

Después de procesar y analizar los datos en BigQuery, puedes exportar los resultados para aplicarlos en otros sistemas. BigQuery admite las siguientes exportaciones:

  • Exportar los resultados de las consultas a un archivo local, Google Drive o Hojas de cálculo de Google
  • Exportación de tablas o resultados de consultas a Cloud Storage, Bigtable, Spanner, AlloyDB para PostgreSQL y Pub/Sub

Este proceso se conoce como ETL inversa.

Para obtener más información, consulta Introducción a la exportación de datos en BigQuery.

¿Qué sigue?