Introducción a la carga de datos

En este documento, se explica cómo puedes cargar datos en BigQuery. Los dos enfoques comunes para la integración de datos son extraer, cargar y transformar (ELT) o extraer, transformar y cargar (ETL) datos.

Para obtener una descripción general de los enfoques de ELT y ETL, consulta Introducción a la carga, transformación y exportación de datos.

Métodos para cargar datos externos o acceder a ellos

En la página de BigQuery, en el diálogo Agregar datos, puedes ver todos los métodos disponibles para cargar datos en BigQuery o acceder a ellos desde BigQuery. Elige una de las siguientes opciones según tu caso de uso y tus fuentes de datos:

Método de carga Descripción
Carga por lotes Este método es adecuado para cargar por lotes grandes volúmenes de datos de una variedad de fuentes.

Para la carga incremental o por lotes de datos desde Cloud Storage y otras fuentes de datos compatibles, recomendamos usar el Servicio de transferencia de datos de BigQuery.

Con el Servicio de transferencia de datos de BigQuery, puedes programar trabajos de carga para automatizar las canalizaciones de carga de datos en BigQuery. Puedes programar transferencias de datos únicas o por lotes a intervalos regulares (por ejemplo, diarios o mensuales). Para asegurarte de que tus datos de BigQuery estén siempre actualizados, puedes supervisar y registrar tus transferencias.

Para obtener una lista de las fuentes de datos compatibles con el Servicio de transferencia de datos de BigQuery, consulta Fuentes de datos compatibles.
Carga de transmisión Este método permite cargar datos casi en tiempo real desde sistemas de mensajería.

Para transmitir datos a BigQuery, puedes usar una suscripción a BigQuery en Pub/Sub. Pub/Sub puede controlar un alto rendimiento de cargas de datos en BigQuery. Admite la transmisión de datos en tiempo real y la carga de datos a medida que se generan. Para obtener más información, consulta Suscripciones a BigQuery.
Captura de datos modificados (CDC) Este método permite replicar datos de bases de datos a BigQuery casi en tiempo real.

Datastream puede transmitir datos de bases de datos a datos de BigQuery con replicación casi en tiempo real. Datastream aprovecha las capacidades de CDC para hacer un seguimiento de los cambios a nivel de las filas de tus fuentes de datos y replicarlos.

Para obtener una lista de las fuentes de datos que admite Datastream, consulta Fuentes.
Federación a fuentes de datos externas Este método permite acceder a datos externos sin cargarlos en BigQuery.

BigQuery admite el acceso a fuentes de datos externas seleccionadas a través de Cloud Storage y consultas federadas. La ventaja de este método es que no necesitas cargar los datos antes de transformarlos para su uso posterior. Puedes realizar la transformación ejecutando instrucciones SELECT sobre los datos externos.

También puedes usar los siguientes métodos programáticos para cargar los datos:

Método de carga Descripción
Carga por lotes Puedes cargar datos desde Cloud Storage o desde un archivo local creando un trabajo de carga.

Si los datos de origen cambian con poca frecuencia o no necesitas resultados actualizados continuamente, los trabajos de carga pueden ser una forma menos costosa y menos intensiva en recursos de cargar tus datos en BigQuery.

Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la instrucción de SQL LOAD DATA.

Los sistemas populares de código abierto, como Spark y varios socios de ETL, también admiten la carga por lotes de datos en BigQuery.

Para optimizar la carga por lotes en tablas y evitar alcanzar el límite de carga diario, consulta Optimiza los trabajos de carga.
Carga de transmisión Si debes admitir fuentes de datos de transmisión personalizadas o preprocesar datos antes de transmitirlos con un gran rendimiento a BigQuery, usa Dataflow.

Para obtener más información sobre la carga de datos desde Dataflow a BigQuery, consulta Escribe desde Dataflow a BigQuery.

También puedes usar directamente la API de BigQuery Storage Write.

Para optimizar la transmisión a las tablas y evitar alcanzar el límite de carga diario, consulta Optimiza los trabajos de carga.

Cloud Data Fusion puede ayudarte a facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.

BigQuery te permite crear conexiones externas para consultar datos que se almacenan fuera de BigQuery en Google Cloud servicios como Cloud Storage o Spanner, o en fuentes de terceros, como Amazon Web Services (AWS) o Microsoft Azure. Estas conexiones externas usan la API de BigQuery Connection. Para obtener más información, consulta Introducción a las conexiones.

Otras formas de adquirir datos

Puedes ejecutar consultas en los datos sin cargarlos en BigQuery por tu cuenta. En las siguientes secciones, se describen algunas alternativas.

En la siguiente lista, se describen algunas de las alternativas:

Ejecuta consultas sobre datos públicos

Los conjuntos de datos públicos son conjuntos que se almacenan en BigQuery y se comparten con el público. Para obtener más información, consulta los conjuntos de datos públicos de BigQuery.

Ejecuta consultas sobre los datos compartidos

Para ejecutar consultas en un conjunto de datos de BigQuery que alguien compartió contigo, consulta Introducción a BigQuery sharing (anteriormente Analytics Hub). Sharing es una plataforma de intercambio de datos que permite compartir datos.

Ejecuta consultas con datos de registros

Puedes ejecutar consultas en los registros sin crear trabajos de carga adicionales:

¿Qué sigue?