Introducción a la carga de datos
En este documento, se explica cómo puedes cargar datos en BigQuery. Los dos enfoques comunes para la integración de datos son extraer, cargar y transformar (ELT) o extraer, transformar y cargar (ETL) datos.
Para obtener una descripción general de los enfoques de ELT y ETL, consulta Introducción a la carga, transformación y exportación de datos.
Métodos para cargar o acceder a datos externos
En la página de BigQuery, en el diálogo **Agregar datos**, puedes ver todos los métodos disponibles para cargar datos en BigQuery o acceder a datos desde BigQuery. Elige una de las siguientes opciones según tu caso de uso y las fuentes de datos:
| Método de carga | Descripción |
|---|---|
| Carga por lotes | Este método es adecuado para cargar por lotes grandes volúmenes de datos de una
variedad de fuentes. Para la carga por lotes o incremental de datos desde Cloud Storage y otras fuentes de datos compatibles, te recomendamos que uses el Servicio de transferencia de datos de BigQuery. Con el Servicio de transferencia de datos de BigQuery, para automatizar las canalizaciones de carga de datos en BigQuery, puedes programar trabajos de carga. Puedes programar transferencias de datos únicas o por lotes a intervalos regulares (por ejemplo, diarios o mensuales). Para asegurarte de que tus datos de BigQuery estén siempre actualizados, puedes supervisar y registrar tus transferencias. Para obtener una lista de las fuentes de datos compatibles con el Servicio de transferencia de datos de BigQuery, consulta Fuentes de datos compatibles. |
| Carga de transmisión | Este método permite cargar datos casi en tiempo real desde sistemas de mensajería
sistemas. Para transmitir datos a BigQuery, puedes usar una suscripción de BigQuery en Pub/Sub. Pub/Sub puede controlar un alto rendimiento de cargas de datos en BigQuery. Admite la transmisión de datos en tiempo real y la carga de datos a medida que se generan. Para obtener más información, consulta Suscripciones de BigQuery. |
| Captura de datos modificados (CDC) | Este método permite replicar datos de bases de datos a
BigQuery casi en tiempo real. Datastream puede transmitir datos de bases de datos a datos de BigQuery con replicación casi en tiempo real. Datastream aprovecha las capacidades de CDC para hacer un seguimiento de los cambios a nivel de fila y replicarlos desde tus fuentes de datos. Para obtener una lista de las fuentes de datos compatibles con Datastream, consulta Fuentes. |
| Federación a fuentes de datos externas | Este método permite el acceso a datos externos sin cargarlos
en BigQuery. BigQuery admite el acceso a fuentes de datos externas seleccionadas a través de Cloud Storage y consultas federadas. La ventaja de este método es que no necesitas cargar los datos antes de transformarlos para su uso posterior. Puedes realizar la transformación ejecutando SELECT instrucciones sobre los datos externos. |
También puedes usar los siguientes métodos programáticos para cargar los datos:
| Método de carga | Descripción |
|---|---|
| Carga por lotes | Carga datos desde Cloud Storage o desde un archivo local mediante la creación de un trabajo de carga. Si los datos de origen cambian con poca frecuencia o no necesitas resultados actualizados continuamente, los trabajos de carga pueden ser una forma menos costosa y que requiere menos recursos para cargar tus datos en BigQuery. Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la LOAD DATA instrucción
SQL.Los sistemas populares de código abierto, como Spark y varios socios de ETL, también admiten la carga por lotes de datos en BigQuery. Para optimizar la carga por lotes en tablas y evitar alcanzar el límite de carga diaria, consulta Cómo optimizar los trabajos de carga. |
| Carga de transmisión | Si debes admitir fuentes de datos de transmisión personalizadas o procesar
datos antes de transmitirlos con un gran rendimiento a
BigQuery, usa Dataflow. Para obtener más información sobre la carga de Dataflow a BigQuery, consulta Escribe desde Dataflow a BigQuery. También puedes usar directamente la API de BigQuery Storage Write. Para optimizar la transmisión en tablas y evitar alcanzar el límite de carga diaria, consulta Cómo optimizar los trabajos de carga. |
Cloud Data Fusion puede ayudarte a facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.
BigQuery te permite crear conexiones externas para consultar datos que se almacenan fuera de BigQuery en Google Cloud servicios como Cloud Storage o Spanner, o en fuentes de terceros como Amazon Web Services (AWS) o Microsoft Azure. Estas conexiones externas usan la API de BigQuery Connection. Para obtener más información, consulta Introducción a las conexiones.
Otras formas de adquirir datos
Puedes ejecutar consultas sobre datos sin cargarlos en BigQuery. En las siguientes secciones, se describen algunas alternativas.
En la siguiente lista, se describen algunas de las alternativas:
Ejecuta consultas sobre datos públicos
Los conjuntos de datos públicos son conjuntos que se almacenan en BigQuery y se comparten con el público. Para obtener más información, consulta los conjuntos de datos públicos de BigQuery.
Ejecuta consultas sobre datos compartidos
Para ejecutar consultas en un conjunto de datos de BigQuery que alguien compartió contigo, consulta Introducción a BigQuery sharing (anteriormente Analytics Hub). El uso compartido es una plataforma de intercambio de datos que permite compartir datos.
Ejecuta consultas con datos de registros
Puedes ejecutar consultas en registros sin crear trabajos de carga adicionales:
Cloud Logging te permite enrutar registros a un destino de BigQuery.
Observability Analytics te permite ejecutar consultas que analizan tus datos de registros.
¿Qué sigue?
- Aprende a preparar datos con Gemini en BigQuery.
- Obtén más información para transformar datos con Dataform.
- Obtén más información para supervisar trabajos de carga en el explorador de trabajos administrativos y las métricas de BigQuery.