Introdução ao carregamento de dados

Neste documento, explicamos como carregar dados no BigQuery. As duas abordagens comuns para integração de dados são extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL) dados.

Para uma visão geral das abordagens de ELT e ETL, consulte Introdução ao carregamento, transformação e exportação de dados.

Métodos de carregamento ou acesso a dados externos

Na página do BigQuery, na caixa de diálogo Adicionar dados, é possível conferir todos os métodos disponíveis para carregar dados no BigQuery ou acessar dados do BigQuery. Escolha uma das opções a seguir com base no caso de uso e nas fontes de dados:

Método de carregamento Descrição
Carregamento em lote Esse método é adequado para carregar em lote grandes volumes de dados de várias fontes.

Para o carregamento em lote ou incremental de dados do Cloud Storage e de outras fontes de dados compatíveis, recomendamos usar o serviço de transferência de dados do BigQuery.

Com o serviço de transferência de dados do BigQuery, para automatizar pipelines de carregamento de dados no BigQuery, é possível programar jobs de carregamento. É possível programar transferências de dados únicas ou em lote em intervalos regulares (por exemplo, diárias ou mensais). Para garantir que seus dados do BigQuery estejam sempre atualizados, monitore e registre suas transferências.

Para uma lista de fontes de dados compatíveis com o serviço de transferência de dados do BigQuery, consulte Fontes de dados compatíveis.
Carregamento por streaming Esse método permite carregar dados quase em tempo real de sistemas de mensagens.

Para fazer streaming de dados para o BigQuery, use uma assinatura do BigQuery no Pub/Sub. O Pub/Sub pode processar alta taxa de transferência de cargas de dados no BigQuery. Ele oferece suporte ao streaming de dados em tempo real, carregando os dados à medida que são gerados. Para mais informações, consulte Assinaturas do BigQuery.
Captura de dados alterados (CDC) Esse método permite replicar dados de bancos de dados para o BigQuery quase em tempo real.

O Datastream pode transmitir dados de bancos de dados para dados do BigQuery com replicação quase em tempo real. O Datastream aproveita os recursos de CDC para rastrear e replicar mudanças no nível da linha das suas fontes de dados.

Para conferir uma lista de fontes de dados compatíveis com o Datastream, consulte Fontes.
Federação para fontes de dados externas Esse método permite acessar dados externos sem carregá-los no BigQuery.

O BigQuery permite acessar algumas fontes de dados externas usando o Cloud Storage e consultas federadas. A vantagem desse método é que não é necessário carregar os dados antes de transformá-los para uso posterior. É possível fazer a transformação executando instruções SELECT nos dados externos.

Você também pode usar os seguintes métodos programáticos para carregar os dados:

Método de carregamento Descrição
Carregamento em lote É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento.

Se os dados de origem mudarem com pouca frequência ou você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e menos intensiva em recursos de carregar seus dados no BigQuery.

Os dados carregados podem estar nos formatos Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, você também pode usar a instrução SQL LOAD DATA.

Sistemas de código aberto conhecidos, como o Spark e vários parceiros de ETL, também aceitam o carregamento em lote de dados no BigQuery.

Para otimizar o carregamento em lote nas tabelas e evitar atingir o limite diário, consulte Otimizar jobs de carregamento.
Carregamento por streaming Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de transmitir com grande capacidade para o BigQuery, use o Dataflow.

Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery.

Você também pode usar diretamente a API BigQuery Storage Write.

Para otimizar o streaming em tabelas e evitar atingir o limite de carga diária, consulte Otimizar jobs de carregamento.

O Cloud Data Fusion pode ajudar a facilitar seu processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.

O BigQuery permite criar conexões externas para consultar dados armazenados fora do BigQuery em serviços como Cloud Storage ou Spanner, ou em fontes de terceiros, como Amazon Web Services (AWS) ou Microsoft Azure. Google Cloud Essas conexões externas usam a API BigQuery Connection. Para mais informações, consulte Introdução às conexões.

Outras maneiras de adquirir dados

É possível executar consultas em dados sem carregá-los no BigQuery. As seções a seguir descrevem algumas alternativas.

A lista a seguir descreve algumas das alternativas:

Executar consultas em dados públicos

Conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e compartilhados publicamente. Para mais informações, veja Conjuntos de dados públicos do BigQuery.

Executar consultas em dados compartilhados

Para executar consultas em um conjunto de dados do BigQuery que alguém compartilhou com você, consulte Introdução ao compartilhamento do BigQuery (antigo Analytics Hub). O compartilhamento é uma plataforma de troca de dados que permite o compartilhamento de dados.

Executar consultas com dados de registros

É possível executar consultas em registros sem criar outros jobs de carga:

A seguir