Introdução ao carregamento de dados

Este documento explica como carregar dados no BigQuery. As duas abordagens comuns para integração de dados são extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL) dados.

Para uma visão geral das abordagens ELT e ETL, consulte Introdução ao carregamento, transformação e exportação de dados.

Métodos de carregamento ou acesso a dados externos

Na página do BigQuery, na caixa de diálogo Adicionar dados, é possível conferir todos os métodos disponíveis para carregar dados no BigQuery ou acessar dados do BigQuery. Escolha uma das opções a seguir com base no seu caso de uso e nas fontes de dados:

Método de carregamento Descrição
Carregamento em lote Esse método é adequado para carregar em lote grandes volumes de dados de uma variedade de fontes.

Para o carregamento em lote ou incremental de dados do Cloud Storage e de outras fontes de dados compatíveis, recomendamos o uso do serviço de transferência de dados do BigQuery.

Com o serviço de transferência de dados do BigQuery, para automatizar pipelines de carregamento de dados no BigQuery, é possível programar jobs de carregamento. É possível programar transferências de dados únicas ou em lote em intervalos regulares (por exemplo, diariamente ou mensalmente). Para garantir que os dados do BigQuery estejam sempre atualizados, é possível monitorar e registrar as transferências.

Para uma lista de fontes de dados compatíveis com o serviço de transferência de dados do BigQuery, consulte Fontes de dados compatíveis.
Carregamento de streaming Esse método permite carregar dados quase em tempo real de sistemas de mensagens.

Para transmitir dados para o BigQuery, é possível usar uma assinatura do BigQuery no Pub/Sub. O Pub/Sub pode processar alta capacidade de processamento de carregamentos de dados no BigQuery. Ele oferece suporte a streaming de dados em tempo real, carregando dados à medida que são gerados. Para mais informações, consulte Assinaturas do BigQuery.
Captura de dados alterados (CDC) Esse método permite replicar dados de bancos de dados para o BigQuery quase em tempo real.

O Datastream pode transmitir dados de bancos de dados para dados do BigQuery com replicação quase em tempo real. O Datastream aproveita os recursos de CDC para rastrear e replicar mudanças no nível da linha das fontes de dados.

Para uma lista de fontes de dados compatíveis com o Datastream, consulte Fontes.
Federação para fontes de dados externas Esse método permite o acesso a dados externos sem carregá-los no BigQuery.

O BigQuery oferece suporte ao acesso a fontes de dados externas selecionadas por meio do Cloud Storage e de consultas federadas. A vantagem desse método é que não é necessário carregar os dados antes de transformá-los para uso posterior. É possível realizar a transformação executando SELECT instruções nos dados externos.

Também é possível usar os seguintes métodos programáticos para carregar os dados:

Método de carregamento Descrição
Carregamento em lote É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento.

Se os dados de origem forem alterados com pouca frequência ou você não precisar de resultados atualizados continuamente, os jobs de carregamento poderão ser uma maneira mais barata e menos intensiva em recursos de carregar os dados no BigQuery.

Os dados carregados podem estar nos formatos Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a LOAD DATA instrução SQL.

Sistemas de código aberto populares, como Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery.

Para otimizar o carregamento em lote em tabelas e evitar atingir o limite de carregamento diário, consulte Otimizar jobs de carregamento.
Carregamento de streaming Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de transmiti-los com alta capacidade para o BigQuery, use o Dataflow.

Para mais informações sobre o carregamento do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery.

Também é possível usar diretamente a API BigQuery Storage Write.

Para otimizar o streaming em tabelas e evitar atingir o limite de carregamento diário, consulte Otimizar jobs de carregamento.

O Cloud Data Fusion pode ajudar a facilitar o processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.

O BigQuery permite criar conexões externas para consultar dados que estão armazenados fora do BigQuery em Google Cloud serviços como o Cloud Storage ou o Spanner, ou em fontes de terceiros, como a Amazon Web Services (AWS) ou o Microsoft Azure. Essas conexões externas usam a API BigQuery Connection. Para mais informações, consulte Introdução às conexões.

Outras maneiras de adquirir dados

É possível executar consultas em dados sem carregá-los no BigQuery. As seções a seguir descrevem algumas alternativas.

A lista a seguir descreve algumas das alternativas:

Executar consultas em dados públicos

Conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e compartilhados publicamente. Para mais informações, veja Conjuntos de dados públicos do BigQuery.

Executar consultas em dados pessoais compartilhados

Para executar consultas em um conjunto de dados do BigQuery que alguém compartilhou com você, consulte Introdução ao BigQuery Sharing (antigo Analytics Hub). O compartilhamento é uma plataforma de troca de dados que permite o compartilhamento de dados.

Executar consultas com dados de registro

É possível executar consultas em registros sem criar outros jobs de carregamento:

A seguir