Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Introdução ao carregamento de dados

Neste documento, explicamos como carregar dados no BigQuery. As duas abordagens comuns para integração de dados são extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL) dados.

Para uma visão geral das abordagens de ELT e ETL, consulte Introdução ao carregamento, transformação e exportação de dados.

Métodos de carregamento ou acesso a dados externos

Na página do BigQuery, na caixa de diálogo Adicionar dados, é possível conferir todos os métodos disponíveis para carregar ou acessar dados do BigQuery. Escolha uma das opções a seguir com base no seu caso de uso e nas fontes de dados:

Método de carregamento	Descrição
Carregamento em lote	Esse método é adequado para carregar em lote grandes volumes de dados de várias fontes. Para o carregamento em lote ou incremental de dados do Cloud Storage e de outras fontes de dados compatíveis, recomendamos usar o serviço de transferência de dados do BigQuery. Com o serviço de transferência de dados do BigQuery, para automatizar pipelines de carregamento de dados no BigQuery, é possível programar jobs de carregamento. É possível programar transferências de dados únicas ou em lote em intervalos regulares (por exemplo, diárias ou mensais). Para garantir que seus dados do BigQuery estejam sempre atualizados, monitore e registre suas transferências. Para uma lista de fontes de dados compatíveis com o serviço de transferência de dados do BigQuery, consulte Fontes de dados compatíveis.
Carregamento por streaming	Esse método permite carregar dados quase em tempo real de sistemas de mensagens. Para fazer streaming de dados para o BigQuery, use uma assinatura do BigQuery no Pub/Sub. O Pub/Sub pode processar alta capacidade de processamento de cargas de dados no BigQuery. Ele é compatível com o streaming de dados em tempo real, carregando os dados à medida que são gerados. Para mais informações, consulte Assinaturas do BigQuery.
Captura de dados alterados (CDC)	Esse método permite replicar dados de bancos de dados para o BigQuery quase em tempo real. O Datastream pode fazer streaming de dados de bancos de dados para o BigQuery com replicação quase em tempo real. O Datastream usa recursos de CDC para rastrear e replicar mudanças no nível da linha das suas fontes de dados. Para conferir uma lista de fontes de dados compatíveis com o Datastream, consulte Fontes.
Federação para fontes de dados externas	Esse método permite o acesso a dados externos sem carregá-los no BigQuery. O BigQuery oferece suporte ao acesso a fontes de dados externas selecionadas pelo Cloud Storage e consultas federadas. A vantagem desse método é que não é necessário carregar os dados antes de transformá-los para uso posterior. É possível realizar a transformação executando instruções `SELECT` nos dados externos.

Você também pode usar os seguintes métodos programáticos para carregar os dados:

Método de carregamento Descrição

Carregamento em lote É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento.

Se os dados de origem mudarem com pouca frequência ou se você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e menos intensiva em recursos de carregar seus dados no BigQuery.

Os dados carregados podem estar no formato Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a instrução SQL LOAD DATA.

Sistemas de código aberto conhecidos, como Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery.

Para otimizar o carregamento em lote em tabelas e evitar atingir o limite diário de carregamento, consulte Otimizar jobs de carregamento.

Carregamento por streaming Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de transmiti-los com alta capacidade de transferência para o BigQuery, use o Dataflow.

Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery.

Você também pode usar diretamente a API BigQuery Storage Write.

Para otimizar o streaming em tabelas e evitar atingir o limite de carga diária, consulte Otimizar jobs de carregamento.

Método de carregamento	Descrição
Carregamento em lote	É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento. Se os dados de origem mudarem com pouca frequência ou se você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e menos intensiva em recursos de carregar seus dados no BigQuery. Os dados carregados podem estar no formato Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a instrução SQL `LOAD DATA`. Sistemas de código aberto conhecidos, como Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery. Para otimizar o carregamento em lote em tabelas e evitar atingir o limite diário de carregamento, consulte Otimizar jobs de carregamento.
Carregamento por streaming	Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de transmiti-los com alta capacidade de transferência para o BigQuery, use o Dataflow. Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery. Você também pode usar diretamente a API BigQuery Storage Write. Para otimizar o streaming em tabelas e evitar atingir o limite de carga diária, consulte Otimizar jobs de carregamento.

O Cloud Data Fusion pode ajudar a facilitar seu processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.

O BigQuery permite criar conexões externas para consultar dados armazenados fora do BigQuery em serviços do Google Cloud, como Cloud Storage ou Spanner, ou em fontes de terceiros, como Amazon Web Services (AWS) ou Microsoft Azure. Essas conexões externas usam a API BigQuery Connection. Para mais informações, consulte Introdução às conexões. Google Cloud

Outras maneiras de adquirir dados

É possível executar consultas em dados sem carregá-los no BigQuery. As seções a seguir descrevem algumas alternativas.

A lista a seguir descreve algumas das alternativas:

Executar consultas em dados públicos

Conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e compartilhados publicamente. Para mais informações, veja Conjuntos de dados públicos do BigQuery.

Executar consultas em dados pessoais compartilhados

Para executar consultas em um conjunto de dados do BigQuery que alguém compartilhou com você, consulte Introdução ao compartilhamento do BigQuery (antigo Analytics Hub). O compartilhamento é uma plataforma de troca de dados que permite o compartilhamento de dados.

Executar consultas com dados de registro

É possível executar consultas em registros sem criar jobs de carga adicionais:

Com o Cloud Logging, é possível rotear registros para um destino do BigQuery.
Com a Análise de observabilidade, é possível executar consultas que analisam seus dados de registros.

A seguir

Saiba como preparar dados com o Gemini no BigQuery.
Saiba mais sobre a transformação de dados com o Dataform.
Saiba mais sobre como monitorar jobs de carregamento no explorador de jobs e nas métricas do BigQuery.