Introdução ao carregamento, transformação e exportação de dados

Este documento descreve as abordagens de integração de dados para carregar e transformar dados no BigQuery usando os processos de extração, carregamento e transformação (ELT) ou extração, transformação e carregamento (ETL). Ele também descreve a exportação de dados do BigQuery para aplicar insights em outros sistemas, conhecida como ETL reversa.

Decidir entre ELT ou ETL

É comum transformar os dados antes ou depois de carregá-los no BigQuery. Uma decisão fundamental é se você vai transformar os dados antes de carregá-los no BigQuery (abordagem de extração, transformação e carregamento ou ETL) ou carregar os dados brutos no BigQuery e realizar transformações usando o BigQuery (abordagem de extração, carregamento e transformação ou ELT).

O gráfico a seguir mostra as várias opções de integração de dados no BigQuery, usando ELT ou ETL.

Uma árvore de decisão de produtos usados em fluxos de trabalho de ELT ou ETL para integração de dados no BigQuery

Em geral, recomendamos a abordagem ELT para a maioria dos clientes. O fluxo de trabalho de ELT divide a integração de dados complexa em duas partes gerenciáveis: extração e carregamento, e depois transformação. Os usuários podem escolher entre vários métodos de carregamento de dados que atendam às necessidades deles. Depois que os dados são carregados no BigQuery, os usuários que conhecem SQL podem desenvolver pipelines de transformação com ferramentas como o Dataform.

As seções a seguir descrevem cada fluxo de trabalho em mais detalhes.

Como carregar e transformar dados

É comum transformar os dados antes ou depois de carregá-los no BigQuery. As duas abordagens comuns para integração de dados, ETL e ELT, são descritas nas seções a seguir.

Abordagem de integração de dados ELT

Com a abordagem de extração, carregamento e transformação (ELT), você realiza a integração de dados em duas etapas distintas:

  • Extrair e carregar dados
  • Transformar dados

Por exemplo, é possível extrair e carregar dados de uma fonte de arquivo JSON em uma tabela do BigQuery. Em seguida, use pipelines para extrair e transformar campos em tabelas de destino.

A abordagem ELT pode simplificar seu fluxo de trabalho de integração de dados das seguintes maneiras:

  • Elimina a necessidade de outras ferramentas de tratamento de dados
  • Divide o processo de integração de dados, geralmente complexo, em duas partes gerenciáveis
  • Usa totalmente os recursos do BigQuery para preparar, transformar e otimizar seus dados em grande escala

Extração e carregamento de dados

Na abordagem de integração de dados ELT, você extrai dados de uma fonte e os carrega no BigQuery usando qualquer um dos métodos compatíveis de carregamento ou acesso a dados externos.

Transformar dados no BigQuery

Depois de carregar os dados no BigQuery, é possível prepará-los e transformá-los com as seguintes ferramentas:

  • Para criar, testar, documentar e programar pipelines avançados de transformação de dados SQL de forma colaborativa, use o Dataform.
  • Para fluxos de trabalho menores de transformação de dados que executam código SQL, notebooks Python ou preparações de dados programadas, use pipelines do BigQuery.
  • Para limpar seus dados para análise, use a preparação de dados com tecnologia de IA.

Cada uma dessas ferramentas é alimentada pela API Dataform.

Para mais informações, consulte Introdução às transformações.

Abordagem de integração de dados ETL

Na abordagem de extração, transformação e carregamento (ETL), você extrai e transforma dados antes que eles cheguem ao BigQuery. Essa abordagem é útil se você já tem um processo de transformação de dados ou se quer reduzir o uso de recursos no BigQuery.

O Cloud Data Fusion pode ajudar a facilitar seu processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.

Exportação de dados

Depois de processar e analisar dados no BigQuery, é possível exportar os resultados para aplicar em outros sistemas. O BigQuery é compatível com as seguintes exportações:

  • Exportar resultados de consulta para um arquivo local, o Google Drive ou as Planilhas Google
  • Exportar tabelas ou resultados de consultas para o Cloud Storage, Bigtable, Spanner, AlloyDB para PostgreSQL e Pub/Sub

Esse processo é chamado de ETL reverso.

Para mais informações, consulte Introdução à exportação de dados no BigQuery.

A seguir