Visão geral da tabela do BigLake

Este documento descreve os diferentes formatos de tabela disponíveis ao criar um lakehouse no BigLake e ajuda você a escolher o mais adequado às suas necessidades.

Ao criar um lakehouse no BigLake, você pode escolher entre vários formatos de tabela que oferecem diferentes níveis de gerenciamento, performance e interoperabilidade. Sua escolha depende da origem dos dados, dos mecanismos que você quer usar para gravação e transformação e do controle que você precisa sobre o armazenamento e os metadados.

Formatos de tabela

Ao criar um lakehouse no BigLake, você tem as seguintes opções para o formato das tabelas:

  • As tabelas do BigLake Iceberg são tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, apenas mecanismos de código aberto podem gravar nele. Essa opção é a melhor se você quiser que seu fluxo de trabalho de ETL seja gerenciado por mecanismos de código aberto.
  • As tabelas do BigLake Iceberg no BigQuery são tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Essa opção é a melhor se você quiser que seu fluxo de trabalho de extração, transformação e carga (ETL) seja totalmente gerenciado pelo BigQuery.
  • As tabelas padrão do BigQuery são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Essa opção é melhor para tabelas que não são do Iceberg.
  • Tabelas externas são tabelas que estão fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.

Use o gráfico a seguir para comparar as opções de formato de tabela:

Tabelas externas Tabelas do BigLake Iceberg Tabelas do BigLake Iceberg no BigQuery Tabelas padrão do BigQuery
Metastore Metastore externa ou auto-hospedada Metastore do BigLake Metastore do BigLake BigQuery
Armazenamento Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Otimização do armazenamento Gerenciada pelo cliente ou por terceiros Gerenciada pelo cliente ou por terceiros Gerenciada pelo Google Gerenciada pelo Google
Leitura / gravação Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Casos de uso Tabelas de teste para cargas do BigQuery, tabelas legadas somente de consulta Open lakehouse Lakehouse aberto com armazenamento de alto desempenho e nível empresarial para análises avançadas, streaming e IA Armazenamento de nível empresarial para análises avançadas, streaming e IA