Este documento descreve os diferentes formatos de tabela disponíveis ao criar um lakehouse no BigLake e ajuda você a escolher o mais adequado às suas necessidades.
Ao criar um lakehouse no BigLake, você pode escolher entre vários formatos de tabela que oferecem diferentes níveis de gerenciamento, performance e interoperabilidade. Sua escolha depende da origem dos dados, dos mecanismos que você quer usar para gravação e transformação e do controle que você precisa sobre o armazenamento e os metadados.
Formatos de tabela
Ao criar um lakehouse no BigLake, você tem as seguintes opções para o formato das tabelas:
- As tabelas do BigLake Iceberg são tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, apenas mecanismos de código aberto podem gravar nele. Essa opção é a melhor se você quiser que seu fluxo de trabalho de ETL seja gerenciado por mecanismos de código aberto.
- As tabelas do BigLake Iceberg no BigQuery são tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Essa opção é a melhor se você quiser que seu fluxo de trabalho de extração, transformação e carga (ETL) seja totalmente gerenciado pelo BigQuery.
- As tabelas padrão do BigQuery são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Essa opção é melhor para tabelas que não são do Iceberg.
- Tabelas externas são tabelas que estão fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.
Use o gráfico a seguir para comparar as opções de formato de tabela:
| Tabelas externas | Tabelas do BigLake Iceberg | Tabelas do BigLake Iceberg no BigQuery | Tabelas padrão do BigQuery | |
|---|---|---|---|---|
| Metastore | Metastore externa ou auto-hospedada | Metastore do BigLake | Metastore do BigLake | BigQuery |
| Armazenamento | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| Otimização do armazenamento | Gerenciada pelo cliente ou por terceiros | Gerenciada pelo cliente ou por terceiros | Gerenciada pelo Google | Gerenciada pelo Google |
| Leitura / gravação |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)
BigQuery (leitura/gravação) |
Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage) BigQuery (leitura/gravação) |
| Casos de uso | Tabelas de teste para cargas do BigQuery, tabelas legadas somente de consulta | Open lakehouse | Lakehouse aberto com armazenamento de alto desempenho e nível empresarial para análises avançadas, streaming e IA | Armazenamento de nível empresarial para análises avançadas, streaming e IA |