Visão geral do BigLake

O BigLake é um mecanismo de armazenamento que une Google Cloud e serviços de código aberto para criar uma interface unificada para análises avançadas e IA. Ele fornece a base necessária para criar um lakehouse aberto, gerenciado e de alto desempenho com gerenciamento de dados automatizado e governança integrada usando o Apache Iceberg.

O BigLake permite a interoperabilidade em todos os mecanismos compatíveis com o Iceberg, como o Apache Spark ou o BigQuery, oferecendo uma visão consistente dos seus dados. Ele também amplia os recursos de gerenciamento do Cloud Storage, que incluem recursos como escalonamento automático de classe, criptografia e chaves de criptografia gerenciadas pelo cliente nos seus buckets de armazenamento. Além disso, a integração integrada com o Dataplex Universal Catalog garante que as políticas de governança sejam definidas centralmente e aplicadas de forma consistente em vários mecanismos, permitindo pesquisa semântica, linhagem de dados, criação de perfil e verificações de qualidade.

O BigLake também oferece a opção de uma experiência totalmente gerenciada do Iceberg quando integrado ao BigQuery. Ao aproveitar os recursos de gerenciamento de metadados altamente escalonáveis e em tempo real do BigQuery, você tem o melhor dos dois mundos: abertura e propriedade de dados, além de análise, streaming e IA de alta performance.

Arquitetura

Um data lakehouse criado com o BigLake consiste nos seguintes componentes:

  • Recursos de armazenamento. Cloud Storage com Apache Iceberg como o formato de tabela aberta recomendado.
  • Um metastore. O metastore do BigLake é um metastore unificado, gerenciado, sem servidor e escalonável que oferece uma única fonte de verdade para gerenciar metadados em vários mecanismos.
  • Um mecanismo de consulta. O BigQuery, o Apache Spark, o Apache Flink, o Trino e outros mecanismos de código aberto são compatíveis com o BigLake.
  • Uma ferramenta para gravação e análise de dados. O BigQuery, o Spark, o Flink, o Trino e outras ferramentas de código aberto se integram ao BigLake para oferecer vários caminhos de gravações e análises.

O BigLake reúne todos esses componentes em uma única experiência com governança uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte BigLake evolved (em inglês).

Metastore do BigLake

O BigLake Metastore é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele oferece uma única fonte de verdade para metadados de várias fontes e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, eliminando a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas.

O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e permite governança de ponta a ponta, incluindo recursos abrangentes de linhagem, qualidade e capacidade de descoberta de dados.

Formatos de tabela

Ao criar um lakehouse no BigLake, você tem as seguintes opções para o formato das tabelas:

  • As tabelas do BigLake Iceberg no BigQuery são tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Essa opção é ideal se você quer que seu fluxo de trabalho de extração, transformação e carregamento (ETL) seja totalmente gerenciado pelo BigQuery.
  • As tabelas do BigLake Iceberg são tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o mecanismo de código aberto que criou a tabela é o único que pode gravar nela. Essa opção é a melhor se você quiser que seu fluxo de trabalho de ETL seja gerenciado pelo mecanismo de código aberto.
  • As tabelas padrão do BigQuery são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Essa opção é melhor para tabelas que não são do Iceberg.
  • Tabelas externas são tabelas que estão fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.

Use o gráfico a seguir para comparar as opções de formato de tabela:

Tabelas externas Tabelas do BigLake Iceberg Tabelas do BigLake Iceberg no BigQuery Tabelas padrão do BigQuery
Metastore Metastore externa ou auto-hospedada Metastore do BigLake Metastore do BigLake BigQuery
Armazenamento Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Otimização do armazenamento Gerenciada pelo cliente ou por terceiros Gerenciada pelo cliente ou por terceiros Gerenciada pelo Google Gerenciada pelo Google
Leitura / gravação Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (leitura/gravação)

BigQuery (somente leitura)
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage)

BigQuery (leitura/gravação)

Casos de uso Tabelas de teste para cargas do BigQuery, tabelas legadas somente de consulta Open lakehouse Lakehouse aberto com armazenamento de alto desempenho e nível empresarial para análises avançadas, streaming e IA Armazenamento de nível empresarial para análises avançadas, streaming e IA

A seguir