O BigLake é um mecanismo de armazenamento que une Google Cloud e serviços de código aberto para criar uma interface unificada para análises avançadas e IA. Ele fornece a base necessária para criar um lakehouse aberto, gerenciado e de alto desempenho com gerenciamento de dados automatizado e governança integrada usando o Apache Iceberg.
O BigLake permite a interoperabilidade em todos os mecanismos compatíveis com o Iceberg, como o Apache Spark ou o BigQuery, oferecendo uma visão consistente dos seus dados. Ele também amplia os recursos de gerenciamento do Cloud Storage, que incluem recursos como escalonamento automático de classe, criptografia e chaves de criptografia gerenciadas pelo cliente nos seus buckets de armazenamento. Além disso, a integração integrada com o Dataplex Universal Catalog garante que as políticas de governança sejam definidas centralmente e aplicadas de forma consistente em vários mecanismos, permitindo pesquisa semântica, linhagem de dados, criação de perfil e verificações de qualidade.
O BigLake também oferece a opção de uma experiência totalmente gerenciada do Iceberg quando integrado ao BigQuery. Ao aproveitar os recursos de gerenciamento de metadados altamente escalonáveis e em tempo real do BigQuery, você tem o melhor dos dois mundos: abertura e propriedade de dados, além de análise, streaming e IA de alta performance.
Arquitetura
Um data lakehouse criado com o BigLake consiste nos seguintes componentes:
- Recursos de armazenamento. Cloud Storage com Apache Iceberg como o formato de tabela aberta recomendado.
- Um metastore. O metastore do BigLake é um metastore unificado, gerenciado, sem servidor e escalonável que oferece uma única fonte de verdade para gerenciar metadados em vários mecanismos.
- Um mecanismo de consulta. O BigQuery, o Apache Spark, o Apache Flink, o Trino e outros mecanismos de código aberto são compatíveis com o BigLake.
- Uma ferramenta para gravação e análise de dados. O BigQuery, o Spark, o Flink, o Trino e outras ferramentas de código aberto se integram ao BigLake para oferecer vários caminhos de gravações e análises.
O BigLake reúne todos esses componentes em uma única experiência com governança uniforme. Para mais informações sobre a arquitetura e as inovações do BigLake, consulte BigLake evolved (em inglês).
Metastore do BigLake
O BigLake Metastore é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele oferece uma única fonte de verdade para metadados de várias fontes e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, eliminando a necessidade de copiar e sincronizar metadados entre diferentes repositórios com ferramentas personalizadas.
O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e permite governança de ponta a ponta, incluindo recursos abrangentes de linhagem, qualidade e capacidade de descoberta de dados.
Formatos de tabela
Ao criar um lakehouse no BigLake, você tem as seguintes opções para o formato das tabelas:
- As tabelas do BigLake Iceberg no BigQuery são tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o BigQuery é o único mecanismo que pode gravar diretamente nelas. Essa opção é ideal se você quer que seu fluxo de trabalho de extração, transformação e carregamento (ETL) seja totalmente gerenciado pelo BigQuery.
- As tabelas do BigLake Iceberg são tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage. Como todas as tabelas que usam o metastore do BigLake, elas podem ser lidas por mecanismos de código aberto e pelo BigQuery. No entanto, o mecanismo de código aberto que criou a tabela é o único que pode gravar nela. Essa opção é a melhor se você quiser que seu fluxo de trabalho de ETL seja gerenciado pelo mecanismo de código aberto.
- As tabelas padrão do BigQuery são totalmente gerenciadas pelo BigQuery e têm os recursos mais avançados de análise e gerenciamento de dados. Ainda é possível conectar essas tabelas ao BigLake Metastore. Essa opção é melhor para tabelas que não são do Iceberg.
- Tabelas externas são tabelas que estão fora do metastore do BigLake. Os dados e metadados dessas tabelas são totalmente autogerenciados, e você depende totalmente dos recursos de formatos de tabela aberta (como Iceberg, Apache Hudi ou Delta Lake). O BigQuery só pode ler essas tabelas. Escolha essa opção para dados e metadados que você quer gerenciar por conta própria em um catálogo de terceiros.
Use o gráfico a seguir para comparar as opções de formato de tabela:
| Tabelas externas | Tabelas do BigLake Iceberg | Tabelas do BigLake Iceberg no BigQuery | Tabelas padrão do BigQuery | |
|---|---|---|---|---|
| Metastore | Metastore externa ou auto-hospedada | Metastore do BigLake | Metastore do BigLake | BigQuery |
| Armazenamento | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| Otimização do armazenamento | Gerenciada pelo cliente ou por terceiros | Gerenciada pelo cliente ou por terceiros | Gerenciada pelo Google | Gerenciada pelo Google |
| Leitura / gravação |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (leitura/gravação) BigQuery (somente leitura) |
Mecanismos de código aberto (somente leitura com bibliotecas do Iceberg, interoperabilidade de leitura/gravação com a API BigQuery Storage)
BigQuery (leitura/gravação) |
Mecanismos de código aberto (interoperabilidade de leitura/gravação com a API BigQuery Storage) BigQuery (leitura/gravação) |
| Casos de uso | Tabelas de teste para cargas do BigQuery, tabelas legadas somente de consulta | Open lakehouse | Lakehouse aberto com armazenamento de alto desempenho e nível empresarial para análises avançadas, streaming e IA | Armazenamento de nível empresarial para análises avançadas, streaming e IA |
A seguir
- Saiba mais sobre o metastore do BigLake.