Como o BigLake funciona

Nesta página, descrevemos a arquitetura técnica do BigLake, fornecemos detalhes sobre como as consultas são processadas e como o metastore do BigLake oferece suporte à interoperabilidade entre mecanismos.

Arquitetura

Um data lakehouse criado com o BigLake consiste nos seguintes componentes:

Armazenamento:o Cloud Storage e o armazenamento do BigQuery servem como camada de armazenamento, com o Apache Iceberg como o formato de tabela aberta recomendado para o Cloud Storage.
Metastore:o metastore do BigLake oferece uma única fonte de verdade para gerenciar metadados em vários mecanismos.
Mecanismo de consulta:o BigQuery, o Apache Spark, o Apache Flink, o Trino e outros mecanismos de código aberto são compatíveis com o BigLake.
Governança:o Dataplex Universal Catalog oferece políticas centralizadas de segurança e governança.
Ferramentas de análise e gravação de dados:os mecanismos e as ferramentas integrados ao BigLake oferecem vários caminhos para ingestão e análise de dados.

Hierarquia de recursos

O BigLake organiza os dados usando a hierarquia padrão do Apache Iceberg. Essa estrutura mapeia conceitos lógicos de banco de dados para caminhos de armazenamento físico.

Serviço de metastore:o recurso regional de nível superior em Google Cloud.
Catálogo:um contêiner para agrupar bancos de dados, que correspondem a projetos.
Namespace:um agrupamento lógico de tabelas. No BigQuery, isso é mapeado para um conjunto de dados.
Tabela:a entidade específica que aponta para dados no Cloud Storage. Os metadados da tabela contêm informações como o esquema da tabela, informações de particionamento, propriedades personalizadas e um ponteiro para o estado atual da tabela em um arquivo metadata.json.

Sequência de processamento de consultas

Quando você envia uma consulta a uma tabela do BigLake, a solicitação segue um caminho específico para aplicar políticas antes da leitura dos dados.

Solicitação:você envia uma consulta SQL a um mecanismo (por exemplo, o Spark).
Pesquisa de metadados:o mecanismo envia uma solicitação ao metastore do BigLake para resolver a tabela.
Autenticação e política:o metastore autentica você e verifica as permissões.
Resposta:o metastore retorna os metadados e, opcionalmente, um token de armazenamento para o mecanismo. Os tokens de armazenamento só são usados quando a venda de credenciais está ativada.
Leitura:o mecanismo usa o token para ler arquivos diretamente do armazenamento.
Computação:o mecanismo processa os dados e retorna os resultados.

Metastore do BigLake

O metastore do BigLake é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele oferece uma única fonte de verdade para metadados de várias origens e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, o que elimina a necessidade de sincronizar metadados entre diferentes repositórios.

O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e oferece suporte à governança de ponta a ponta com linhagem, qualidade de dados e capacidade de descoberta.

Tipos de tabela

Ao criar um lakehouse no BigLake, você tem várias opções para o formato e o gerenciamento das tabelas:

Tabelas do BigLake Iceberg:tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage.
Tabelas do BigLake Iceberg no BigQuery:tabelas do Iceberg criadas no BigQuery. Os metadados dessas tabelas são armazenados no catálogo do BigQuery e só podem ser acessados pela federação do catálogo do BigQuery. Já os dados da tabela e os metadados físicos são armazenados no Cloud Storage.
Tabelas padrão do BigQuery:tabelas totalmente gerenciadas pelo BigQuery que podem ser conectadas ao metastore do BigLake.
Tabelas externas:tabelas fora do metastore do BigLake em que os dados e metadados são autogerenciados.

Para uma comparação detalhada dessas opções, consulte a Visão geral da tabela.

A seguir

Comece a usar Usar o metastore do BigLake com o Spark e o BigQuery e o catálogo REST do Iceberg.

Como o BigLake funciona Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.