Como o BigLake funciona

Nesta página, descrevemos a arquitetura técnica do BigLake, fornecemos detalhes sobre como as consultas são processadas e como o metastore do BigLake oferece suporte à interoperabilidade entre mecanismos.

Arquitetura

Um data lakehouse criado com o BigLake consiste nos seguintes componentes:

  • Armazenamento:o Cloud Storage e o armazenamento do BigQuery servem como camada de armazenamento, com o Apache Iceberg como o formato de tabela aberta recomendado para o Cloud Storage.
  • Metastore:o metastore do BigLake oferece uma única fonte de verdade para gerenciar metadados em vários mecanismos.
  • Mecanismo de consulta:o BigQuery, o Apache Spark, o Apache Flink, o Trino e outros mecanismos de código aberto são compatíveis com o BigLake.
  • Governança:o Dataplex Universal Catalog oferece políticas centralizadas de segurança e governança.
  • Ferramentas de análise e gravação de dados:os mecanismos e as ferramentas integrados ao BigLake oferecem vários caminhos para ingestão e análise de dados.

Hierarquia de recursos

O BigLake organiza os dados usando a hierarquia padrão do Apache Iceberg. Essa estrutura mapeia conceitos lógicos de banco de dados para caminhos de armazenamento físico.

  1. Serviço de metastore:o recurso regional de nível superior em Google Cloud.
  2. Catálogo:um contêiner para agrupar bancos de dados, que correspondem a projetos.
  3. Namespace:um agrupamento lógico de tabelas. No BigQuery, isso é mapeado para um conjunto de dados.
  4. Tabela:a entidade específica que aponta para dados no Cloud Storage. Os metadados da tabela contêm informações como o esquema da tabela, informações de particionamento, propriedades personalizadas e um ponteiro para o estado atual da tabela em um arquivo metadata.json.

Sequência de processamento de consultas

Quando você envia uma consulta a uma tabela do BigLake, a solicitação segue um caminho específico para aplicar políticas antes da leitura dos dados.

  1. Solicitação:você envia uma consulta SQL a um mecanismo (por exemplo, o Spark).
  2. Pesquisa de metadados:o mecanismo envia uma solicitação ao metastore do BigLake para resolver a tabela.
  3. Autenticação e política:o metastore autentica você e verifica as permissões.
  4. Resposta:o metastore retorna os metadados e, opcionalmente, um token de armazenamento para o mecanismo. Os tokens de armazenamento só são usados quando a venda de credenciais está ativada.
  5. Leitura:o mecanismo usa o token para ler arquivos diretamente do armazenamento.
  6. Computação:o mecanismo processa os dados e retorna os resultados.

Metastore do BigLake

O metastore do BigLake é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele oferece uma única fonte de verdade para metadados de várias origens e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, o que elimina a necessidade de sincronizar metadados entre diferentes repositórios.

O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e oferece suporte à governança de ponta a ponta com linhagem, qualidade de dados e capacidade de descoberta.

Tipos de tabela

Ao criar um lakehouse no BigLake, você tem várias opções para o formato e o gerenciamento das tabelas:

  • Tabelas do BigLake Iceberg:tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage.
  • Tabelas do BigLake Iceberg no BigQuery:tabelas do Iceberg criadas no BigQuery. Os metadados dessas tabelas são armazenados no catálogo do BigQuery e só podem ser acessados pela federação do catálogo do BigQuery. Já os dados da tabela e os metadados físicos são armazenados no Cloud Storage.
  • Tabelas padrão do BigQuery:tabelas totalmente gerenciadas pelo BigQuery que podem ser conectadas ao metastore do BigLake.
  • Tabelas externas:tabelas fora do metastore do BigLake em que os dados e metadados são autogerenciados.

Para uma comparação detalhada dessas opções, consulte a Visão geral da tabela.

A seguir