Nesta página, descrevemos a arquitetura técnica do BigLake, fornecemos detalhes sobre como as consultas são processadas e como o metastore do BigLake oferece suporte à interoperabilidade entre mecanismos.
Arquitetura
Um data lakehouse criado com o BigLake consiste nos seguintes componentes:
- Armazenamento:o Cloud Storage e o armazenamento do BigQuery servem como camada de armazenamento, com o Apache Iceberg como o formato de tabela aberta recomendado para o Cloud Storage.
- Metastore:o metastore do BigLake oferece uma única fonte de verdade para gerenciar metadados em vários mecanismos.
- Mecanismo de consulta:o BigQuery, o Apache Spark, o Apache Flink, o Trino e outros mecanismos de código aberto são compatíveis com o BigLake.
- Governança:o Dataplex Universal Catalog oferece políticas centralizadas de segurança e governança.
- Ferramentas de análise e gravação de dados:os mecanismos e as ferramentas integrados ao BigLake oferecem vários caminhos para ingestão e análise de dados.
Hierarquia de recursos
O BigLake organiza os dados usando a hierarquia padrão do Apache Iceberg. Essa estrutura mapeia conceitos lógicos de banco de dados para caminhos de armazenamento físico.
- Serviço de metastore:o recurso regional de nível superior em Google Cloud.
- Catálogo:um contêiner para agrupar bancos de dados, que correspondem a projetos.
- Namespace:um agrupamento lógico de tabelas. No BigQuery, isso é mapeado para um conjunto de dados.
- Tabela:a entidade específica que aponta para dados no Cloud Storage.
Os metadados da tabela contêm informações como o esquema da tabela, informações de particionamento, propriedades personalizadas e um ponteiro para o estado atual da tabela em um arquivo
metadata.json.
Sequência de processamento de consultas
Quando você envia uma consulta a uma tabela do BigLake, a solicitação segue um caminho específico para aplicar políticas antes da leitura dos dados.
- Solicitação:você envia uma consulta SQL a um mecanismo (por exemplo, o Spark).
- Pesquisa de metadados:o mecanismo envia uma solicitação ao metastore do BigLake para resolver a tabela.
- Autenticação e política:o metastore autentica você e verifica as permissões.
- Resposta:o metastore retorna os metadados e, opcionalmente, um token de armazenamento para o mecanismo. Os tokens de armazenamento só são usados quando a venda de credenciais está ativada.
- Leitura:o mecanismo usa o token para ler arquivos diretamente do armazenamento.
- Computação:o mecanismo processa os dados e retorna os resultados.
Metastore do BigLake
O metastore do BigLake é um metastore totalmente gerenciado e sem servidor para seu lakehouse no Google Cloud. Ele oferece uma única fonte de verdade para metadados de várias origens e pode ser acessado no BigQuery e em vários mecanismos de processamento de dados abertos, o que elimina a necessidade de sincronizar metadados entre diferentes repositórios.
O metastore do BigLake é compatível com o Dataplex Universal Catalog, que oferece controles de acesso unificados e refinados em todos os mecanismos compatíveis e oferece suporte à governança de ponta a ponta com linhagem, qualidade de dados e capacidade de descoberta.
Tipos de tabela
Ao criar um lakehouse no BigLake, você tem várias opções para o formato e o gerenciamento das tabelas:
- Tabelas do BigLake Iceberg:tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage.
- Tabelas do BigLake Iceberg no BigQuery:tabelas do Iceberg criadas no BigQuery. Os metadados dessas tabelas são armazenados no catálogo do BigQuery e só podem ser acessados pela federação do catálogo do BigQuery. Já os dados da tabela e os metadados físicos são armazenados no Cloud Storage.
- Tabelas padrão do BigQuery:tabelas totalmente gerenciadas pelo BigQuery que podem ser conectadas ao metastore do BigLake.
- Tabelas externas:tabelas fora do metastore do BigLake em que os dados e metadados são autogerenciados.
Para uma comparação detalhada dessas opções, consulte a Visão geral da tabela.