Este documento define os principais termos e conceitos do Google Cloud Lakehouse.
Esta página não é uma lista exaustiva de recursos, mas sim uma referência geral de termos e conceitos usados em toda a documentação do Google Cloud Lakehouse.
Conceitos básicos
Os conceitos a seguir formam a base da arquitetura do Google Cloud Lakehouse.
Data lakehouse do Google Cloud
Um data lakehouse reúne a economia de custos e a flexibilidade de um data lake com o gerenciamento e o desempenho de dados de um data warehouse. Ele permite armazenar dados em formatos abertos no Cloud Storage e usar recursos do BigQuery, como controles de segurança precisos e consultas rápidas.
Interoperabilidade aberta
A interoperabilidade aberta é a capacidade de vários sistemas analíticos e transacionais, como o BigQuery, o Apache Spark e o Apache Flink, operarem em uma única cópia de dados em formatos abertos, como o Apache Iceberg. Isso elimina a necessidade de duplicação de dados e garante uma visualização consistente dos dados em ferramentas diferentes.
Catálogo de ambiente de execução do Lakehouse
O catálogo de ambiente de execução do Lakehouse é um serviço de metadados centralizado e sem servidor que atua como a única fonte de informações do Google Cloud Lakehouse. Ele permite que vários mecanismos, como o Apache Spark, o Apache Flink e o BigQuery, descubram e consultem as mesmas tabelas simultaneamente.
Tipos de catálogo
O catálogo de ambiente de execução do Lakehouse oferece diferentes tipos de catálogos para gerenciar seus metadados.
Endpoint do catálogo REST do Apache Iceberg
Este é um catálogo baseado no endpoint do catálogo REST do Apache Iceberg. Ele oferece interoperabilidade entre mecanismos de código aberto e o BigQuery, além de oferecer suporte a recursos como a venda de credenciais e a recuperação de desastres.
Catálogo personalizado do Apache Iceberg para o BigQuery
Essa é uma integração que usa o catálogo do BigQuery diretamente como o serviço de metadados de apoio para tabelas gerenciadas do Apache Iceberg.
Formatos de tabela
O Google Cloud Lakehouse oferece suporte a vários formatos de tabela, dependendo do mecanismo usado para gerenciar os dados.
Tabelas do catálogo REST do Lakehouse Iceberg
Essas são tabelas do Apache Iceberg criadas em mecanismos de código aberto e armazenadas no Cloud Storage. O catálogo de ambiente de execução do Lakehouse serve como o catálogo central. O mecanismo de código aberto que criou a tabela é o único que pode gravar nela.
Tabelas do BigQuery
Essas tabelas são gerenciadas com o BigQuery.
Tabelas do Apache Iceberg
Essas são tabelas do Apache Iceberg que você cria no BigQuery e armazena no Cloud Storage. O BigQuery processa todo o layout e a otimização de dados. Embora essas tabelas possam ser lidas por vários mecanismos, o BigQuery é o único que pode gravar diretamente nelas.
Tabelas nativas
Essas tabelas são gerenciadas pelo BigQuery e armazenam dados no armazenamento do BigQuery. É possível conectar essas tabelas ao catálogo de ambiente de execução do Lakehouse.
Tabelas externas
As tabelas externas residem fora do catálogo de ambiente de execução do Lakehouse. Os dados e metadados são autogerenciados em um catálogo de terceiros (como o Cloud Storage, o S3 ou o Armazenamento de Blobs do Azure). O BigQuery só pode ler essas tabelas.
Recursos da tabela
Evolução da tabela
O Google Cloud Lakehouse oferece suporte à evolução da tabela do Apache Iceberg, que permite mudar o esquema ou a especificação de partição de uma tabela ao longo do tempo sem reescrever os dados ou recriar a tabela.
Viagem no tempo
A viagem no tempo permite consultar os dados de uma tabela como eles existiam em um momento específico ou ID de snapshot. Isso é útil para auditoria, reprodução de experimentos ou restauração de dados após uma exclusão acidental.
Armazenamento em cache de metadados
O armazenamento em cache de metadados é um recurso que acelera o desempenho de consultas para tabelas externas. Ele armazena uma cópia dos metadados da tabela no armazenamento do BigQuery, reduzindo a necessidade de ler arquivos de metadados do Cloud Storage durante a execução da consulta.
Gerenciamento de tabelas do Google Cloud Lakehouse
O gerenciamento de tabelas do Google Cloud Lakehouse simplifica a manutenção do lakehouse automatizando tarefas como compactação e coleta de lixo para tabelas gerenciadas. Isso garante o desempenho ideal da consulta e a eficiência do armazenamento.
Conceitos de interoperabilidade
Federação de catálogo de ambiente de execução do Lakehouse
A federação de catálogo é um recurso que permite que o catálogo de ambiente de execução do Lakehouse gerencie e consulte tabelas de catálogos externos, como o AWS Glue ou o Unity Catalog, que estão visíveis para o BigQuery.
Estrutura de nomenclatura P.C.N.T
A estrutura de nomenclatura P.C.N.T é a convenção de quatro partes usada para identificar e consultar tabelas de maneira exclusiva no catálogo de ambiente de execução do Lakehouse no BigQuery. Ela significa Project.Catalog.Namespace.Table:
- Projeto: o Google Cloud ID do projeto.
- Catálogo: o nome do catálogo de ambiente de execução do Lakehouse.
- Namespace: o agrupamento lógico de tabelas (semelhante a um conjunto de dados).
- Tabela: o nome da tabela de dados.
Conceitos de segurança
Conexões
Uma conexão é um recurso do BigQuery que armazena credenciais para acessar dados externos. No Google Cloud Lakehouse, as conexões delegam o acesso ao Cloud Storage, permitindo que a conta de serviço da conexão acesse o bucket de armazenamento em seu nome.
Venda de credenciais
A venda de credenciais é um mecanismo de segurança que ajuda a reforçar o controle de acesso ao usar o catálogo de ambiente de execução do Lakehouse. Quando ativado, o serviço gera credenciais de curta duração e com escopo reduzido, projetadas para conceder acesso apenas aos caminhos de arquivo específicos necessários para uma consulta.
Governança unificada
A governança unificada permite definir e aplicar políticas de segurança e gerenciamento de dados de maneira centralizada por meio da integração com o Knowledge Catalog.
Conceitos de confiabilidade
Replicação entre regiões
A replicação entre regiões replica metadados em várias regiões para garantir a disponibilidade do catálogo durante interrupções regionais.
Failover
O failover é o processo de alternância entre regiões primárias e secundárias durante uma interrupção regional para manter as operações do catálogo.