Principais conceitos

Este documento define os principais termos e conceitos do BigLake.

Esta página não é uma lista exaustiva de recursos, mas sim uma referência geral de termos e conceitos usados em toda a documentação do BigLake.

Conceitos básicos

Os conceitos a seguir formam a base da arquitetura do BigLake.

Data lakehouse

Um data lakehouse é uma arquitetura de dados que combina a eficiência de custo e a flexibilidade de um data lake com as estruturas de gerenciamento e desempenho de dados de um data warehouse. O BigLake permite uma arquitetura de data lakehouse ao manter os dados em formatos abertos no Cloud Storage e usar recursos do BigQuery, como segurança refinada e consultas de alto desempenho.

Interoperabilidade aberta

A interoperabilidade aberta é a capacidade de vários sistemas analíticos e transacionais, como BigQuery, Spark e Flink, operarem em uma única cópia de dados em formatos abertos, como o Apache Iceberg. Isso elimina a necessidade de duplicação de dados e garante uma visão consistente dos dados em ferramentas diferentes.

metastore do BigLake

O metastore do BigLake é um serviço de metadados centralizado e sem servidor que atua como a única fonte de verdade para seu lakehouse. Ele permite que vários mecanismos, como Spark, Flink e BigQuery, descubram e consultem as mesmas tabelas simultaneamente.

Tipos de catálogo

O metastore do BigLake oferece dois tipos diferentes de catálogos para gerenciar seus metadados. A escolha do catálogo é uma decisão fundamental que afeta a maneira como você interage com seus dados.

Catálogo REST do Iceberg

É um catálogo baseado na especificação do catálogo REST do Apache Iceberg. Ele oferece interoperabilidade entre mecanismos de código aberto e o BigQuery, além de oferecer suporte a recursos como venda de credenciais e recuperação de desastres.

Catálogo personalizado do Iceberg para o BigQuery

Essa é uma integração que usa o BigQuery diretamente como o metastore de backup.

Formatos de tabela

O BigLake é compatível com vários formatos de tabela, dependendo do mecanismo usado para gerenciar os dados.

Tabelas do BigLake Iceberg no BigQuery

São tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. O BigQuery processa todo o layout e a otimização dos dados. Embora essas tabelas possam ser lidas por vários mecanismos, o BigQuery é o único que pode gravar diretamente nelas.

Tabelas do BigLake Iceberg

São tabelas do Iceberg criadas com mecanismos de código aberto e armazenadas no Cloud Storage. O metastore do BigLake serve como o catálogo central. O mecanismo de código aberto que criou a tabela é o único que pode gravar nela.

Tabelas padrão do BigQuery

Essas tabelas são gerenciadas pelo BigQuery e armazenam dados no armazenamento do BigQuery. É possível conectar essas tabelas ao BigLake Metastore.

Tabelas externas

As tabelas externas ficam fora do metastore do BigLake. Os dados e metadados são autogerenciados em um catálogo de terceiros. O BigQuery só pode ler essas tabelas.

Recursos de tabela

O BigLake oferece vários recursos que simplificam o gerenciamento de dados e melhoram o desempenho da consulta para tabelas do Iceberg.

Evolução da tabela

O BigLake oferece suporte à evolução de tabelas do Iceberg, o que permite mudar o esquema ou a especificação de partição de uma tabela ao longo do tempo sem reescrever os dados ou recriar a tabela.

Viagem no tempo

Com a viagem no tempo, é possível consultar os dados de uma tabela como eles existiam em um momento específico ou ID de snapshot. Isso é útil para auditoria, reprodução de experimentos ou restauração de dados após uma exclusão acidental.

Armazenamento em cache de metadados

O cache de metadados é um recurso que acelera o desempenho da consulta para tabelas externas do BigLake. Ele armazena uma cópia dos metadados da tabela no armazenamento do BigQuery, reduzindo a necessidade de ler arquivos de metadados do Cloud Storage durante a execução da consulta.

Manutenção automática de tabelas

A manutenção automática de tabelas simplifica o gerenciamento do lakehouse ao automatizar tarefas como compactação e coleta de lixo para tabelas gerenciadas. Isso garante o desempenho ideal da consulta e a eficiência do armazenamento sem intervenção manual.

Conceitos de interoperabilidade

A interoperabilidade oferece acesso a dados em Google Cloud e sistemas de código aberto.

Federação de catálogos

A federação de catálogos é um recurso do catálogo REST do Iceberg que permite gerenciar e consultar tabelas visíveis para o BigQuery, incluindo tabelas criadas com o catálogo personalizado do Iceberg.

Estrutura de nomenclatura P.C.N.T

A estrutura de nomenclatura P.C.N.T é a convenção de quatro partes usada para identificar e consultar tabelas de maneira exclusiva no metastore do BigLake no BigQuery. Ele significa Project.Catalog.Namespace.Table:

  • Projeto: o ID do projeto Google Cloud
  • Catálogo: o nome do catálogo do BigLake Metastore
  • Namespace: o agrupamento lógico de tabelas (semelhante a um conjunto de dados).
  • Tabela: o nome da tabela de dados

Conceitos de segurança

Os recursos de segurança oferecem mecanismos para gerenciamento de acesso e proteção de dados.

Conexões

Uma conexão é um recurso do BigQuery que armazena credenciais para acessar dados externos. No BigLake, as conexões delegam o acesso ao Cloud Storage permitindo que a conta de serviço da conexão acesse o bucket de armazenamento em seu nome.

Fornecimento de credenciais

A venda de credenciais é um mecanismo de segurança que ajuda a restringir o controle de acesso ao usar o catálogo REST do Iceberg. Quando ativado, o BigLake gera credenciais de curta duração e escopo reduzido projetadas para conceder acesso apenas aos caminhos de arquivo específicos necessários para uma consulta, em vez de transmitir acesso genérico ao bucket para o Compute Engine. Isso ajuda a evitar que os usuários ignorem as políticas de segurança no nível da tabela para ler arquivos brutos diretamente.

Governança unificada

Com a governança unificada, é possível definir e aplicar políticas de segurança e gerenciamento de dados de maneira centralizada por meio da integração com o Dataplex Universal Catalog.

Conceitos de confiabilidade

Os recursos de confiabilidade oferecem resiliência de dados e disponibilidade de catálogo.

Replicação entre regiões

A replicação entre regiões replica metadados em várias regiões para garantir a disponibilidade do catálogo durante interrupções regionais.

Failover

O failover é o processo de alternar entre regiões primárias e secundárias durante uma interrupção regional para manter as operações do catálogo.