Principais conceitos

Este documento define os principais termos e conceitos do BigLake.

Conceitos básicos

Os conceitos a seguir formam a base da arquitetura do BigLake.

Data lakehouse

Um data lakehouse é uma arquitetura de dados que combina a relação custo-benefício e a flexibilidade de um data lake com as estruturas de gerenciamento e desempenho de dados de um data warehouse. O BigLake permite uma arquitetura de lakehouse, mantendo os dados em formatos abertos no Cloud Storage e usando recursos do BigQuery, como segurança refinada e consultas de alta performance. Para mais informações, consulte Como o BigLake funciona.

Interoperabilidade aberta

A interoperabilidade aberta é a capacidade de vários sistemas analíticos e transacionais, como BigQuery, Spark e Flink, operarem em uma única cópia de dados em formatos abertos, como o Apache Iceberg. Isso elimina a necessidade de duplicação de dados e garante uma visualização consistente dos dados em ferramentas diferentes. Para mais informações, consulte Como o BigLake funciona.

Metastore do BigLake

O metastore do BigLake é um serviço de metadados centralizado e sem servidor que atua como a única fonte de verdade para o lakehouse. Ele permite que vários mecanismos, como Spark, Flink e BigQuery, descubram e consultem as mesmas tabelas simultaneamente. Para mais informações, consulte Sobre o metastore do BigLake.

Tipos de catálogo

O metastore do BigLake oferece dois tipos diferentes de catálogos para gerenciar seus metadados. A escolha do catálogo é uma decisão fundamental que afeta a maneira como você interage com os dados.

Catálogo REST do Iceberg

Este é um catálogo baseado na especificação do catálogo REST do Apache Iceberg. Ele oferece interoperabilidade entre mecanismos de código aberto e o BigQuery, além de oferecer suporte a recursos como a venda de credenciais e a recuperação de desastres. Para mais informações, consulte Conceitos do catálogo REST do Apache Iceberg.

Catálogo personalizado do Iceberg para o BigQuery

Essa é uma integração que usa o BigQuery diretamente como o metastore de apoio. Para mais informações, consulte Federação de catálogos com o BigQuery.

Formatos de tabela

O BigLake oferece suporte a vários formatos de tabela, dependendo do mecanismo usado para gerenciar os dados.

Tabelas do BigLake Iceberg

São tabelas do Iceberg criadas em mecanismos de código aberto e armazenadas no Cloud Storage. O metastore do BigLake serve como o catálogo central. O mecanismo de código aberto que criou a tabela é o único que pode gravar nela. Para mais informações, consulte Introdução às tabelas do BigLake Iceberg para Apache Iceberg.

Tabelas do BigLake Iceberg no BigQuery

São tabelas do Iceberg criadas no BigQuery e armazenadas no Cloud Storage. O BigQuery processa todo o layout e a otimização de dados. Embora essas tabelas possam ser lidas por vários mecanismos, o BigQuery é o único que pode gravar diretamente nelas. Para mais informações, consulte Gerenciar tabelas do BigLake Iceberg no BigQuery.

Tabelas padrão do BigQuery

Essas tabelas são gerenciadas pelo BigQuery e armazenam dados no armazenamento do BigQuery. É possível conectar essas tabelas ao metastore do BigLake. Para mais informações, consulte Visão geral da tabela do BigLake.

Tabelas externas

As tabelas externas residem fora do metastore do BigLake. Os dados e metadados são autogerenciados em um catálogo de terceiros. O BigQuery só pode ler essas tabelas. Para mais informações, consulte Visão geral da tabela do BigLake.

Recursos de tabela

O BigLake oferece vários recursos que simplificam o gerenciamento de dados e melhoram o desempenho da consulta para tabelas do Iceberg.

Evolução da tabela

O BigLake oferece suporte à evolução da tabela do Iceberg, que permite mudar o esquema ou a especificação de partição de uma tabela ao longo do tempo sem reescrever os dados ou recriar a tabela. Para mais informações, consulte Outros recursos do metastore do BigLake.

Viagem no tempo

A viagem no tempo permite consultar os dados de uma tabela como eles existiam em um ponto específico no tempo ou ID de snapshot. Isso é útil para auditoria, reprodução de experimentos ou restauração de dados após uma exclusão acidental. Para mais informações, consulte Outros recursos do metastore do BigLake.

Armazenamento em cache de metadados

O armazenamento em cache de metadados é um recurso que acelera o desempenho da consulta para tabelas externas do BigLake. Ele armazena uma cópia dos metadados da tabela no armazenamento do BigQuery, reduzindo a necessidade de ler arquivos de metadados do Cloud Storage durante a execução da consulta. Para mais informações, consulte Visão geral da tabela do BigLake.

Manutenção automática de tabelas

A manutenção automática de tabelas simplifica o gerenciamento de lakehouse, automatizando tarefas como compactação e coleta de lixo para tabelas gerenciadas. Isso garante o desempenho ideal da consulta e a eficiência do armazenamento sem intervenção manual. Para mais informações, consulte Outros recursos do metastore do BigLake.

Conceitos de interoperabilidade

A interoperabilidade fornece acesso a dados em sistemas de código aberto. Google Cloud

Federação de catálogos

A federação de catálogos é um recurso do catálogo REST do Iceberg que permite gerenciar e consultar tabelas visíveis para o BigQuery, incluindo tabelas criadas com o catálogo personalizado do Iceberg. Para mais informações, consulte Federação de catálogos com o BigQuery.

Estrutura de nomenclatura P.C.N.T

A estrutura de nomenclatura P.C.N.T é a convenção de quatro partes usada para identificar e consultar tabelas de maneira exclusiva no metastore do BigLake no BigQuery. Ela significa Project.Catalog.Namespace.Table:

  • Projeto: oID do Google Cloud projeto
  • Catálogo: o nome do catálogo do metastore do BigLake
  • Namespace: o agrupamento lógico de tabelas (semelhante a um conjunto de dados)
  • Tabela: o nome da tabela de dados

Para mais informações, consulte Como consultar catálogos.

Conceitos de segurança

Os recursos de segurança fornecem mecanismos para gerenciamento de acesso e proteção de dados.

Conexões

Uma conexão é um recurso do BigQuery que armazena credenciais para acessar dados externos. No BigLake, as conexões delegam o acesso ao Cloud Storage, permitindo que a conta de serviço da conexão acesse o bucket de armazenamento em seu nome. Para mais informações, consulte Autenticação com o BigQuery.

Venda de credenciais

A venda de credenciais é um mecanismo de segurança que ajuda a reforçar o controle de acesso ao usar o catálogo REST do Iceberg. Quando ativado, o BigLake gera credenciais de curta duração e com escopo reduzido, projetadas para conceder acesso apenas aos caminhos de arquivo específicos necessários para uma consulta, em vez de transmitir o acesso genérico ao bucket para o Compute Engine. Isso ajuda a impedir que os usuários ignorem as políticas de segurança no nível da tabela para ler arquivos brutos diretamente. Para mais informações, consulte Sobre a venda de credenciais.

Governança unificada

A governança unificada permite definir e aplicar políticas de segurança e gerenciamento de dados de maneira centralizada por meio da integração com o Knowledge Catalog. Para mais informações, consulte IAM e controle de acesso.

Conceitos de confiabilidade

Os recursos de confiabilidade fornecem resiliência de dados e disponibilidade de catálogo.

Replicação entre regiões

A replicação entre regiões replica metadados em várias regiões para garantir a disponibilidade do catálogo durante interrupções regionais. Para mais informações, consulte Sobre a recuperação de desastres gerenciada.

Failover

O failover é o processo de alternância entre regiões primárias e secundárias durante uma interrupção regional para manter as operações do catálogo. Para mais informações, consulte Sobre a recuperação de desastres gerenciada.