Sobre o catálogo de tempo de execução do Lakehouse

O catálogo de ambientes de execução do Lakehouse é um serviço totalmente gerenciado e sem servidor que oferece uma única fonte de verdade para o data lakehouse. Ele permite que vários mecanismos, incluindo Apache Spark, Apache Flink e BigQuery, compartilhem tabelas e metadados sem copiar arquivos.

O catálogo de ambientes de execução do Lakehouse oferece suporte à delegação de acesso ao armazenamento (venda de credenciais), o que melhora a segurança, eliminando a necessidade de acesso direto ao bucket do Cloud Storage. Ele também se integra ao Knowledge Catalog para governança unificada , linhagem e qualidade de dados.

Principais recursos

Como um componente do Google Cloud Lakehouse, o catálogo de ambientes de execução do Lakehouse oferece várias vantagens para gerenciamento e análise de dados, incluindo uma arquitetura sem servidor, interoperabilidade de mecanismos com APIs abertas, uma experiência unificada do usuário e análises, streaming e IA de alta performance quando usado com o BigQuery. Para mais informações sobre esses benefícios, consulte O que é o Google Cloud Lakehouse?

Mecanismos compatíveis

O catálogo de ambientes de execução do Lakehouse é compatível com vários mecanismos de consulta, incluindo (mas não se limitando a) Apache Spark, Apache Flink e Trino. A tabela a seguir fornece links para a documentação de cada mecanismo:

Mecanismo Documentação
Apache Spark Início rápido: usar com o Spark
Apache Flink Usar com o Apache Flink
Trino Usar com o Trino

Opções de configuração

O catálogo de ambientes de execução do Lakehouse pode ser configurado de duas maneiras: com o endpoint do catálogo REST do Apache Iceberg ou o *catálogo personalizado do Apache Iceberg para o endpoint do BigQuery. A melhor opção depende do seu caso de uso, conforme mostrado na tabela a seguir:

Caso de uso Recomendação
Novos usuários do catálogo de ambientes de execução do Lakehouse que querem que o mecanismo de código aberto acesse dados no Cloud Storage e precisam de interoperabilidade com outros mecanismos, incluindo o BigQuery e o AlloyDB para PostgreSQL. Use o endpoint do catálogo REST do Apache Iceberg.
Usuários atuais do catálogo de ambientes de execução do Lakehouse que têm tabelas atuais com o catálogo personalizado do Apache Iceberg para o BigQuery. Continue usando o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery, mas use o catálogo REST do Apache Iceberg para novos fluxos de trabalho. As tabelas criadas com o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery ficam visíveis com o catálogo REST do Apache Iceberg pela federação de catálogos do BigQuery.

Diferenças com o metastore do BigLake (clássico)

O catálogo de ambientes de execução do Lakehouse é o metastore recomendado no Google Cloud, enquanto o metastore do BigLake (clássico) é considerado um recurso legado.

As principais diferenças entre o catálogo de ambientes de execução do Lakehouse e o metastore do BigLake (clássico) incluem o seguinte:

  • O catálogo de ambientes de execução do Lakehouse oferece suporte a uma integração direta com mecanismos de código aberto, como o Spark, o que ajuda a reduzir a redundância ao armazenar metadados e executar jobs. As tabelas no catálogo de ambientes de execução do Lakehouse podem ser acessadas diretamente de vários mecanismos de código aberto e do BigQuery.
  • O catálogo de ambientes de execução do Lakehouse oferece suporte ao endpoint do catálogo REST do Apache Iceberg, enquanto o metastore do BigLake (clássico) não.

Limitações do catálogo de ambientes de execução do Lakehouse

As seguintes limitações se aplicam a tabelas no catálogo de ambientes de execução do Lakehouse:

Gerenciamento de tabelas

  • Não é possível criar ou modificar tabelas do catálogo REST do Lakehouse Iceberg com instruções de linguagem de definição de dados (DDL, na sigla em inglês) ou linguagem de manipulação de dados (DML, na sigla em inglês) do BigQuery. É possível modificar tabelas do catálogo REST do Lakehouse Iceberg usando a API BigQuery (com a ferramenta de linha de comando bq ou bibliotecas de cliente), mas isso corre o risco de fazer mudanças incompatíveis com o mecanismo externo.
  • As tabelas do catálogo de ambientes de execução do Lakehouse não oferecem suporte a operações de renomeação ou à instrução ALTER TABLE ... RENAME TO do Spark SQL.
  • As tabelas do catálogo de ambientes de execução do Lakehouse não oferecem suporte a clustering.
  • As tabelas do catálogo de ambientes de execução do Lakehouse não oferecem suporte a nomes de colunas flexíveis.
  • O catálogo de ambientes de execução do Lakehouse não oferece suporte a visualizações do Apache Iceberg.

Consulta

  • O desempenho da consulta para tabelas do catálogo de ambientes de execução do Lakehouse do mecanismo do BigQuery pode ser lento em comparação com a consulta de dados em tabelas padrão do BigQuery. Em geral, a velocidade da consulta precisa ser equivalente à leitura de dados do Cloud Storage.
  • Uma simulação do BigQuery de uma consulta que usa uma tabela do catálogo de ambientes de execução do Lakehouse pode relatar um limite inferior de 0 bytes de dados, mesmo que as linhas sejam retornadas. Esse resultado ocorre porque a quantidade de dados processados da tabela não pode ser determinada até que a consulta completa seja executada. A execução da consulta gera um custo para processar esses dados.
  • Não é possível referenciar uma tabela do catálogo de ambientes de execução do Lakehouse em uma consulta de tabela curinga de tabela.

API e metadados

  • Não é possível usar o tabledata.list método para recuperar dados de tabelas do catálogo de ambientes de execução do Lakehouse. Em vez disso, é possível salvar os resultados da consulta em uma tabela do BigQuery e usar o método tabledata.list nessa tabela.
  • A exibição de estatísticas de armazenamento de tabelas para tabelas do catálogo de ambientes de execução do Lakehouse não é compatível.

Cotas e limites

  • As tabelas do catálogo de ambientes de execução do Lakehouse no BigQuery estão sujeitas a às mesmas cotas e limites que as tabelas padrão.

A seguir