O catálogo de ambientes de execução do Lakehouse é um serviço totalmente gerenciado e sem servidor que fornece uma única fonte de verdade para o data lakehouse. Ele permite que vários mecanismos, incluindo Apache Spark, Apache Flink e BigQuery, compartilhem tabelas e metadados sem copiar arquivos.
O catálogo de ambientes de execução do Lakehouse oferece suporte à delegação de acesso ao armazenamento (venda de credenciais), o que melhora a segurança, eliminando a necessidade de acesso direto ao bucket do Cloud Storage. Ele também se integra ao Knowledge Catalog para governança unificada , linhagem e qualidade de dados.
Principais recursos
Como um componente do Google Cloud Lakehouse, o catálogo de ambientes de execução do Lakehouse oferece várias vantagens para gerenciamento e análise de dados, incluindo uma arquitetura sem servidor, interoperabilidade de mecanismos com APIs abertas, uma experiência unificada do usuário e análises, streaming e IA de alta performance quando usado com o BigQuery. Para mais informações sobre esses benefícios, consulte O que é o Google Cloud Lakehouse?
Mecanismos compatíveis
O catálogo de ambientes de execução do Lakehouse é compatível com vários mecanismos de consulta, incluindo (mas não se limitando a) Apache Spark, Apache Flink e Trino. A tabela a seguir fornece links para a documentação de cada mecanismo:
| Mecanismo | Documentação |
|---|---|
| Apache Spark | Início rápido: usar com o Spark |
| Apache Flink | Usar com o Apache Flink |
| Trino | Usar com o Trino |
Opções de configuração
O catálogo de ambientes de execução do Lakehouse pode ser configurado de duas maneiras: com o endpoint do catálogo REST do Apache Iceberg ou o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery. A melhor opção depende do seu caso de uso, conforme mostrado na tabela a seguir:
| Caso de uso | Recomendação |
|---|---|
| Novos usuários do catálogo de ambientes de execução do Lakehouse que querem que o mecanismo de código aberto acesse dados no Cloud Storage e precisam de interoperabilidade com outros mecanismos, incluindo o BigQuery e o AlloyDB para PostgreSQL. | Use o endpoint do catálogo REST do Apache Iceberg. |
| Usuários atuais do catálogo de ambientes de execução do Lakehouse que têm tabelas criadas com o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery. | Continue usando o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery, mas use o catálogo REST do Apache Iceberg para novos fluxos de trabalho. As tabelas criadas com o catálogo personalizado do Apache Iceberg para o endpoint do BigQuery ficam visíveis com o catálogo REST do Apache Iceberg por meio da federação de catálogos do BigQuery. |
Diferenças com o metastore do BigLake (clássico)
O catálogo de ambientes de execução do Lakehouse é o metastore recomendado no Google Cloud, enquanto o metastore do BigLake (clássico) é considerado um recurso legado.
As principais diferenças entre o catálogo de ambientes de execução do Lakehouse e o metastore do BigLake (clássico) incluem o seguinte:
- O catálogo de ambientes de execução do Lakehouse oferece suporte a uma integração direta com mecanismos de código aberto, como o Spark, o que ajuda a reduzir a redundância ao armazenar metadados e executar jobs. As tabelas no catálogo de ambientes de execução do Lakehouse podem ser acessadas diretamente de vários mecanismos de código aberto e do BigQuery.
- O catálogo de ambientes de execução do Lakehouse oferece suporte ao endpoint do catálogo REST do Apache Iceberg, enquanto o metastore do BigLake (clássico) não.
Limitações do catálogo de ambientes de execução do Lakehouse
As seguintes limitações se aplicam a tabelas no catálogo de ambientes de execução do Lakehouse:
Gerenciamento de tabelas
- Não é possível criar ou modificar tabelas com o endpoint do catálogo REST do Apache Iceberg usando instruções de linguagem de definição de dados (DDL) ou linguagem de manipulação de dados (DML) do BigQuery. É possível modificar essas tabelas usando a API BigQuery (com a ferramenta de linha de comando bq ou bibliotecas de cliente), mas isso corre o risco de fazer mudanças incompatíveis com o mecanismo externo.
- As tabelas no catálogo de ambientes de execução do Lakehouse não oferecem suporte a operações de renomeação ou à instrução
ALTER TABLE ... RENAME TOSQL do Spark. - As tabelas no catálogo de ambientes de execução do Lakehouse não oferecem suporte a clustering.
- As tabelas no catálogo de ambientes de execução do Lakehouse não oferecem suporte a nomes de colunas flexíveis.
- O catálogo de ambientes de execução do Lakehouse não oferece suporte a visualizações do Apache Iceberg.
Consulta
- O desempenho da consulta para tabelas no catálogo de ambientes de execução do Lakehouse do mecanismo do BigQuery pode ser lento em comparação com a consulta de dados em tabelas padrão do BigQuery. Em geral, a velocidade da consulta deve ser equivalente à leitura de dados do Cloud Storage.
- Uma simulação do BigQuery de uma consulta que usa uma tabela no catálogo de ambientes de execução do Lakehouse pode relatar um limite inferior de 0 bytes de dados, mesmo que as linhas sejam retornadas. Esse resultado ocorre porque a quantidade de dados processados da tabela não pode ser determinada até que a consulta completa seja executada. A execução da consulta gera um custo para processar esses dados.
- Não é possível referenciar uma tabela no catálogo de ambientes de execução do Lakehouse em uma consulta de tabela curinga table.
API e metadados
- Não é possível usar o
tabledata.listmétodo para recuperar dados de tabelas no catálogo de ambientes de execução do Lakehouse. Em vez disso, é possível salvar os resultados da consulta em uma tabela do BigQuery e usar o métodotabledata.listnessa tabela. - A exibição de estatísticas de armazenamento de tabelas no catálogo de ambientes de execução do Lakehouse não é compatível.
Cotas e limites
- As tabelas no catálogo de ambientes de execução do Lakehouse no BigQuery estão sujeitas às mesmas cotas e limites das tabelas padrão.
A seguir
- Entenda o endpoint do catálogo REST do Apache Iceberg.