O que é o Google Cloud Lakehouse?

O Google Cloud Lakehouse é um mecanismo de armazenamento de alta performance projetado para criar data lakehouses abertos. Ao integrar o formato de tabela aberta do Apache Iceberg com o armazenamento totalmente gerenciado e de nível empresarial no Google Cloud, ele oferece uma interface unificada para análise avançada e IA.

Ao separar o armazenamento da computação, o Google Cloud Lakehouse garante a interoperabilidade perfeita entre sistemas analíticos e transacionais. Essa arquitetura permite que vários mecanismos, incluindo Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, acessem uma única fonte de verdade, eliminando a duplicação de dados e garantindo insights consistentes.

Principais benefícios

  • Arquitetura sem servidor:o Google Cloud Lakehouse elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda.
  • Gerenciamento e governança de dados unificados: a integração com o Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos e permite pesquisa semântica, linhagem de dados e verificações de qualidade.
  • Extensões de armazenamento:o Google Cloud Lakehouse estende os recursos de gerenciamento do Cloud Storage para incluir recursos como o escalonamento automático e as chaves de criptografia gerenciadas pelo cliente (CMEK).
  • Experiência totalmente gerenciada:quando integrado ao BigQuery, o Google Cloud Lakehouse usa streaming de alta capacidade e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
  • Alta disponibilidade e recuperação de desastres: o Google Cloud Lakehouse oferece opções de replicação entre regiões e recuperação de desastres (prévia) para oferecer suporte à alta disponibilidade dos seus dados.

Casos de uso

  • Lakehouse aberto:use o Cloud Storage como a camada de armazenamento, e o Google Cloud Lakehouse fornece a interface de gerenciamento e governança para dados do Apache Iceberg.
  • Integração analítica e transacional: acesse tabelas analíticas do Apache Iceberg diretamente no AlloyDB para PostgreSQL (prévia) para combinar dados analíticos com cargas de trabalho transacionais.
  • Acesso unificado:permita que diferentes mecanismos (Apache Spark, Apache Flink, BigQuery) interajam com as mesmas tabelas do Apache Iceberg com metadados consistentes.

Interfaces de catálogo

O catálogo de ambiente de execução do Lakehouse é um serviço de metadados único que fornece várias interfaces (endpoints) para conectar seus dados no Cloud Storage e no BigQuery. Para mais informações, consulte Como o Google Cloud Lakehouse funciona.

  • Endpoint do catálogo REST do Apache Iceberg: fornece uma interface REST padrão para ampla compatibilidade com mecanismos de código aberto, como Apache Spark, Apache Flink e Trino. Essa é a interface recomendada para novas cargas de trabalho e oferece interoperabilidade completa de leitura/gravação.

  • Catálogo personalizado do Apache Iceberg para o endpoint do BigQuery:permite que os mecanismos interoperem diretamente com o catálogo do BigQuery. Essa interface é usada principalmente para tabelas do Apache Iceberg gerenciadas pelo BigQuery e cargas de trabalho atuais que estão fazendo a transição para a arquitetura do Google Cloud Lakehouse.

Interfaces e ferramentas

É possível interagir com os recursos do Google Cloud Lakehouse usando as seguintes ferramentas:

  • Google Cloud console: use o console para criar catálogos, visualizar propriedades de catálogo , visualizar registros de auditoria e configurar permissões.
  • SQL do BigQuery:use a DDL (linguagem de definição de dados) SQL padrão para criar e gerenciar tabelas do Apache Iceberg e tabelas externas integradas ao catálogo de ambiente de execução do Lakehouse.
  • Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o catálogo de ambiente de execução do Lakehouse para ler e gravar dados.
  • API do catálogo de ambiente de execução do Lakehouse:use o endpoint do catálogo REST do Apache Iceberg para interagir com o serviço usando ferramentas compatíveis com a especificação REST do Apache Iceberg aberto.

A seguir