As of April 20th, 2026, BigLake is now called Google Cloud Lakehouse. BigLake metastore is now called the Lakehouse runtime catalog. Lakehouse APIs, client libraries, CLI commands, and IAM names remain unchanged and still reference BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O que é o Google Cloud Lakehouse?

O Google Cloud Lakehouse é um mecanismo de armazenamento de alta performance projetado para criar data lakehouses abertos. Ao integrar o formato de tabela aberta do Apache Iceberg com o armazenamento totalmente gerenciado e de nível empresarial noGoogle Cloud, ele oferece uma interface unificada para análises avançadas e IA.

Ao separar o armazenamento da computação, o data lakehouse do Google Cloud garante a interoperabilidade perfeita entre sistemas analíticos e transacionais. Essa arquitetura permite que vários mecanismos, incluindo Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, acessem uma única fonte de verdade, eliminando a duplicação de dados e garantindo insights consistentes.

Principais vantagens

Arquitetura sem servidor:o data lakehouse do Google Cloud elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e fazendo o escalonamento automático com base na demanda.
Gerenciamento e governança de dados unificados:a integração com o Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos, além de permitir pesquisa semântica, linhagem de dados e verificações de qualidade.
Extensões de armazenamento:o Google Cloud Lakehouse amplia os recursos de gerenciamento do Cloud Storage para incluir recursos como escalonamento automático de classes e chaves de criptografia gerenciadas pelo cliente (CMEK).
Experiência totalmente gerenciada:quando integrado ao BigQuery, o data lakehouse do Google Cloud usa streaming de alta capacidade e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
Alta disponibilidade e recuperação de desastres:o Google Cloud Lakehouse oferece opções de replicação entre regiões e recuperação de desastres (prévia) para oferecer alta disponibilidade dos seus dados.

Casos de uso

Lakehouse aberto:use o Cloud Storage como a camada de armazenamento, e o Google Cloud Lakehouse fornece a interface de gerenciamento e governança para dados do Apache Iceberg.
Integração analítica e transacional:acesse tabelas analíticas do Apache Iceberg diretamente no AlloyDB para PostgreSQL (prévia) para combinar dados analíticos com cargas de trabalho transacionais.
Acesso unificado:permite que diferentes mecanismos (Apache Spark, Apache Flink, BigQuery) interajam com as mesmas tabelas do Apache Iceberg com metadados consistentes.
Análise e IA entre nuvens:use o Cross-cloud Lakehouse (prévia) para consultar dados em outros provedores de nuvem diretamente do Google Cloud sem exigir migração de dados.
Exploração de conjuntos de dados públicos:consulte facilmente conjuntos de dados públicos de alta qualidade usando o endpoint do catálogo REST do Apache Iceberg sem gerenciar a infraestrutura.

Interfaces de catálogo

O catálogo de ambientes de execução do Lakehouse é um serviço de metadados único que oferece várias interfaces (endpoints) para conectar seus dados no Cloud Storage e no BigQuery. Para mais informações, consulte Como o Google Cloud Lakehouse funciona.

Endpoint do catálogo REST do Apache Iceberg:oferece uma interface REST padrão para ampla compatibilidade com mecanismos de código aberto, como Apache Spark, Apache Flink e Trino. Essa é a interface recomendada para novas cargas de trabalho e oferece interoperabilidade completa de leitura/gravação.

Dica: comece com o guia de início rápido Usar o catálogo de ambientes de execução do Lakehouse com Apache Spark e BigQuery usando o endpoint do catálogo REST do Apache Iceberg.
Catálogo personalizado do Apache Iceberg para endpoint do BigQuery:permite que os mecanismos interoperem diretamente com o catálogo do BigQuery. Essa interface é usada principalmente para tabelas gerenciadas do Apache Iceberg do BigQuery e cargas de trabalho atuais que estão fazendo a transição para a arquitetura de data lakehouse do Google Cloud.

Interfaces e ferramentas

É possível interagir com os recursos do Google Cloud Lakehouse usando as seguintes ferramentas:

Google Cloud console: use o console para criar catálogos, ver propriedades e registros de auditoria e configurar permissões.
SQL do BigQuery:use a DDL (linguagem de definição de dados) do SQL padrão para criar e gerenciar tabelas do Apache Iceberg e tabelas externas integradas ao catálogo de tempo de execução do Lakehouse.
Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o catálogo de tempo de execução do Lakehouse para ler e gravar dados.
API do catálogo de tempo de execução do Lakehouse:use o endpoint do catálogo REST do Apache Iceberg para interagir com o serviço usando ferramentas compatíveis com a especificação REST do Apache Iceberg aberto.

A seguir

Entenda a arquitetura do data lakehouse do Google Cloud.