Desde 20 de abril de 2026, o BigLake agora é chamado de Lakehouse para Apache Iceberg. O metastore do BigLake agora é chamado de catálogo do ambiente de execução do Lakehouse. As APIs do data lakehouse, as bibliotecas de cliente, os comandos da CLI e os nomes do IAM permanecem inalterados e ainda fazem referência ao BigLake.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

O que é o Lakehouse para Apache Iceberg?

O Lakehouse para Apache Iceberg é um mecanismo de armazenamento de alta performance projetado para criar data lakehouses abertos. Ao integrar o formato de tabela aberta do Apache Iceberg com o armazenamento totalmente gerenciado e de nível empresarial no Google Cloud, ele oferece uma interface unificada para análises avançadas e IA.

Para gerenciar metadados de tabelas abertas, o Lakehouse para Apache Iceberg usa o catálogo do ambiente de execução do Lakehouse. Esse serviço de metadados sem servidor e totalmente gerenciado oferece uma única fonte de verdade em sistemas diferentes, centralizando a descoberta e eliminando a necessidade de sincronizar metadados entre repositórios diferentes.

Ao separar o armazenamento da computação, o Lakehouse do Google Cloud garante a interoperabilidade perfeita entre sistemas analíticos e transacionais. Essa arquitetura permite que vários mecanismos, incluindo Apache Spark, Apache Flink, Apache Hive, Trino e BigQuery, acessem uma única fonte de verdade, eliminando a duplicação de dados e garantindo insights consistentes.

Principais vantagens

Arquitetura sem servidor:o Lakehouse do Google Cloud elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda. Para cargas de trabalho de computação, as sessões interativas e em lote sem servidor removem a disputa de recursos entre jobs e automatizam a manutenção da infraestrutura.
Gerenciamento e governança de dados unificados: a integração com Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos e permite pesquisa semântica, linhagem de dados e verificações de qualidade.
Extensões de armazenamento:o Lakehouse do Google Cloud estende os recursos de gerenciamento do Cloud Storage para incluir recursos como o escalonamento automático e as chaves de criptografia gerenciadas pelo cliente (CMEK).
Experiência totalmente gerenciada:quando integrado ao BigQuery, o Lakehouse do Google Cloud oferece uma experiência de análise e IA totalmente gerenciada.
Alta disponibilidade e recuperação de desastres: o Lakehouse do Google Cloud oferece opções de replicação entre regiões e recuperação de desastres (pré-lançamento) para oferecer alta disponibilidade dos seus dados.

Casos de uso

Lakehouse aberto:use o Cloud Storage como a camada de armazenamento, e o Lakehouse do Google Cloud fornece a interface de gerenciamento e governança para dados do Apache Iceberg.
Integração analítica e transacional: acesse tabelas analíticas do Apache Iceberg diretamente no AlloyDB para PostgreSQL (pré-lançamento) para combinar dados analíticos com cargas de trabalho transacionais.
Acesso unificado:permita que diferentes mecanismos (Apache Spark, Apache Flink, BigQuery) interajam com as mesmas tabelas do Apache Iceberg com metadados consistentes.
Análise e IA entre nuvens: use o Lakehouse entre nuvens (pré-lançamento) para sincronizar metadados de outros provedores de nuvem, permitindo consultar dados com o BigQuery ou mecanismos de código aberto externos pelo endpoint do catálogo REST do Apache Iceberg, tudo sem migrar os dados.
Exploração de conjuntos de dados públicos:consulte facilmente conjuntos de dados públicos de alta qualidade usando o endpoint do catálogo REST do Apache Iceberg sem gerenciar a infraestrutura.
Metastore Hive: conecte mecanismos de código aberto, como Apache Spark e Apache Hive, ao catálogo do ambiente de execução do Lakehouse usando o catálogo Hive (pré-lançamento). Isso elimina a sobrecarga operacional de manter um Metastore Hive (HMS) auto-hospedado, permitindo o compartilhamento de dados e consultas de tabelas diretas no BigQuery.

Interfaces e ferramentas

É possível interagir com os recursos do Lakehouse do Google Cloud usando as seguintes ferramentas:

Google Cloud Console: use o console para criar catálogos, conferir propriedades do catálogo , visualizar registros de auditoria e configurar permissões.
SQL do BigQuery:use a DDL (Linguagem de Definição de Dados) do SQL padrão para criar e gerenciar tabelas do Apache Iceberg e tabelas externas integradas ao catálogo do ambiente de execução do Lakehouse.
Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o catálogo do ambiente de execução do Lakehouse para ler e gravar dados.
IDEs e notebooks:use notebooks interativos do Apache Spark e extensões de IDE, como a extensão do Data Agent Kit (DAK) para VS Code, para fazer a autenticação no Google Cloud, criar código de forma interativa e gerenciar sessões de notebook diretamente no ambiente de desenvolvimento.
Ferramentas de orquestração e MLOps:integre pipelines em lote sem servidor e operações de catálogo com fluxos de trabalho de orquestração usando o Serviço Gerenciado para Apache Airflow (antigo Cloud Composer) e os pipelines do Kubeflow na Vertex AI.
API do catálogo do ambiente de execução do Lakehouse:use o endpoint do catálogo REST do Apache Iceberg para interagir com o serviço usando ferramentas compatíveis com a especificação REST aberta do Apache Iceberg.
Suporte a tabelas do Apache Iceberg:as tabelas V2 do Apache Iceberg (disponibilidade geral) e V3 (pré-lançamento) são compatíveis. As tabelas V1 do Iceberg não são compatíveis.

A seguir

Entenda a arquitetura do Lakehouse do Google Cloud.

O que é o Lakehouse para Apache Iceberg? Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Principais vantagens

Casos de uso

Interfaces e ferramentas

A seguir

O que é o Lakehouse para Apache Iceberg?