O BigLake é um mecanismo de armazenamento que une Google Cloud e serviços de código aberto para criar uma interface unificada para análises avançadas e IA. Ele oferece a base para criar um lakehouse aberto, gerenciado e de alto desempenho com gerenciamento de dados automatizado e governança integrada usando o Apache Iceberg.
Ao separar o armazenamento da computação, o BigLake oferece interoperabilidade em todos os mecanismos compatíveis com o Iceberg, como Apache Spark, Apache Flink, Apache Hive, Trino ou BigQuery, o que garante uma visualização consistente dos seus dados.
Principais benefícios
- Arquitetura sem servidor:o BigLake elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda.
- Gerenciamento e governança de dados unificados:a integração com o Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos e permite pesquisa semântica, linhagem de dados e verificações de qualidade.
- Extensões de armazenamento:o BigLake estende os recursos de gerenciamento do Cloud Storage para incluir recursos como o escalonamento automático e as chaves de criptografia gerenciadas pelo cliente (CMEK).
- Experiência totalmente gerenciada:quando integrado ao BigQuery, o BigLake usa streaming de alta capacidade e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
- Alta disponibilidade e recuperação de desastres: o BigLake oferece opções de replicação entre regiões e recuperação de desastres (versão prévia) para oferecer suporte à alta disponibilidade dos seus dados.
Casos de uso
- Lakehouse aberto:use o Cloud Storage como camada de armazenamento, e o BigLake fornece a interface de gerenciamento e governança para dados do Iceberg.
- Integração analítica e transacional:acesse tabelas analíticas do BigLake Iceberg diretamente no AlloyDB para PostgreSQL (versão prévia) para combinar dados analíticos com cargas de trabalho transacionais.
- Acesso unificado:permita que diferentes mecanismos (Spark, Flink, BigQuery) interajam com as mesmas tabelas do Iceberg com metadados consistentes.
Interfaces de catálogo
O metastore do BigLake oferece duas interfaces de catálogo principais para conectar seus dados no Cloud Storage e no BigQuery. Para mais informações, consulte Como o BigLake funciona.
Catálogo REST do Apache Iceberg: oferece uma interface REST padrão para maior compatibilidade com mecanismos e ferramentas de código aberto. Essa é a interface recomendada para novas cargas de trabalho.
Saiba como começar a usar esse catálogo REST do Apache Iceberg com o guia de início rápido, Usar o metastore do BigLake com o Spark e o BigQuery usando o Iceberg catálogo REST.
Catálogo personalizado do Apache Iceberg para BigQuery:permite que mecanismos como o Spark interoperem com o BigQuery. Essa interface é compatível com cargas de trabalho atuais.
Interfaces e ferramentas
É possível interagir com os recursos do BigLake usando as seguintes ferramentas:
- O Google Cloud console: use o console para criar catálogos, visualizar propriedades de catálogo , visualizar registros de auditoria e configurar permissões.
- SQL do BigQuery:use a DDL (linguagem de definição de dados) SQL padrão para criar e gerenciar tabelas do BigLake Iceberg.
- Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o metastore do BigLake para ler e gravar dados.
- API do metastore do BigLake:use uma API REST compatível com a especificação do catálogo REST do Iceberg.
A seguir
- Entenda a arquitetura: leia Como o BigLake funciona.