O que é o BigLake?

O BigLake é um mecanismo de armazenamento que une Google Cloud e serviços de código aberto para criar uma interface unificada para análises avançadas e IA. Ele oferece a base para criar um lakehouse aberto, gerenciado e de alto desempenho com gerenciamento de dados automatizado e governança integrada usando o Apache Iceberg.

Ao separar o armazenamento da computação, o BigLake oferece interoperabilidade em todos os mecanismos compatíveis com o Iceberg, como Apache Spark, Apache Flink, Apache Hive, Trino ou BigQuery, o que garante uma visualização consistente dos seus dados.

Principais benefícios

  • Arquitetura sem servidor:o BigLake elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda.
  • Gerenciamento e governança de dados unificados:a integração com o Knowledge Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos e permite pesquisa semântica, linhagem de dados e verificações de qualidade.
  • Extensões de armazenamento:o BigLake estende os recursos de gerenciamento do Cloud Storage para incluir recursos como o escalonamento automático e as chaves de criptografia gerenciadas pelo cliente (CMEK).
  • Experiência totalmente gerenciada:quando integrado ao BigQuery, o BigLake usa streaming de alta capacidade e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
  • Alta disponibilidade e recuperação de desastres: o BigLake oferece opções de replicação entre regiões e recuperação de desastres (versão prévia) para oferecer suporte à alta disponibilidade dos seus dados.

Casos de uso

  • Lakehouse aberto:use o Cloud Storage como camada de armazenamento, e o BigLake fornece a interface de gerenciamento e governança para dados do Iceberg.
  • Integração analítica e transacional:acesse tabelas analíticas do BigLake Iceberg diretamente no AlloyDB para PostgreSQL (versão prévia) para combinar dados analíticos com cargas de trabalho transacionais.
  • Acesso unificado:permita que diferentes mecanismos (Spark, Flink, BigQuery) interajam com as mesmas tabelas do Iceberg com metadados consistentes.

Interfaces de catálogo

O metastore do BigLake oferece duas interfaces de catálogo principais para conectar seus dados no Cloud Storage e no BigQuery. Para mais informações, consulte Como o BigLake funciona.

  • Catálogo REST do Apache Iceberg: oferece uma interface REST padrão para maior compatibilidade com mecanismos e ferramentas de código aberto. Essa é a interface recomendada para novas cargas de trabalho.

    Saiba como começar a usar esse catálogo REST do Apache Iceberg com o guia de início rápido, Usar o metastore do BigLake com o Spark e o BigQuery usando o Iceberg catálogo REST.

  • Catálogo personalizado do Apache Iceberg para BigQuery:permite que mecanismos como o Spark interoperem com o BigQuery. Essa interface é compatível com cargas de trabalho atuais.

Interfaces e ferramentas

É possível interagir com os recursos do BigLake usando as seguintes ferramentas:

  • O Google Cloud console: use o console para criar catálogos, visualizar propriedades de catálogo , visualizar registros de auditoria e configurar permissões.
  • SQL do BigQuery:use a DDL (linguagem de definição de dados) SQL padrão para criar e gerenciar tabelas do BigLake Iceberg.
  • Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o metastore do BigLake para ler e gravar dados.
  • API do metastore do BigLake:use uma API REST compatível com a especificação do catálogo REST do Iceberg.

A seguir