O que é o BigLake?

O BigLake é um mecanismo de armazenamento que une Google Cloud e serviços de código aberto para criar uma interface unificada para análises avançadas e IA. Ele oferece a base para criar um lakehouse aberto, gerenciado e de alto desempenho com gerenciamento de dados automatizado e governança integrada usando o Apache Iceberg.

Ao desacoplar o armazenamento do computação, o BigLake oferece interoperabilidade em todos os mecanismos compatíveis com o Iceberg, como Apache Spark, Apache Flink, Apache Hive, Trino ou BigQuery, o que garante uma visualização consistente dos seus dados.

Principais vantagens

  • Arquitetura sem servidor:o BigLake elimina a necessidade de gerenciamento de servidores ou clusters, reduzindo a sobrecarga operacional e escalonando automaticamente com base na demanda.
  • Governança e gerenciamento de dados unificados:a integração com o Dataplex Universal Catalog garante a definição e a aplicação centralizadas de políticas de governança em vários mecanismos, além de permitir pesquisa semântica, linhagem de dados e verificações de qualidade.
  • Extensões de armazenamento:o BigLake amplia os recursos de gerenciamento do Cloud Storage para incluir recursos como escalonamento automático da classe de armazenamento e chaves de criptografia gerenciadas pelo cliente (CMEK).
  • Experiência totalmente gerenciada:quando integrado ao BigQuery, o BigLake usa streaming de alta capacidade de processamento e gerenciamento de metadados em tempo real para oferecer uma experiência totalmente gerenciada de streaming, análise e IA.
  • Alta disponibilidade e recuperação de desastres:o BigLake oferece opções de replicação entre regiões e recuperação de desastres (pré-lançamento) para oferecer alta disponibilidade dos seus dados.

Casos de uso

  • Lakehouse aberto:use o Cloud Storage como camada de armazenamento, e o BigLake fornece a interface de gerenciamento e governança para dados do Iceberg.
  • Integração analítica e transacional:acesse tabelas analíticas do BigLake Iceberg diretamente no AlloyDB para PostgreSQL (pré-lançamento) para combinar dados analíticos com cargas de trabalho transacionais.
  • Acesso unificado:permite que diferentes mecanismos (Spark, Flink, BigQuery) interajam com as mesmas tabelas do Iceberg com metadados consistentes.

Interfaces de catálogo

O metastore do BigLake oferece duas interfaces de catálogo principais para conectar seus dados no Cloud Storage e no BigQuery. Para mais informações, consulte Como o BigLake funciona.

  • Catálogo REST do Apache Iceberg:oferece uma interface REST padrão para maior compatibilidade com mecanismos e ferramentas de código aberto. Essa é a interface recomendada para novas cargas de trabalho.

    Aprenda a começar a usar esse catálogo REST do Apache Iceberg com o guia de início rápido Usar o BigLake Metastore com o Spark e o BigQuery usando o catálogo REST do Iceberg.

  • Catálogo personalizado do Apache Iceberg para BigQuery:permite que mecanismos como o Spark interoperem com o BigQuery. Essa interface é compatível com cargas de trabalho atuais.

Interfaces e ferramentas

É possível interagir com recursos do BigLake usando as seguintes ferramentas:

  • O consoleGoogle Cloud : use o console para criar catálogos, ver propriedades e registros de auditoria e configurar permissões.
  • SQL do BigQuery:use a DDL (linguagem de definição de dados) SQL padrão para criar e gerenciar tabelas do BigLake Iceberg.
  • Mecanismos de código aberto:use mecanismos como Apache Spark, Apache Flink e Apache Hive com o metastore do BigLake para ler e gravar dados.
  • API BigLake Metastore:use uma API REST compatível com a especificação do catálogo REST do Iceberg.

A seguir