Che cos'è BigLake?

BigLake è un motore di archiviazione che unisce Google Cloud e servizi open source per creare un'interfaccia unificata per l'analisi avanzata e l'AI. Fornisce le basi per creare una lakehouse aperta, gestita e ad alte prestazioni con gestione dei dati automatizzata e governance integrata utilizzando Apache Iceberg.

Separando l'archiviazione dal calcolo, BigLake offre l'interoperabilità tra tutti i motori compatibili con Iceberg, come Apache Spark, Apache Flink, Apache Hive, Trino o BigQuery, garantendo una visualizzazione coerente dei dati.

Vantaggi principali

  • Architettura serverless: BigLake elimina la necessità di gestire server o cluster, riducendo l'overhead operativo e scalando automaticamente in base alla domanda.
  • Gestione e governance dei dati unificate: l'integrazione con Dataplex Universal Catalog garantisce la definizione e l'applicazione centralizzate delle policy di governance su più motori e consente la ricerca semantica, la derivazione dei dati e i controlli di qualità.
  • Estensioni di archiviazione:BigLake estende le funzionalità di gestione di Cloud Storage per includere funzionalità come il tiering automatico e le chiavi di crittografia gestite dal cliente (CMEK).
  • Esperienza completamente gestita:se integrato con BigQuery, BigLake utilizza lo streaming a throughput elevato e la gestione dei metadati in tempo reale per fornire un'esperienza di streaming, analisi e AI completamente gestita.
  • Alta disponibilità e ripristino di emergenza:BigLake offre opzioni per la replica tra regioni e il ripristino di emergenza (anteprima) per supportare l'alta disponibilità dei dati.

Casi d'uso

  • Lakehouse aperta:utilizza Cloud Storage come livello di archiviazione e BigLake fornisce l'interfaccia di gestione e governance per i dati Iceberg.
  • Integrazione analitica e transazionale:accedi alle tabelle BigLake Iceberg analitiche direttamente in AlloyDB per PostgreSQL (anteprima) per combinare i dati analitici con i workload transazionali.
  • Accesso unificato:consente a diversi motori (Spark, Flink, BigQuery) di interagire con le stesse tabelle Iceberg con metadati coerenti.

Interfacce del catalogo

BigLake Metastore fornisce due interfacce di catalogo principali per connettere i dati in Cloud Storage e BigQuery. Per saperne di più, consulta Come funziona BigLake.

  • Catalogo REST di Apache Iceberg:fornisce un'interfaccia REST standard per una maggiore compatibilità con motori e strumenti open source. Questa è l'interfaccia consigliata per i nuovi workload.

    Scopri come iniziare a utilizzare questo catalogo REST di Apache Iceberg con la guida rapida Utilizzare BigLake Metastore con Spark e BigQuery utilizzando il catalogo REST di Iceberg.

  • Catalogo Apache Iceberg personalizzato per BigQuery:consente a motori come Spark di interagire con BigQuery. Questa interfaccia è supportata per i carichi di lavoro esistenti.

Interfacce e strumenti

Puoi interagire con le risorse BigLake utilizzando i seguenti strumenti:

  • La consoleGoogle Cloud : utilizza la console per creare cataloghi, visualizzare le proprietà dei cataloghi, visualizzare i log di controllo e configurare le autorizzazioni.
  • BigQuery SQL:utilizza DDL (Data Definition Language) SQL standard per creare e gestire tabelle BigLake Iceberg.
  • Motori open source:utilizza motori come Apache Spark, Apache Flink e Apache Hive con BigLake Metastore per leggere e scrivere dati.
  • API BigLake Metastore:utilizza un'API REST compatibile con la specifica del catalogo REST Iceberg.

Passaggi successivi