Panoramica di BigLake

BigLake è un motore di archiviazione che unisce Google Cloud e servizi open source per creare un'interfaccia unificata per l'analisi avanzata e l'AI. Fornisce le basi necessarie per creare una lakehouse aperta, gestita e ad alte prestazioni con gestione dei dati automatizzata e governance integrata utilizzando Apache Iceberg.

BigLake consente l'interoperabilità tra tutti i motori compatibili con Iceberg, come Apache Spark o BigQuery, offrendoti una visione coerente dei tuoi dati. Estende inoltre le funzionalità di gestione di Cloud Storage, che includono funzionalità come il tiering automatico delle classi, la crittografia e le chiavi di crittografia gestite dal cliente nei bucket di archiviazione. Inoltre, l'integrazione integrata con Dataplex Universal Catalog garantisce che le policy di governance siano definite centralmente e vengano applicate in modo coerente su più motori, consentendo al contempo la ricerca semantica, la derivazione dei dati, la profilazione e i controlli di qualità.

BigLake offre anche la possibilità di un'esperienza Iceberg completamente gestita quando è integrato con BigQuery. Sfruttando le funzionalità di gestione dei metadati in tempo reale e altamente scalabili di BigQuery, ottieni il meglio di entrambi i mondi: apertura e proprietà dei dati, insieme ad analisi, streaming e AI ad alte prestazioni.

Architettura

Una data lakehouse creata con BigLake è composta dai seguenti componenti:

  • Funzionalità di archiviazione. Cloud Storage con Apache Iceberg come formato di tabella aperto consigliato.
  • Un metastore. BigLake Metastore è un metastore unificato, gestito, serverless e scalabile che fornisce un'unica fonte attendibile per la gestione dei metadati su più motori.
  • Un motore di query. BigQuery, Apache Spark, Apache Flink, Trino e altri motori open source sono tutti compatibili con BigLake.
  • Uno strumento per la scrittura e l'analisi dei dati. BigQuery, Spark, Flink, Trino e altri strumenti open source si integrano con BigLake per fornire una serie di percorsi per la scrittura e l'analisi.

BigLake raggruppa tutti questi componenti in un'unica esperienza con una governance uniforme. Per saperne di più sull'architettura e sulle innovazioni di BigLake, consulta BigLake si è evoluto.

BigLake Metastore

BigLake Metastore è un metastore completamente gestito e serverless per il tuo lakehouse su Google Cloud. Fornisce un'unica fonte attendibile per i metadati provenienti da più origini ed è accessibile da BigQuery e da vari motori di elaborazione dei dati open source, eliminando la necessità di copiare e sincronizzare i metadati tra diversi repository con strumenti personalizzati.

BigLake Metastore è supportato da Dataplex Universal Catalog, che fornisce controlli dell'accesso unificati e granulari su tutti i motori supportati e consente una governance end-to-end che include funzionalità complete di derivazione, qualità e rilevabilità dei dati.

Formati di tabella

Quando crei una lakehouse su BigLake, hai le seguenti opzioni per il formato delle tabelle:

  • Le tabelle BigLake Iceberg in BigQuery sono tabelle Iceberg che crei da BigQuery e archivi in Cloud Storage. Come tutte le tabelle che utilizzano il metastore BigLake, possono essere lette da motori open source e BigQuery. Tuttavia, BigQuery è l'unico motore che può scrivere direttamente al loro interno. Questa opzione è la migliore se vuoi che il flusso di lavoro di estrazione, trasformazione e caricamento (ETL) sia completamente gestito da BigQuery.
  • Le tabelle BigLake Iceberg sono tabelle Iceberg che crei da motori open source e archivi in Cloud Storage. Come tutte le tabelle che utilizzano BigLake Metastore, possono essere lette da motori open source e BigQuery. Tuttavia, solo il motore open source che ha creato la tabella può scriverci. Questa opzione è la migliore se vuoi che il flusso di lavoro ETL venga gestito dal motore open source.
  • Le tabelle BigQuery standard sono completamente gestite da BigQuery e dispongono delle funzionalità di analisi e gestione dei dati più avanzate. Puoi comunque connettere queste tabelle a BigLake Metastore. Questa opzione è ideale per le tabelle non Iceberg.
  • Le tabelle esterne sono tabelle che si trovano al di fuori del metastore BigLake. I dati e i metadati di queste tabelle sono completamente autogestiti, in quanto ti affidi completamente alle funzionalità dei formati di tabelle aperti (come Iceberg, Apache Hudi o Delta Lake). BigQuery ha solo la possibilità di leggere da queste tabelle. Scegli questa opzione per i dati e i metadati che vuoi gestire autonomamente in un catalogo di terze parti.

Utilizza il seguente grafico per confrontare le opzioni di formato della tabella:

Tabelle esterne Tabelle BigLake Iceberg Tabelle BigLake Iceberg in BigQuery Tabelle BigQuery standard
Metastore Metastore esterno o self-hosted BigLake Metastore BigLake Metastore BigQuery
Spazio di archiviazione Cloud Storage / Amazon S3 / Azure Cloud Storage Cloud Storage BigQuery
Ottimizzazione dello spazio di archiviazione Gestito dal cliente o da terze parti Gestito dal cliente o da terze parti Gestita da Google Gestita da Google
Lettura / scrittura Motori open source (lettura/scrittura)

BigQuery (sola lettura)
Motori open source (lettura/scrittura)

BigQuery (sola lettura)
Motori open source (sola lettura con librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)

BigQuery (lettura/scrittura)

Motori open source (interoperabilità di lettura/scrittura con l'API BigQuery Storage)

BigQuery (lettura/scrittura)

Casi d'uso Tabelle di gestione temporanea per i caricamenti BigQuery, tabelle legacy di sola query Open lakehouse Lakehouse aperto con spazio di archiviazione ad alte prestazioni di livello aziendale per analisi, streaming e AI avanzati Spazio di archiviazione di livello aziendale per analisi avanzata, streaming e AI

Passaggi successivi