BigLake Metastore è un metastore unificato, gestito, serverless e scalabile che connette i dati del lakehouse archiviati in Google Cloud a più runtime, inclusi motori open source (come Apache Spark) e BigQuery. Fornisce le basi necessarie per creare una lakehouse aperta, gestita e ad alte prestazioni con gestione dei dati automatizzata e governance integrata utilizzando formati di tabella open source chiave, come Apache Iceberg.
Il metastore BigLake fornisce un'unica fonte attendibile per i metadati provenienti da più fonti, eliminando la necessità di copiare e sincronizzare dati e metadati tra diversi sistemi e repository di analisi con strumenti personalizzati. Supporta anche modelli di delega dell'accesso allo spazio di archiviazione, come la distribuzione delle credenziali, che elimina la necessità per gli utenti del catalogo di accedere direttamente ai bucket Cloud Storage.
Per i workflow che utilizzano tabelle BigLake Iceberg in BigQuery, BigLake Metastore è supportato anche con Dataplex Universal Catalog, che fornisce controlli dell'accesso unificati e granulari su tutti i motori supportati e consente una governance end-to-end che include funzionalità complete di derivazione, qualità dei dati e rilevabilità.
BigLake Metastore può essere configurato in due modi: con il catalogo REST di Iceberg o con il catalogo Iceberg personalizzato per BigQuery. L'opzione migliore dipende dal tuo caso d'uso, come mostrato nella tabella seguente:
| Caso d'uso | Consiglio |
|---|---|
| Nuovi utenti del metastore BigLake che vogliono che il motore open source acceda ai dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB. | Utilizza il catalogo REST di Iceberg. |
| Utenti del metastore BigLake esistenti che hanno tabelle attuali con il catalogo Iceberg personalizzato per BigQuery. | Continua a utilizzare il catalogo Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST di Iceberg per i nuovi flussi di lavoro. Le tabelle create con il catalogo Iceberg personalizzato per BigQuery sono visibili con il catalogo REST di Iceberg tramite la federazione. |
Funzionalità chiave
BigLake Metastore offre diversi vantaggi principali per la gestione e l'analisi dei dati:
- Architettura serverless. Il metastore BigLake fornisce un'architettura serverless, eliminando la necessità di gestire server o cluster. In questo modo si riduce l'overhead operativo, si semplifica la distribuzione e si consente la scalabilità automatica in base alla domanda.
- Interoperabilità del motore con API aperte. Il metastore BigLake supporta l'interoperabilità con motori open source e di terze parti. Il metastore BigLake ti consente di accedere direttamente alle tabelle tramite motori open source (come Spark e Flink) e BigQuery, consentendoti di eseguire query sulle tabelle in formato aperto senza passaggi di connessione aggiuntivi. Questa configurazione contribuisce a semplificare il flusso di lavoro di analisi e riduce la necessità di processi ETL o di spostamento dei dati complessi.
- Esperienza utente unificata. BigLake Metastore fornisce un flusso di lavoro unificato su motori open source e BigQuery. Questa esperienza unificata ti consente, ad esempio, di configurare ambienti Spark self-hosted, ospitati da Dataproc tramite il catalogo REST di Iceberg o in un notebook BigQuery.
- Analisi, streaming e AI ad alte prestazioni con BigQuery. BigLake Metastore ti consente di archiviare i dati Iceberg nei tuoi bucket Cloud Storage e sfruttare le funzionalità di gestione dei metadati in tempo reale e altamente scalabili di BigQuery. Questa architettura ti offre l'apertura e la proprietà dei dati di Cloud Storage, nonché le funzionalità di streaming, analisi e AI completamente gestite di BigQuery.
Differenze rispetto a BigLake Metastore (classico)
BigLake Metastore è il metastore consigliato su Google Cloud, mentre BigLake Metastore (classico) è considerato una funzionalità legacy.
Le principali differenze tra BigLake Metastore e BigLake Metastore (classico) includono quanto segue:
- BigLake Metastore supporta l'integrazione diretta con motori open source come Spark, il che contribuisce a ridurre la ridondanza quando memorizzi i metadati ed esegui i job. Le tabelle nel metastore BigLake sono accessibili direttamente da più motori open source e BigQuery.
- Il metastore BigLake supporta il catalogo REST Iceberg, mentre il metastore BigLake (classico) non lo supporta.
Limitazioni di BigLake Metastore
Alle tabelle nel metastore BigLake si applicano le seguenti limitazioni:
- Non puoi creare o modificare tabelle BigLake Iceberg con istruzioni BigQuery Data Definition Language (DDL) o Data Manipulation Language (DML). Puoi modificare le tabelle BigLake Iceberg utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
- Le tabelle del metastore BigLake non supportano le operazioni di ridenominazione o l'istruzione Spark SQL
ALTER TABLE ... RENAME TO. - Le tabelle del metastore BigLake in BigQuery sono soggette alle stesse quote e limiti delle tabelle standard.
- Le prestazioni delle query per le tabelle del metastore BigLake dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
- Una simulazione di BigQuery di una query che utilizza una tabella BigLake Metastore potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
- Non puoi fare riferimento a una tabella metastore BigLake in una query di tabella jolly.
- Non puoi utilizzare il
metodo
tabledata.listper recuperare i dati dalle tabelle del metastore BigLake. In alternativa, puoi salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodotabledata.listsu quella tabella. - Le tabelle BigLake Metastore non supportano il clustering.
- Le tabelle BigLake Metastore non supportano i nomi delle colonne flessibili.
- La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore BigLake non è supportata.
- Il metastore BigLake non supporta le viste Iceberg.
Passaggi successivi
- Esplora il catalogo REST di Iceberg.
- Esplora il catalogo Iceberg personalizzato per BigQuery.