BigLake Metastore è un servizio serverless completamente gestito che fornisce un'unica fonte attendibile per il tuo data lakehouse. Consente a più motori, tra cui Apache Spark, Apache Flink e BigQuery, di condividere tabelle e metadati senza copiare i file.
BigLake metastore supporta la delega dell'accesso allo spazio di archiviazione (distribuzione delle credenziali), che migliora la sicurezza eliminando la necessità di accedere direttamente al bucket Cloud Storage. Si integra anche con Dataplex Universal Catalog per una governance, una derivazione e una qualità dei dati unificate.
Funzionalità chiave
In quanto componente di BigLake, BigLake Metastore offre diversi vantaggi per la gestione e l'analisi dei dati, tra cui un'architettura serverless, l'interoperabilità del motore con API aperte, un'esperienza utente unificata e analisi, streaming e AI ad alte prestazioni se utilizzato con BigQuery. Per saperne di più su questi vantaggi, consulta Che cos'è BigLake?
Opzioni di configurazione
BigLake Metastore può essere configurato in due modi: con il catalogo REST di Iceberg o con il catalogo Iceberg personalizzato per BigQuery. L'opzione migliore dipende dal tuo caso d'uso, come mostrato nella tabella seguente:
| Caso d'uso | Consiglio |
|---|---|
| Nuovi utenti del metastore BigLake che vogliono che il motore open source acceda ai dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB per PostgreSQL. | Utilizza il catalogo REST di Iceberg. |
| Utenti del metastore BigLake esistenti che hanno tabelle attuali con il catalogo Iceberg personalizzato per BigQuery. | Continua a utilizzare il catalogo Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST di Iceberg per i nuovi flussi di lavoro. Le tabelle create con il catalogo Iceberg personalizzato per BigQuery sono visibili con il catalogo REST di Iceberg tramite la federazione dei cataloghi BigQuery. |
Differenze rispetto a BigLake Metastore (classico)
BigLake Metastore è il metastore consigliato su Google Cloud, mentre BigLake Metastore (classico) è considerato una funzionalità legacy.
Le principali differenze tra BigLake Metastore e BigLake Metastore (classico) includono quanto segue:
- BigLake Metastore supporta l'integrazione diretta con motori open source come Spark, il che contribuisce a ridurre la ridondanza quando memorizzi i metadati ed esegui i job. Le tabelle nel metastore BigLake sono direttamente accessibili da più motori open source e BigQuery.
- BigLake Metastore supporta il catalogo REST di Iceberg, mentre BigLake Metastore (classico) non lo supporta.
Limitazioni di BigLake Metastore
Alle tabelle nel metastore BigLake si applicano le seguenti limitazioni:
- Non puoi creare o modificare tabelle BigLake Iceberg con istruzioni BigQuery Data Definition Language (DDL) o Data Manipulation Language (DML). Puoi modificare le tabelle BigLake Iceberg utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
- Le tabelle BigLake Metastore non supportano le operazioni di ridenominazione o l'istruzione Spark SQL
ALTER TABLE ... RENAME TO. - Le tabelle del metastore BigLake in BigQuery sono soggette alle stesse quote e limiti delle tabelle standard.
- Le prestazioni delle query per le tabelle del metastore BigLake dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
- Un'esecuzione di prova di BigQuery di una query che utilizza una tabella BigLake Metastore potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
- Non puoi fare riferimento a una tabella metastore BigLake in una query tabella jolly.
- Non puoi utilizzare il metodo
tabledata.listper recuperare i dati dalle tabelle del metastore BigLake. Puoi invece salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodotabledata.listsu quella tabella. - Le tabelle BigLake Metastore non supportano il clustering.
- Le tabelle BigLake Metastore non supportano i nomi delle colonne flessibili.
- La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore BigLake non è supportata.
- Il metastore BigLake non supporta le viste Iceberg.
Passaggi successivi
- Esplora il catalogo REST di Iceberg.
- Esplora il catalogo Iceberg personalizzato per BigQuery.