Il metastore BigLake è un servizio serverless completamente gestito che fornisce un'unica fonte di verità per il tuo data lakehouse. Consente a più motori, tra cui Apache Spark, Apache Flink e BigQuery, di condividere tabelle e metadati senza copiare i file.
Il metastore BigLake supporta la delega dell'accesso allo spazio di archiviazione (distribuzione delle credenziali), il che migliora la sicurezza eliminando la necessità di accedere direttamente al bucket Cloud Storage. Si integra anche con Dataplex Universal Catalog per la governance, la derivazione e la qualità dei dati unificate.
Funzionalità principali
Come componente di BigLake, il metastore BigLake offre diversi vantaggi per la gestione dei dati e l'analisi, tra cui un'architettura serverless, l'interoperabilità dei motori con le API aperte, un'esperienza utente unificata e analisi, streaming e AI ad alte prestazioni quando viene utilizzato con BigQuery. Per saperne di più su questi vantaggi, consulta Che cos'è BigLake?
Motori supportati
Il metastore BigLake è compatibile con diversi motori di query, tra cui (a titolo esemplificativo) Apache Spark, Apache Flink e Trino. La seguente tabella fornisce link alla documentazione per ogni motore:
| Motore | Documentazione |
|---|---|
| Apache Spark | Guida rapida: utilizzare con Spark |
| Apache Flink | Utilizzare con Apache Flink |
| Trino | Utilizzare con Trino |
Opzioni di configurazione
Il metastore BigLake può essere configurato in due modi: con il catalogo REST Iceberg o con il catalogo Iceberg personalizzato per BigQuery. L'opzione migliore dipende dal tuo caso d'uso, come mostrato nella seguente tabella:
| Caso d'uso | Suggerimento |
|---|---|
| Nuovi utenti del metastore BigLake che vogliono che il motore open source acceda dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB per PostgreSQL. | Utilizza il catalogo REST Iceberg. |
| Utenti esistenti del metastore BigLake che hanno tabelle attuali con il catalogo Iceberg personalizzato per BigQuery. | Continua a utilizzare il catalogo Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST Iceberg per i nuovi flussi di lavoro. Le tabelle create con il catalogo Iceberg personalizzato per BigQuery sono visibili con il catalogo REST Iceberg tramite la federazione del catalogo BigQuery. |
Differenze rispetto al metastore BigLake (versione classica)
Il metastore BigLake è il metastore consigliato su Google Cloud, mentre il metastore BigLake (versione classica) è considerato una funzionalità legacy.
Le principali differenze tra il metastore BigLake e il metastore BigLake (versione classica) includono le seguenti:
- Il metastore BigLake supporta un'integrazione diretta con i motori open source come Spark, il che contribuisce a ridurre la ridondanza quando archivi i metadati ed esegui i job. Le tabelle nel metastore BigLake sono accessibili direttamente da più motori open source e BigQuery.
- Il metastore BigLake supporta il catalogo REST Iceberg, mentre il metastore BigLake (versione classica) non lo supporta.
Limitazioni del metastore BigLake
Le seguenti limitazioni si applicano alle tabelle nel metastore BigLake:
- Non puoi creare o modificare le tabelle BigLake Iceberg con le istruzioni DDL (Data Definition Language) o DML (Data Manipulation Language) di BigQuery. Puoi modificare le tabelle BigLake Iceberg utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
- Le tabelle del metastore BigLake non supportano le operazioni di ridenominazione o l'istruzione Spark SQL
ALTER TABLE ... RENAME TO. - Le tabelle del metastore BigLake in BigQuery sono soggette alle stesse quote e agli stessi limiti delle tabelle standard.
- Le prestazioni delle query per le tabelle del metastore BigLake dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
- Un'esecuzione di prova di BigQuery di una query che utilizza una tabella del metastore BigLake potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
- Non puoi fare riferimento a una tabella del metastore BigLake in una query di tabella con caratteri jolly .
- Non puoi utilizzare il
tabledata.listmetodo per recuperare i dati dalle tabelle del metastore BigLake. In alternativa, puoi salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodotabledata.listsu quella tabella. - Le tabelle del metastore BigLake non supportano il clustering.
- Le tabelle del metastore BigLake non supportano nomi di colonne flessibili.
- La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore BigLake non è supportata.
- Il metastore BigLake non supporta le viste Iceberg.
Passaggi successivi
- Esplora il catalogo REST Iceberg.
- Esplora il catalogo Iceberg personalizzato per BigQuery.