Il metastore BigLake è un servizio completamente gestito e serverless che fornisce un'unica fonte di verità per il tuo data lakehouse. Consente a più motori, tra cui Apache Spark, Apache Flink e BigQuery, di condividere tabelle e metadati senza copiare i file.
Il metastore BigLake supporta la delega dell'accesso allo spazio di archiviazione (distribuzione delle credenziali), il che migliora la sicurezza eliminando la necessità di accedere direttamente al bucket Cloud Storage. Si integra anche con Dataplex Universal Catalog per la governance, la derivazione e la qualità dei dati unificate.
Funzionalità principali
Come componente di BigLake, il metastore BigLake offre diversi vantaggi per la gestione e l'analisi dei dati, tra cui un'architettura serverless, l'interoperabilità dei motori con le API aperte, un'esperienza utente unificata e analisi, streaming e AI ad alte prestazioni quando viene utilizzato con BigQuery. Per saperne di più su questi vantaggi, consulta Che cos'è BigLake?
Motori supportati
Il metastore BigLake è compatibile con diversi motori di query, tra cui (ma non solo) Apache Spark, Apache Flink e Trino. La seguente tabella fornisce link alla documentazione per ogni motore:
| Motore | Documentazione |
|---|---|
| Apache Spark | Guida rapida: utilizzare con Spark |
| Apache Flink | Utilizzare con Apache Flink |
| Trino | Utilizzare con Trino |
Opzioni di configurazione
Il metastore BigLake può essere configurato in due modi: con il catalogo REST Iceberg o con il catalogo Iceberg personalizzato per BigQuery. L'opzione migliore dipende dal tuo caso d'uso, come mostrato nella tabella seguente:
| Caso d'uso | Consiglio |
|---|---|
| Nuovi utenti del metastore BigLake che vogliono che il loro motore open source acceda dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB per PostgreSQL. | Utilizza il catalogo REST Iceberg. |
| Utenti esistenti del metastore BigLake che hanno tabelle correnti con il catalogo Iceberg personalizzato per BigQuery. | Continua a utilizzare il catalogo Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST Iceberg per i nuovi flussi di lavoro. Le tabelle create con il catalogo Iceberg personalizzato per BigQuery sono visibili con il catalogo REST Iceberg tramite la federazione dei cataloghi BigQuery. |
Differenze rispetto al metastore BigLake (versione classica)
Il metastore BigLake è il metastore consigliato su Google Cloud, mentre il metastore BigLake (versione classica) è considerato una funzionalità legacy.
Le principali differenze tra il metastore BigLake e il metastore BigLake (versione classica) includono le seguenti:
- Il metastore BigLake supporta l'integrazione diretta con motori open source come Spark, il che contribuisce a ridurre la ridondanza quando archivi i metadati ed esegui i job. Le tabelle nel metastore BigLake sono accessibili direttamente da più motori open source e BigQuery.
- Il metastore BigLake supporta il catalogo REST Iceberg, mentre il metastore BigLake (versione classica) non lo supporta.
Limitazioni del metastore BigLake
Le seguenti limitazioni si applicano alle tabelle nel metastore BigLake:
Gestione delle tabelle
- Non puoi creare o modificare le tabelle BigLake Iceberg con le istruzioni DDL (Data Definition Language) o DML (Data Manipulation Language) di BigQuery. Puoi modificare le tabelle BigLake Iceberg utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
- Le tabelle del metastore BigLake non supportano le operazioni di ridenominazione o l'istruzione Spark SQL
ALTER TABLE ... RENAME TO. - Le tabelle del metastore BigLake non supportano il clustering.
- Le tabelle del metastore BigLake non supportano i nomi di colonna flessibili.
- Il metastore BigLake non supporta le viste Iceberg.
Fare query
- Le prestazioni delle query per le tabelle del metastore BigLake dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
- Un'esecuzione di prova di una query di BigQuery che utilizza una tabella del metastore BigLake potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
- Non puoi fare riferimento a una tabella del metastore BigLake in una query di tabella con caratteri jolly .
API e metadati
- Non puoi utilizzare il
tabledata.listmetodo per recuperare i dati dalle tabelle del metastore BigLake. In alternativa, puoi salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodotabledata.listsu quella tabella. - La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del metastore BigLake non è supportata.
Quote e limiti
- Le tabelle del metastore BigLake in BigQuery sono soggette alle stesse quote e agli stessi limiti delle tabelle standard.
Passaggi successivi
- Esplora il catalogo REST Iceberg.
- Esplora il catalogo Iceberg personalizzato per BigQuery.