Il catalogo runtime lakehouse è un servizio serverless completamente gestito che fornisce un'unica fonte di verità per la tua data lakehouse. Consente a più motori, tra cui Apache Spark, Apache Flink e BigQuery, di condividere tabelle e metadati senza copiare i file.
Il catalogo runtime Lakehouse supporta la delega dell'accesso allo spazio di archiviazione (vendita di credenziali), il che migliora la sicurezza eliminando la necessità di accedere direttamente al bucket Cloud Storage. Si integra anche con Knowledge Catalog per governance, derivazione e qualità dei dati unificate.
Funzionalità principali
Come componente di Google Cloud Lakehouse, il catalogo runtime lakehouse offre diversi vantaggi per la gestione e l'analisi dei dati, tra cui un'architettura serverless, l'interoperabilità dei motori con le API aperte, un'esperienza utente unificata e analisi, streaming e AI ad alte prestazioni quando viene utilizzato con BigQuery. Per saperne di più su questi vantaggi, vedi Che cos'è Google Cloud Lakehouse?
Motori supportati
Il catalogo runtime lakehouse è compatibile con diversi motori di query, tra cui (ma non solo) Apache Spark, Apache Flink e Trino. La seguente tabella fornisce link alla documentazione di ogni motore:
| Motore | Documentazione |
|---|---|
| Apache Spark | Guida rapida: utilizza con Spark |
| Apache Flink | Utilizza con Apache Flink |
| Trino | Utilizza con Trino |
Opzioni di configurazione
Il catalogo runtime lakehouse può essere configurato in due modi: con l'endpoint del catalogo REST Apache Iceberg o con l'endpoint del catalogo Apache Iceberg personalizzato per BigQuery. La soluzione ottimale dipende dal caso d'uso, come mostrato nella seguente tabella:
| Caso d'uso | Consiglio |
|---|---|
| Nuovi utenti del catalogo runtime lakehouse che vogliono che il motore open source acceda dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB per PostgreSQL. | Utilizza l' endpoint del catalogo REST Apache Iceberg. |
| Utenti esistenti del catalogo runtime lakehouse che hanno tabelle correnti create con l' endpoint del catalogo Apache Iceberg personalizzato per BigQuery. | Continua a utilizzare l' endpoint del catalogo Apache Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST Apache Iceberg per i nuovi workflow. Le tabelle create con l'endpoint del catalogo Apache Iceberg personalizzato per BigQuery sono visibili con l'endpoint del catalogo REST Apache Iceberg tramite la federazione dei cataloghi BigQuery. |
Differenze rispetto a BigLake Metastore (versione classica)
Il catalogo runtime lakehouse è il metastore consigliato su Google Cloud, mentre BigLake Metastore (versione classica) è considerato una funzionalità legacy.
Le differenze principali tra il catalogo runtime lakehouse e BigLake Metastore (versione classica) includono quanto segue:
- Il catalogo runtime Lakehouse supporta un'integrazione diretta con i motori open source come Spark, il che contribuisce a ridurre la ridondanza quando archivi i metadati ed esegui i job. Le tabelle nel catalogo runtime lakehouse sono accessibili direttamente da più motori open source e BigQuery.
- Il catalogo runtime lakehouse supporta l'endpoint del catalogo REST Apache Iceberg, mentre BigLake Metastore (versione classica) non lo supporta.
Limitazioni del catalogo runtime lakehouse
Alle tabelle nel catalogo runtime lakehouse si applicano le seguenti limitazioni:
Gestione delle tabelle
- Non puoi creare o modificare tabelle con l'endpoint del catalogo REST Apache Iceberg utilizzando le istruzioni DDL (Data Definition Language) o DML (Data Manipulation Language) di BigQuery. Puoi modificare queste tabelle utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
- Le tabelle nel catalogo runtime lakehouse non supportano le operazioni di ridenominazione o l'istruzione SQL
ALTER TABLE ... RENAME TO. - Le tabelle nel catalogo runtime lakehouse non supportano il clustering.
- Le tabelle nel catalogo runtime lakehouse non supportano i nomi delle colonne flessibili.
- Il catalogo runtime lakehouse non supporta le visualizzazioni Apache Iceberg.
Fare query
- Le prestazioni delle query per le tabelle nel catalogo runtime lakehouse dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
- Un dry run di BigQuery di una query che utilizza una tabella nel catalogo runtime Lakehouse potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
- Non puoi fare riferimento a una tabella nel catalogo runtime lakehouse in una query di tabella con caratteri jolly.
API e metadati
- Non puoi utilizzare il
tabledata.listmetodo per recuperare i dati dalle tabelle nel catalogo runtime lakehouse. In alternativa, puoi salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodotabledata.listsu quella tabella. - La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle nel catalogo runtime lakehouse non è supportata.
Quote e limiti
- Le tabelle nel catalogo runtime lakehouse in BigQuery sono soggette alle stesse quote e agli stessi limiti delle tabelle standard.