Informazioni sul catalogo del runtime Lakehouse

Il catalogo del runtime del lakehouse è un servizio serverless completamente gestito che fornisce un'unica fonte attendibile per il tuo data lakehouse. Consente a più motori, tra cui Apache Spark, Apache Flink e BigQuery, di condividere tabelle e metadati senza copiare i file.

Il catalogo del runtime Lakehouse supporta la delega dell'accesso all'archiviazione (distribuzione delle credenziali), che migliora la sicurezza eliminando la necessità di accedere direttamente al bucket Cloud Storage. Si integra anche con Knowledge Catalog per una governance, una derivazione e una qualità dei dati unificate.

Funzionalità chiave

In quanto componente di Google Cloud Lakehouse, il catalogo del runtime di Lakehouse offre diversi vantaggi per la gestione e l'analisi dei dati, tra cui un'architettura serverless, l'interoperabilità del motore con API aperte, un'esperienza utente unificata e analisi, streaming e AI ad alte prestazioni se utilizzato con BigQuery. Per saperne di più su questi vantaggi, consulta Che cos'è Google Cloud Lakehouse?

Motori supportati

Il catalogo del runtime del lakehouse è compatibile con diversi motori di query, tra cui (a titolo esemplificativo) Apache Spark, Apache Flink e Trino. La tabella seguente fornisce i link alla documentazione di ogni motore:

Motore Documentazione
Apache Spark Guida rapida: utilizza con Spark
Apache Flink Utilizzo con Apache Flink
Trino Utilizzare con Trino

Opzioni di configurazione

Il catalogo del runtime Lakehouse può essere configurato in due modi: con l'endpoint del catalogo REST di Apache Iceberg o con l'endpoint del *catalogo Apache Iceberg personalizzato per BigQuery. L'opzione migliore dipende dal caso d'uso, come mostrato nella tabella seguente:

Caso d'uso Consiglio
Nuovi utenti del catalogo del runtime Lakehouse che vogliono che il motore open source acceda ai dati in Cloud Storage e che hanno bisogno dell'interoperabilità con altri motori, tra cui BigQuery e AlloyDB per PostgreSQL. Utilizza l' endpoint del catalogo REST di Apache Iceberg.
Utenti del catalogo Lakehouse Runtime esistenti che hanno tabelle attuali con il catalogo Apache Iceberg personalizzato per BigQuery. Continua a utilizzare l'endpoint del catalogo Apache Iceberg personalizzato per BigQuery, ma utilizza il catalogo REST di Apache Iceberg per i nuovi flussi di lavoro. Le tabelle create con l'endpoint del catalogo Apache Iceberg personalizzato per BigQuery sono visibili con il catalogo REST di Apache Iceberg tramite la federazione del catalogo BigQuery.

Differenze rispetto a BigLake Metastore (classico)

Il catalogo runtime lakehouse è il metastore consigliato su Google Cloud, mentre BigLake Metastore (classico) è considerato una funzionalità legacy.

Le principali differenze tra il catalogo del runtime Lakehouse e il metastore BigLake (classico) includono quanto segue:

  • Il catalogo del runtime Lakehouse supporta l'integrazione diretta con motori open source come Spark, il che contribuisce a ridurre la ridondanza quando memorizzi i metadati ed esegui i job. Le tabelle nel catalogo del runtime Lakehouse sono accessibili direttamente da più motori open source e BigQuery.
  • Il catalogo del runtime Lakehouse supporta l'endpoint del catalogo REST Apache Iceberg, mentre BigLake Metastore (classico) non lo supporta.

Limitazioni del catalogo di runtime Lakehouse

Al catalogo Lakehouse runtime si applicano le seguenti limitazioni:

Gestione delle tabelle

  • Non puoi creare o modificare tabelle del catalogo REST Lakehouse Iceberg con istruzioni Data Definition Language (DDL) o Data Manipulation Language (DML) di BigQuery. Puoi modificare le tabelle del catalogo REST Lakehouse Iceberg utilizzando l'API BigQuery (con lo strumento a riga di comando bq o le librerie client), ma in questo modo rischi di apportare modifiche incompatibili con il motore esterno.
  • Le tabelle del catalogo di runtime Lakehouse non supportano le operazioni di ridenominazione o l'istruzione Spark SQL ALTER TABLE ... RENAME TO.
  • Le tabelle del catalogo di runtime Lakehouse non supportano il clustering.
  • Le tabelle del catalogo di runtime Lakehouse non supportano i nomi delle colonne flessibili.
  • Il catalogo di runtime Lakehouse non supporta le visualizzazioni Apache Iceberg.

Fare query

  • Le prestazioni delle query per le tabelle del catalogo del runtime Lakehouse dal motore BigQuery potrebbero essere lente rispetto all'esecuzione di query sui dati nelle tabelle BigQuery standard. In generale, la velocità delle query dovrebbe essere equivalente alla lettura dei dati da Cloud Storage.
  • Una dry run di BigQuery di una query che utilizza una tabella del catalogo di runtime di Lakehouse potrebbe segnalare un limite inferiore di 0 byte di dati, anche se vengono restituite righe. Questo risultato si verifica perché la quantità di dati elaborati dalla tabella non può essere determinata finché non viene eseguita la query completa. L'esecuzione della query comporta un costo per l'elaborazione di questi dati.
  • Non puoi fare riferimento a una tabella del catalogo di runtime Lakehouse in una query con caratteri jolly della tabella.

API e metadati

  • Non puoi utilizzare il metodo tabledata.list per recuperare i dati dalle tabelle del catalogo di runtime di Lakehouse. Puoi invece salvare i risultati della query in una tabella BigQuery e poi utilizzare il metodo tabledata.list su quella tabella.
  • La visualizzazione delle statistiche di archiviazione delle tabelle per le tabelle del catalogo di runtime Lakehouse non è supportata.

Quote e limiti

  • Le tabelle del catalogo del runtime del lakehouse in BigQuery sono soggette alle stesse quote e limiti delle tabelle standard.

Passaggi successivi