Questo documento definisce i termini e i concetti chiave per Google Cloud Lakehouse.
Questa pagina non è un elenco esaustivo delle funzionalità, ma un riferimento generale ai termini e ai concetti utilizzati nella documentazione di Google Cloud Lakehouse.
Concetti principali
I seguenti concetti costituiscono la base dell'architettura di Google Cloud Lakehouse.
Dati di Google Cloud Lakehouse
Un data lakehouse riunisce i risparmi sui costi e la flessibilità di un data lake con la gestione dei dati e le prestazioni di un data warehouse. Ti consente di archiviare i dati in formati aperti su Cloud Storage e utilizzare le funzionalità di BigQuery, come controlli di sicurezza precisi e query rapide.
Interoperabilità aperta
L'interoperabilità aperta è la capacità di più sistemi analitici e transazionali, come BigQuery, Apache Spark e Apache Flink, di operare su una singola copia dei dati in formati aperti come Apache Iceberg. In questo modo non è necessario duplicare i dati e si garantisce una visualizzazione coerente dei dati tra strumenti diversi.
Catalogo del runtime di Lakehouse
Il catalogo del runtime di Lakehouse è un servizio di metadati centralizzato e serverless che funge da unica fonte di verità per Google Cloud Lakehouse. Consente a più motori, come Apache Spark, Apache Flink e BigQuery, di scoprire ed eseguire query sulle stesse tabelle contemporaneamente.
Tipi di catalogo
Il catalogo del runtime di Lakehouse offre diversi tipi di cataloghi per la gestione dei metadati.
Endpoint del catalogo REST di Apache Iceberg
Si tratta di un catalogo basato sull'endpoint del catalogo REST di Apache Iceberg. Fornisce interoperabilità tra i motori open source e BigQuery e supporta funzionalità come la distribuzione delle credenziali e il ripristino di emergenza.
Catalogo Apache Iceberg personalizzato per BigQuery
Si tratta di un'integrazione che utilizza direttamente il catalogo BigQuery come servizio di metadati di supporto per le tabelle Apache Iceberg gestite.
Formati di tabella
Google Cloud Lakehouse supporta diversi formati di tabella, a seconda del motore utilizzato per gestire i dati.
Tabelle del catalogo REST di Lakehouse Iceberg
Si tratta di tabelle Apache Iceberg create da motori open source e archiviate in Cloud Storage. Il catalogo del runtime di Lakehouse funge da catalogo centrale. Il motore open source che ha creato la tabella è l'unico motore che può scriverla.
Tabelle BigQuery
Queste tabelle vengono gestite con BigQuery.
Tabelle Apache Iceberg
Si tratta di tabelle Apache Iceberg create da BigQuery e archiviate in Cloud Storage. BigQuery gestisce tutto il layout e l'ottimizzazione dei dati. Sebbene queste tabelle possano essere lette da più motori, BigQuery è l'unico motore che può scriverle direttamente.
Tabelle native
Queste tabelle vengono gestite da BigQuery e archiviano i dati nello spazio di archiviazione di BigQuery. Puoi collegare queste tabelle al catalogo del runtime di Lakehouse.
Tabelle esterne
Le tabelle esterne si trovano al di fuori del catalogo del runtime di Lakehouse. I dati e i metadati vengono autogestiti in un catalogo di terze parti (ad esempio Cloud Storage, S3 o Azure Blob Storage). BigQuery può solo leggere da queste tabelle.
Funzionalità delle tabelle
Evoluzione delle tabelle
Google Cloud Lakehouse supporta l'evoluzione delle tabelle Apache Iceberg, che consente di modificare lo schema o la specifica di partizionamento di una tabella nel tempo senza riscrivere i dati della tabella o ricrearla.
Viaggio nel tempo
Il viaggio nel tempo consente di eseguire query sui dati di una tabella così come esistevano in un momento specifico o in un ID snapshot. Questa funzionalità è utile per l'audit, la riproduzione di esperimenti o il ripristino dei dati dopo un'eliminazione accidentale.
Memorizzazione nella cache dei metadati
La memorizzazione nella cache dei metadati è una funzionalità che accelera le prestazioni delle query per le tabelle esterne. Archivia una copia dei metadati della tabella nello spazio di archiviazione di BigQuery, riducendo la necessità di leggere i file di metadati da Cloud Storage durante l'esecuzione delle query.
Gestione delle tabelle di Google Cloud Lakehouse
La gestione delle tabelle di Google Cloud Lakehouse semplifica la manutenzione del lakehouse automatizzando attività come la compattazione e la garbage collection per le tabelle gestite. In questo modo si garantiscono prestazioni ottimali delle query ed efficienza di archiviazione.
Concetti di interoperabilità
Federazione del catalogo del runtime di Lakehouse
La federazione del catalogo è una funzionalità che consente al catalogo del runtime di Lakehouse di gestire ed eseguire query sulle tabelle di cataloghi esterni, come AWS Glue o Unity Catalog, visibili a BigQuery.
Struttura di denominazione P.C.N.T
La struttura di denominazione P.C.N.T è la convenzione in quattro parti utilizzata per identificare in modo univoco ed eseguire query sulle tabelle nel catalogo del runtime di Lakehouse da BigQuery. Sta per Project.Catalog.Namespace.Table:
- Progetto: l' Google Cloud ID progetto.
- Catalogo: il nome del catalogo del runtime di Lakehouse.
- Namespace: il raggruppamento logico per le tabelle (simile a un set di dati).
- Tabella: il nome della tabella di dati.
Concetti di sicurezza
Connessioni
Una connessione è una risorsa BigQuery che archivia le credenziali per l'accesso ai dati esterni. In Google Cloud Lakehouse, le connessioni delegano l'accesso a Cloud Storage consentendo al account di servizio della connessione di accedere al bucket di archiviazione per tuo conto.
Distribuzione delle credenziali
La distribuzione delle credenziali è un meccanismo di sicurezza che consente di rafforzare il controllo dell'accesso quando si utilizza il catalogo del runtime di Lakehouse. Quando è abilitato, il servizio genera credenziali di breve durata e con ambito limitato progettate per concedere l'accesso solo ai percorsi di file specifici richiesti per una query.
Governance unificata
La governance unificata consente di definire e applicare centralmente i criteri di sicurezza e gestione dei dati tramite l'integrazione con Knowledge Catalog.
Concetti di affidabilità
Replica tra regioni
La replica tra regioni replica i metadati in più regioni per garantire la disponibilità del catalogo durante le interruzioni regionali.
Failover
Il failover è il processo di passaggio tra le regioni primaria e secondaria durante un'interruzione regionale per mantenere le operazioni del catalogo.