Questo documento definisce i termini e i concetti chiave di BigLake.
Concetti principali
I seguenti concetti costituiscono la base dell'architettura BigLake.
Data lakehouse
Una data lakehouse è un'architettura di dati che combina l'efficienza in termini di costi e la flessibilità di un data lake con le strutture di gestione e prestazioni dei dati di un data warehouse. BigLake consente un'architettura lakehouse consentendoti di conservare i dati in formati aperti su Cloud Storage mentre utilizzi le funzionalità di BigQuery come la sicurezza granulare e le query ad alte prestazioni. Per saperne di più, consulta Come funziona BigLake.
Interoperabilità aperta
L'interoperabilità aperta è la capacità di più sistemi analitici e transazionali, come BigQuery, Spark e Flink, di operare su una singola copia dei dati in formati aperti come Apache Iceberg. In questo modo si elimina la necessità di duplicare i dati e si garantisce una visualizzazione coerente dei dati tra strumenti diversi. Per saperne di più, consulta Come funziona BigLake.
BigLake Metastore
BigLake Metastore è un servizio di metadati centralizzato e serverless che funge da unica fonte di verità per il tuo lakehouse. Consente a più motori, come Spark, Flink e BigQuery, di scoprire ed eseguire query sulle stesse tabelle contemporaneamente. Per saperne di più, consulta Informazioni su BigLake Metastore.
Tipi di catalogo
BigLake Metastore offre due diversi tipi di cataloghi per la gestione dei metadati. La scelta del catalogo è una decisione fondamentale che influisce sul modo in cui interagisci con i tuoi dati.
Catalogo REST Iceberg
Si tratta di un catalogo basato sulla specifica del catalogo REST di Apache Iceberg. Fornisce interoperabilità tra i motori open source e BigQuery e supporta funzionalità come la distribuzione delle credenziali e il ripristino di emergenza. Per saperne di più, consulta Concetti del catalogo REST di Apache Iceberg.
Catalogo Iceberg personalizzato per BigQuery
Si tratta di un'integrazione che utilizza BigQuery direttamente come metastore di backup. Per saperne di più, consulta Federazione di cataloghi con BigQuery.
Formati di tabella
BigLake supporta diversi formati di tabella, a seconda del motore utilizzato per gestire i dati.
Tabelle Iceberg BigLake
Si tratta di tabelle Iceberg create da motori open source e archiviate in Cloud Storage. BigLake Metastore funge da catalogo centrale. Il motore open source che ha creato la tabella è l'unico motore che può scriverla. Per saperne di più, consulta Introduzione alle tabelle Iceberg BigLake per Apache Iceberg.
Tabelle Iceberg BigLake in BigQuery
Si tratta di tabelle Iceberg create da BigQuery e archiviate in Cloud Storage. BigQuery gestisce tutto il layout e l'ottimizzazione dei dati. Sebbene queste tabelle possano essere lette da più motori, BigQuery è l'unico motore che può scriverle direttamente. Per saperne di più, consulta Gestire le tabelle Iceberg BigLake in BigQuery.
Tabelle BigQuery standard
Queste tabelle sono gestite da BigQuery e archiviano i dati nello spazio di archiviazione di BigQuery. Puoi connettere queste tabelle a BigLake Metastore. Per saperne di più, consulta Panoramica delle tabelle BigLake.
Tabelle esterne
Le tabelle esterne si trovano al di fuori di BigLake Metastore. I dati e i metadati vengono gestiti autonomamente in un catalogo di terze parti. BigQuery può solo leggere queste tabelle. Per saperne di più, consulta Panoramica delle tabelle BigLake.
Funzionalità delle tabelle
BigLake offre diverse funzionalità che semplificano la gestione dei dati e migliorano le prestazioni delle query per le tabelle Iceberg.
Evoluzione delle tabelle
BigLake supporta l'evoluzione delle tabelle Iceberg, che consente di modificare lo schema o la specifica di partizionamento di una tabella nel tempo senza riscrivere i dati della tabella o ricrearla. Per saperne di più, consulta Funzionalità aggiuntive di BigLake Metastore.
Viaggio nel tempo
Il viaggio nel tempo consente di eseguire query sui dati di una tabella così come esistevano in un momento specifico o in un ID snapshot. Questa funzionalità è utile per l'audit, la riproduzione di esperimenti o il ripristino dei dati dopo un'eliminazione accidentale. Per saperne di più, consulta Funzionalità aggiuntive di BigLake Metastore.
Memorizzazione nella cache dei metadati
La memorizzazione nella cache dei metadati è una funzionalità che accelera le prestazioni delle query per le tabelle esterne BigLake. Archivia una copia dei metadati della tabella nello spazio di archiviazione di BigQuery, riducendo la necessità di leggere i file di metadati da Cloud Storage durante l'esecuzione delle query. Per saperne di più, consulta Panoramica delle tabelle BigLake.
Manutenzione automatica delle tabelle
La manutenzione automatica delle tabelle semplifica la gestione del lakehouse automatizzando attività come la compattazione e la garbage collection per le tabelle gestite. In questo modo si garantiscono prestazioni di query e efficienza di archiviazione ottimali senza intervento manuale. Per saperne di più, consulta Funzionalità aggiuntive di BigLake Metastore.
Concetti di interoperabilità
L'interoperabilità fornisce l'accesso ai dati tra i sistemi open source. Google Cloud
Federazione di cataloghi
La federazione di cataloghi è una funzionalità del catalogo REST di Iceberg che consente di gestire ed eseguire query sulle tabelle visibili a BigQuery, incluse le tabelle create con il catalogo Iceberg personalizzato. Per saperne di più, consulta Federazione di cataloghi con BigQuery.
Struttura di denominazione P.C.N.T
La struttura di denominazione P.C.N.T è la convenzione in quattro parti utilizzata per identificare ed eseguire query in modo univoco sulle tabelle in BigLake Metastore da BigQuery. Sta per Project.Catalog.Namespace.Table:
- Progetto: l'ID Google Cloud progetto
- Catalogo: il nome del catalogo BigLake Metastore
- Namespace: il raggruppamento logico per le tabelle (simile a un set di dati)
- Table: il nome della tabella di dati
Per saperne di più, consulta Eseguire query sui cataloghi.
Concetti di sicurezza
Le funzionalità di sicurezza forniscono meccanismi per la gestione degli accessi e la protezione dei dati.
Connessioni
Una connessione è una risorsa BigQuery che archivia le credenziali per l'accesso ai dati esterni. In BigLake, le connessioni delegano l'accesso a Cloud Storage consentendo al account di servizio della connessione di accedere al bucket di archiviazione per tuo conto. Per saperne di più, consulta Autenticazione con BigQuery.
Distribuzione delle credenziali
La distribuzione delle credenziali è un meccanismo di sicurezza che consente di rafforzare controllo dell'accesso quando si utilizza il catalogo REST di Iceberg. Se abilitata, BigLake genera credenziali di breve durata e con ambito limitato progettate per concedere l'accesso solo ai percorsi di file specifici richiesti per una query, anziché passare l'accesso generico al bucket a Compute Engine. In questo modo, gli utenti non possono ignorare i criteri di sicurezza a livello di tabella per leggere direttamente i file non elaborati. Per saperne di più, consulta Informazioni sulla distribuzione delle credenziali.
Governance unificata
La governance unificata consente di definire e applicare centralmente i criteri di sicurezza e di gestione dei dati tramite l'integrazione con Knowledge Catalog. Per saperne di più, consulta IAM e controllo degli accessi.
Concetti di affidabilità
Le funzionalità di affidabilità forniscono resilienza dei dati e disponibilità del catalogo.
Replica tra regioni
La replica tra regioni replica i metadati in più regioni per garantire la disponibilità del catalogo durante le interruzioni regionali. Per saperne di più, consulta Informazioni sul ripristino di emergenza gestito.
Failover
Il failover è il processo di passaggio tra le regioni primaria e secondaria durante un'interruzione regionale per mantenere le operazioni del catalogo. Per saperne di più, consulta Informazioni sul ripristino di emergenza gestito.