Concetti fondamentali

Questo documento definisce i termini e i concetti chiave per BigLake.

Questa pagina non è un elenco esaustivo delle funzionalità, ma un riferimento generale di termini e concetti utilizzati nella documentazione di BigLake.

Concetti principali

I seguenti concetti costituiscono la base dell'architettura BigLake.

Data lakehouse

Una data lakehouse è un'architettura di dati che combina l'efficienza in termini di costi e la flessibilità di un data lake con le strutture di gestione e prestazioni dei dati di un data warehouse. BigLake consente un'architettura lakehouse consentendo di conservare i dati in formati aperti su Cloud Storage utilizzando funzionalità BigQuery come sicurezza granulare e query ad alte prestazioni.

Interoperabilità aperta

L'interoperabilità aperta è la capacità di più sistemi analitici e transazionali, come BigQuery, Spark e Flink, di operare su una singola copia dei dati in formati aperti come Apache Iceberg. In questo modo si elimina la necessità di duplicare i dati e si garantisce una visione coerente dei dati in strumenti diversi.

BigLake Metastore

BigLake Metastore è un servizio di metadati centralizzato e serverless che funge da unica fonte di verità per il tuo lakehouse. Consente a più motori, come Spark, Flink e BigQuery, di scoprire ed eseguire query sulle stesse tabelle contemporaneamente.

Tipi di catalogo

BigLake Metastore offre due diversi tipi di cataloghi per la gestione dei metadati. La scelta del catalogo è una decisione fondamentale che influisce sul modo in cui interagisci con i dati.

Catalogo REST di Iceberg

Si tratta di un catalogo basato sulla specifica del catalogo REST di Apache Iceberg. Fornisce interoperabilità tra motori open source e BigQuery e supporta funzionalità come la distribuzione delle credenziali e il ripristino di emergenza.

Catalogo Iceberg personalizzato per BigQuery

Si tratta di un'integrazione che utilizza BigQuery direttamente come metastore di backend.

Formati tabella

BigLake supporta diversi formati di tabella, a seconda del motore utilizzato per gestire i dati.

Tabelle BigLake Iceberg in BigQuery

Si tratta di tabelle Iceberg che crei da BigQuery e archivi in Cloud Storage. BigQuery gestisce tutto il layout e l'ottimizzazione dei dati. Sebbene queste tabelle possano essere lette da più motori, BigQuery è l'unico motore che può scriverci direttamente.

Tabelle BigLake Iceberg

Si tratta di tabelle Iceberg create da motori open source e archiviate in Cloud Storage. Il metastore BigLake funge da catalogo centrale. Il motore open source che ha creato la tabella è l'unico che può scriverci.

Tabelle BigQuery standard

Queste tabelle sono gestite da BigQuery e archiviano i dati nello spazio di archiviazione BigQuery. Puoi connettere queste tabelle a BigLake Metastore.

Tabelle esterne

Le tabelle esterne si trovano al di fuori del metastore BigLake. I dati e i metadati vengono gestiti autonomamente in un catalogo di terze parti. BigQuery può leggere solo da queste tabelle.

Funzionalità delle tabelle

BigLake offre diverse funzionalità che semplificano la gestione dei dati e migliorano le prestazioni delle query per le tabelle Iceberg.

Evoluzione della tabella

BigLake supporta l'evoluzione della tabella Iceberg, che ti consente di modificare lo schema o la specifica di partizionamento di una tabella nel tempo senza riscrivere i dati della tabella o ricrearla.

Viaggio nel tempo

Lo spostamento cronologico ti consente di eseguire query sui dati di una tabella così come esistevano in un momento specifico o in un ID snapshot. Questa funzionalità è utile per l'audit, la riproduzione degli esperimenti o il ripristino dei dati dopo un'eliminazione accidentale.

Memorizzazione nella cache dei metadati

La memorizzazione nella cache dei metadati è una funzionalità che accelera le prestazioni delle query per le tabelle esterne BigLake. Archivia una copia dei metadati della tabella nello spazio di archiviazione BigQuery, riducendo la necessità di leggere i file di metadati da Cloud Storage durante l'esecuzione della query.

Manutenzione automatica delle tabelle

La manutenzione automatica delle tabelle semplifica la gestione del lakehouse automatizzando attività come la compattazione e la garbage collection per le tabelle gestite. Ciò garantisce prestazioni ottimali delle query e un'efficienza di archiviazione senza intervento manuale.

Concetti di interoperabilità

L'interoperabilità fornisce l'accesso ai dati in Google Cloud e nei sistemi open source.

Federazione del catalogo

La federazione dei cataloghi è una funzionalità del catalogo Iceberg REST che consente di gestire ed eseguire query sulle tabelle visibili a BigQuery, incluse le tabelle create con il catalogo Iceberg personalizzato.

Struttura di denominazione P.C.N.T

La struttura di denominazione P.C.N.T. è la convenzione in quattro parti utilizzata per identificare e interrogare in modo univoco le tabelle nel metastore BigLake da BigQuery. Significa Project.Catalog.Namespace.Table:

  • Progetto: l' Google Cloud ID progetto
  • Catalog: il nome del catalogo BigLake Metastore
  • Spazio dei nomi: il raggruppamento logico per le tabelle (simile a un set di dati)
  • Tabella: il nome della tabella di dati

Concetti di sicurezza

Le funzionalità di sicurezza forniscono meccanismi per la gestione degli accessi e la protezione dei dati.

Connessioni

Una connessione è una risorsa BigQuery che archivia le credenziali per accedere a dati esterni. In BigLake, le connessioni delegano l'accesso a Cloud Storage consentendo alaccount di serviziot della connessione di accedere al bucket di archiviazione per tuo conto.

Distribuzione delle credenziali

La distribuzione delle credenziali è un meccanismo di sicurezza che contribuisce a rafforzare il controllo dell'accesso quando si utilizza il catalogo REST di Iceberg. Se abilitato, BigLake genera credenziali di breve durata e con ambito ridotto progettate per concedere l'accesso solo ai percorsi dei file specifici richiesti per una query, anziché passare l'accesso generico al bucket a Compute Engine. In questo modo, gli utenti non possono aggirare le policy di sicurezza a livello di tabella per leggere direttamente i file non elaborati.

Governance unificata

La governance unificata consente di definire e applicare centralmente le norme di sicurezza e gestione dei dati tramite l'integrazione con Dataplex Universal Catalog.

Concetti di affidabilità

Le funzionalità di affidabilità garantiscono la resilienza dei dati e la disponibilità del catalogo.

Replica tra regioni

La replica tra regioni replica i metadati in più regioni per garantire la disponibilità del catalogo durante le interruzioni a livello di regione.

Failover

Il failover è il processo di passaggio tra le regioni principale e secondaria durante un'interruzione regionale per mantenere le operazioni del catalogo.