Le tabelle BigLake per Apache Iceberg in BigQuery (di seguito tabelle BigLake Iceberg in BigQuery) forniscono le basi per la creazione di lakehouse in formato aperto su Google Cloud. Le tabelle BigLake Iceberg in BigQuery offrono la stessa esperienza completamente gestita delle tabelle BigQuery standard, ma archiviano i dati in bucket di archiviazione di proprietà del cliente. Le tabelle BigLake Iceberg in BigQuery supportano il formato aperto delle tabelle Iceberg per una migliore interoperabilità con motori di calcolo open source e di terze parti su una singola copia dei dati.
Panoramica delle funzioni
Le tabelle BigLake Iceberg in BigQuery supportano le seguenti funzionalità:
- Mutazioni delle tabelle utilizzando il Data Manipulation Language (DML) di GoogleSQL.
- Elaborazione batch unificata e streaming a velocità effettiva elevata utilizzando l'API BigQuery Storage Write tramite i connettori BigLake come Spark, Dataflow e altri motori.
- Esportazione di snapshot Iceberg V2 e aggiornamento automatico su ogni mutazione della tabella per l'accesso diretto alle query con motori di query open source e di terze parti.
- Evoluzione dello schema, che consente di aggiungere, eliminare e rinominare le colonne in base alle tue esigenze. Questa funzionalità consente anche di modificare il tipo di dati di una colonna esistente e la modalità colonna. Per saperne di più, consulta le regole di conversione dei tipi.
- Ottimizzazione automatica dell'archiviazione, tra cui dimensionamento adattivo dei file, clustering automatico, garbage collection e ottimizzazione dei metadati.
- Time travel per l'accesso ai dati storici in BigQuery.
- Sicurezza a livello di colonna e mascheramento dei dati.
- Transazioni con più istruzioni (in anteprima).
- Partizionamento delle tabelle (in anteprima).
- Creazione di tabelle nei workflow Dataform.
Architettura
Le tabelle BigLake Iceberg in BigQuery offrono la comodità della gestione delle risorse BigQuery alle tabelle che si trovano nei tuoi bucket cloud. Puoi utilizzare BigQuery e motori di calcolo open source su queste tabelle senza spostare i dati dai bucket che controlli. Devi configurare un bucket Cloud Storage prima di iniziare a utilizzare le tabelle BigLake Iceberg in BigQuery.
Le tabelle BigLake Iceberg in BigQuery utilizzano BigLake Metastore come metastore di runtime unificato per tutti i dati Iceberg. BigLake Metastore fornisce un'unica fonte di riferimento per la gestione dei metadati di più motori e consente l'interoperabilità dei motori.
Il seguente diagramma mostra l'architettura della tabella gestita a un livello generale:
Questa gestione delle tabelle ha le seguenti implicazioni per il tuo bucket:
- BigQuery crea nuovi file di dati nel bucket in risposta a richieste di scrittura e ottimizzazioni dell'archiviazione in background, ad esempio istruzioni DML e streaming.
- Quando elimini una tabella gestita in BigQuery, BigQuery esegue la garbage collection dei file di dati associati in Cloud Storage dopo la scadenza del periodo di time travel.
La creazione di una tabella BigLake Iceberg in BigQuery è simile alla creazione di tabelle BigQuery. Poiché archivia i dati in formati aperti su Cloud Storage, devi eseguire le seguenti operazioni:
- Specifica la
connessione alle risorse Cloud
con
WITH CONNECTIONper configurare le credenziali di connessione per BigLake per accedere a Cloud Storage. - Specifica il formato file dell'archiviazione dei dati come
PARQUETcon l'istruzionefile_format = PARQUET. - Specifica il formato della tabella dei metadati open source come
ICEBERGcon l'istruzionetable_format = ICEBERG.