Introduzione alle tabelle BigLake per Apache Iceberg in BigQuery

Le tabelle BigLake per Apache Iceberg in BigQuery (di seguito tabelle BigLake Iceberg in BigQuery) forniscono le basi per la creazione di lakehouse in formato aperto su Google Cloud. Le tabelle BigLake Iceberg in BigQuery offrono la stessa esperienza completamente gestita delle tabelle BigQuery standard, ma archiviano i dati in bucket di archiviazione di proprietà del cliente. Le tabelle BigLake Iceberg in BigQuery supportano il formato aperto delle tabelle Iceberg per una migliore interoperabilità con motori di calcolo open source e di terze parti su una singola copia dei dati.

Panoramica delle funzioni

Le tabelle BigLake Iceberg in BigQuery supportano le seguenti funzionalità:

Architettura

Le tabelle BigLake Iceberg in BigQuery offrono la comodità della gestione delle risorse BigQuery alle tabelle che si trovano nei tuoi bucket cloud. Puoi utilizzare BigQuery e motori di calcolo open source su queste tabelle senza spostare i dati dai bucket che controlli. Devi configurare un bucket Cloud Storage prima di iniziare a utilizzare le tabelle BigLake Iceberg in BigQuery.

Le tabelle BigLake Iceberg in BigQuery utilizzano BigLake Metastore come metastore di runtime unificato per tutti i dati Iceberg. BigLake Metastore fornisce un'unica fonte di riferimento per la gestione dei metadati di più motori e consente l'interoperabilità dei motori.

Il seguente diagramma mostra l'architettura della tabella gestita a un livello generale:

Diagramma dell'architettura delle tabelle BigLake Iceberg in BigQuery.

Questa gestione delle tabelle ha le seguenti implicazioni per il tuo bucket:

  • BigQuery crea nuovi file di dati nel bucket in risposta a richieste di scrittura e ottimizzazioni dell'archiviazione in background, ad esempio istruzioni DML e streaming.
  • Quando elimini una tabella gestita in BigQuery, BigQuery esegue la garbage collection dei file di dati associati in Cloud Storage dopo la scadenza del periodo di time travel.

La creazione di una tabella BigLake Iceberg in BigQuery è simile alla creazione di tabelle BigQuery. Poiché archivia i dati in formati aperti su Cloud Storage, devi eseguire le seguenti operazioni:

  • Specifica la connessione alle risorse Cloud con WITH CONNECTION per configurare le credenziali di connessione per BigLake per accedere a Cloud Storage.
  • Specifica il formato file dell'archiviazione dei dati come PARQUET con l'istruzione file_format = PARQUET.
  • Specifica il formato della tabella dei metadati open source come ICEBERG con l'istruzione table_format = ICEBERG.

Passaggi successivi