Lakehouse for Apache Iceberg supporta più tipi di tabelle, offrendo diversi livelli di gestione, prestazioni e interoperabilità per il tuo lakehouse su Google Cloud. In base all'origine dei dati, ai requisiti del motore di scrittura e alle esigenze di controllo, puoi scegliere i formati di tabella supportati dal catalogo di runtime di Lakehouse o da BigQuery.
Supportato dal catalogo runtime Lakehouse
Consigliati
Il catalogo runtime Lakehouse supporta le tabelle Apache Iceberg.
Tabelle Apache Iceberg: si tratta di tabelle Apache Iceberg che crei da motori open source e archivi in Cloud Storage. Il catalogo runtime Lakehouse gestisce le tabelle tramite l'endpoint REST Iceberg del catalogo runtime Lakehouse oppure puoi utilizzare BigQuery o altri motori compatibili con Iceberg. Questa opzione è la migliore se vuoi che il flusso di lavoro ETL venga gestito da motori open source.
L'endpoint REST Iceberg del catalogo runtime Lakehouse fornisce un'interfaccia REST standard per un'ampia compatibilità con motori open source come Apache Spark, Apache Flink e Trino.
Le funzionalità principali di queste tabelle Apache Iceberg includono:
- Metastore: catalogo runtime Lakehouse.
- Archiviazione: Cloud Storage.
- Ottimizzazione dello spazio di archiviazione: gestita da te o da una terza parte.
- Accesso in lettura e scrittura:
- Motori open source: lettura e scrittura.
- BigQuery: sola lettura.
- Casi d'uso: open lakehouse con spazio di archiviazione ad alte prestazioni e di livello aziendale per analisi avanzate, streaming e AI.
Supportato da BigQuery
BigQuery supporta tabelle Apache Iceberg, tabelle native e tabelle esterne.
Tabelle Apache Iceberg: si tratta di tabelle Apache Iceberg che crei e gestisci da BigQuery e che vengono archiviate in Cloud Storage. Sebbene possano essere letti da motori open source, BigQuery è il motore che gestisce i metadati e scrive al loro interno. Questa opzione è la migliore se vuoi che il tuo flusso di lavoro sia completamente gestito da BigQuery.
Tabelle native: si tratta di tabelle BigQuery native. Sono completamente gestiti e offrono le funzionalità di analisi e gestione più avanzate. Questa opzione è ideale per i carichi di lavoro non Iceberg.
Tabelle esterne: queste tabelle sono costrutti specifici di BigQuery per i dati archiviati in Cloud Storage, Amazon S3 o Azure Blob Storage. I dati e i metadati sono autogestiti e BigQuery ha solo accesso in lettura. Scegli questa opzione per i dati che vuoi gestire direttamente in un catalogo o in uno spazio di archiviazione di terze parti.
Utilizza il seguente grafico per confrontare i tipi di tabelle:
| Tabelle Apache Iceberg | Tabelle esterne | Tabelle BigQuery standard | ||
|---|---|---|---|---|
| Metastore | Catalogo runtime Lakehouse | BigQuery | Metastore esterno o self-hosting | BigQuery |
| Spazio di archiviazione | Cloud Storage | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Ottimizzazione dello spazio di archiviazione | Gestito dal cliente o da terze parti | Gestita da Google | Gestito dal cliente o da terze parti | Gestita da Google |
| Lettura / scrittura |
Motori open source (lettura/scrittura) BigQuery (sola lettura) |
Motori open source (sola lettura con librerie Iceberg, interoperabilità di lettura/scrittura con l'API BigQuery Storage)
BigQuery (lettura/scrittura) |
Motori open source (lettura/scrittura) BigQuery (sola lettura) |
Motori open source (interoperabilità di lettura/scrittura con
l'API BigQuery Storage) BigQuery (lettura/scrittura) |
| Casi d'uso | Open lakehouse | Lakehouse aperto con spazio di archiviazione ad alte prestazioni di livello enterprise per analisi, streaming e AI avanzati | Tabelle di gestione temporanea per i caricamenti BigQuery, tabelle legacy di sola query | Spazio di archiviazione di livello aziendale per analisi avanzate, streaming e AI |