In diesem Dokument werden die verschiedenen Tabellenformate beschrieben, die beim Erstellen eines Lakehouse in BigLake verfügbar sind. Außerdem erfahren Sie, wie Sie das richtige Format für Ihre Anforderungen auswählen.
Wenn Sie ein Lakehouse in BigLake erstellen, können Sie zwischen verschiedenen Tabellenformaten wählen, die unterschiedliche Grade an Verwaltung, Leistung und Interoperabilität bieten. Die Auswahl hängt davon ab, woher Ihre Daten stammen, welche Engines Sie zum Schreiben und Transformieren verwenden möchten und wie viel Kontrolle Sie über Speicher und Metadaten benötigen.
Tabellenformate
Wenn Sie ein Lakehouse in BigLake erstellen, haben Sie die folgenden Optionen für das Format Ihrer Tabellen:
- BigLake-Iceberg-Tabellen sind Iceberg-Tabellen, die Sie mit Open-Source-Engines erstellen und in Cloud Storage speichern. Wie alle Tabellen, die BigLake Metastore verwenden, können sie von Open-Source-Engines und BigQuery gelesen werden. Allerdings können nur Open-Source-Engines darauf zugreifen. Diese Option ist am besten geeignet, wenn Sie möchten, dass Ihr ETL-Workflow von Open-Source-Engines verwaltet wird.
- BigLake-Iceberg-Tabellen in BigQuery sind Iceberg-Tabellen, die Sie in BigQuery erstellen und in Cloud Storage speichern. Wie alle Tabellen, die BigLake Metastore verwenden, können sie von Open-Source-Engines und BigQuery gelesen werden. BigQuery ist jedoch die einzige Engine, die direkt in diese schreiben kann. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow (Extrahieren, Transformieren und Laden) vollständig von BigQuery verwaltet werden soll.
- Standard-BigQuery-Tabellen werden vollständig von BigQuery verwaltet und bieten die fortschrittlichsten Funktionen für Datenanalyse und ‑verwaltung. Sie können diese Tabellen weiterhin mit BigLake Metastore verbinden. Diese Option eignet sich am besten für Tabellen, die nicht im Iceberg-Format sind.
- Externe Tabellen sind Tabellen, die sich außerhalb von BigLake Metastore befinden. Die Daten und Metadaten dieser Tabellen werden vollständig selbst verwaltet. Sie sind also vollständig auf die Funktionen offener Tabellenformate wie Iceberg, Apache Hudi oder Delta Lake angewiesen. BigQuery kann nur Daten aus diesen Tabellen lesen. Wählen Sie diese Option für Daten und Metadaten aus, die Sie selbst in einem Drittanbieterkatalog verwalten möchten.
Im folgenden Diagramm können Sie die Optionen für das Tabellenformat vergleichen:
| Externe Tabellen | BigLake Iceberg-Tabellen | BigLake-Iceberg-Tabellen in BigQuery | Standard-BigQuery-Tabellen | |
|---|---|---|---|---|
| Metastore | Externer oder selbst gehosteter Metastore | BigLake-Metastore | BigLake-Metastore | BigQuery |
| Speicher | Cloud Storage / Amazon S3 / Azure | Cloud Storage | Cloud Storage | BigQuery |
| Speicheroptimierung | Verwaltung durch Kunden oder Drittanbieter | Verwaltung durch Kunden oder Drittanbieter | Von Google verwaltet | Von Google verwaltet |
| Lesen / Schreiben |
Open-Source-Engines (Lesen/Schreiben) BigQuery (schreibgeschützt) |
Open-Source-Engines (Lesen/Schreiben) BigQuery (schreibgeschützt) |
Open-Source-Engines (nur Lesezugriff mit Iceberg-Bibliotheken, Lese-/Schreibkompatibilität mit BigQuery Storage API) BigQuery (Lese-/Schreibzugriff) |
Open-Source-Engines (Lese-/Schreibkompatibilität mit der BigQuery Storage API) BigQuery (Lesen/Schreiben) |
| Anwendungsfälle | Staging-Tabellen für BigQuery-Ladevorgänge, Legacy-Tabellen nur für Abfragen | Offenes Lakehouse | Offenes Lakehouse mit leistungsstarkem Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI | Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI |