Lakehouse für Apache Iceberg unterstützt mehrere Tabellentypen, die unterschiedliche Verwaltungs-, Leistungs- und Interoperabilitätsstufen für Ihr Lakehouse inGoogle Cloudbieten. Je nach Datenquelle, Anforderungen an die Schreib-Engine und Kontrollanforderungen können Sie Tabellenformate auswählen, die entweder vom Lakehouse-Laufzeitkatalog oder von BigQuery unterstützt werden.
Unterstützte Tabellenformate
Apache Iceberg-Tabellen der Version 2 (allgemein verfügbar) und Version 3 (Vorschau) werden unterstützt. Iceberg V1-Tabellen werden nicht unterstützt. Bevor Sie vorhandene V1-Tabellen mit Lakehouse für Apache Iceberg verwenden können, müssen Sie sie auf eine unterstützte Version aktualisieren. Weitere Informationen finden Sie unter Iceberg-Tabellen der Version 1 auf Version 2 aktualisieren.
Tabellenformate nach Katalog und Engine
Wählen Sie unten einen Katalog oder eine Engine aus, um Informationen zu den unterstützten Tabellenformaten, der Metastore-Konfiguration, den Funktionen zur Speicheroptimierung und der Interoperabilität der Engine zu erhalten.
Iceberg-REST-Katalog
Der Lakehouse-Laufzeitkatalog verwaltet Apache Iceberg-Tabellen über den Iceberg-REST-Katalogendpunkt und bietet eine standardmäßige REST-Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Sie erstellen diese Tabellen mit Open-Source-Engines und speichern sie in Cloud Storage. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow von Open-Source-Engines verwaltet werden soll und nur Lesezugriff von BigQuery erforderlich ist.
Besondere Merkmale:
- Metastore: Lakehouse-Laufzeitkatalog.
- Speicher: Cloud Storage.
- Speicheroptimierung: Wird von Ihnen oder einem Drittanbieter verwaltet.
- Lese- und Schreibzugriff:
- Open-Source-Engines: Lesen und Schreiben.
- BigQuery: Nur Lesezugriff.
- Anwendungsfälle: Offenes Lakehouse mit leistungsstarkem Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI.
Hive-Metastore
Der Lakehouse-Laufzeitkatalog verwaltet Apache Hive-Tabellen über einen für die ExternalCatalog-Kompatibilität mit Apache Spark optimierten Apache Hive-Metastore-Endpunkt (HMS). So können Sie Daten nahtlos zwischen Apache Spark, Apache Hive und BigQuery freigeben. Sie erstellen diese Tabellen mit Open-Source-Engines und speichern sie in Cloud Storage. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow von Open-Source-Engines verwaltet werden soll, ohne dass ein separater selbst gehosteter Hive-Metastore erforderlich ist, und nur Lesezugriff von BigQuery benötigt wird.
Besondere Merkmale:
- Metastore: Lakehouse-Laufzeitkatalog (über benutzerdefiniertes
IMetastoreClient). - Speicher: Cloud Storage (mit Unterstützung für Formate wie Parquet, ORC und Avro).
- Speicheroptimierung: Wird von Ihnen oder einem Drittanbieter verwaltet.
- Lese- und Schreibzugriff:
- Open-Source-Engines (Spark und Hive): Lesen und Schreiben.
- BigQuery: Nur Lesezugriff.
- Anwendungsfälle: Migrieren vorhandener Spark- und Hive-Arbeitslasten zu einem vollständig verwalteten, serverlosen Metastore auf Google Cloud.
BigQuery
BigQuery unterstützt Apache Iceberg-Tabellen, native Tabellen und externe Tabellen.
Apache Iceberg-Tabellen: Dies sind Apache Iceberg-Tabellen, die Sie in BigQuery erstellen und verwalten und in Cloud Storage speichern. Sie können zwar von Open-Source-Engines gelesen werden, aber BigQuery ist die Engine, die die Metadaten verwaltet und in sie schreibt. Diese Option ist am besten geeignet, wenn Sie möchten, dass Ihr Workflow vollständig von BigQuery verwaltet wird.
Native Tabellen: Dies sind native BigQuery-Tabellen. Sie werden vollständig verwaltet und bieten die fortschrittlichsten Analyse- und Verwaltungsfunktionen. Diese Option eignet sich am besten für Arbeitslasten, die nicht auf Iceberg basieren.
Externe Tabellen: Diese Tabellen sind BigQuery-spezifische Konstrukte für Daten, die in Cloud Storage, Amazon S3 oder Azure Blob Storage gespeichert sind. Die Daten und Metadaten werden selbst verwaltet und BigQuery hat nur Lesezugriff. Wählen Sie diese Option für Daten aus, die Sie direkt in einem Drittanbieterkatalog oder -speicher verwalten möchten.
Tabellentypen vergleichen
Im folgenden Diagramm können Sie die Tabellentypen im Lakehouse-Laufzeitkatalog und in BigQuery vergleichen.
Lakehouse
| Apache Iceberg (GA) | Apache Hive (Vorschau) | |
|---|---|---|
| Metastore | Lakehouse-Laufzeitkatalog | Lakehouse-Laufzeitkatalog |
| Speicher | Cloud Storage | Cloud Storage |
| Speicheroptimierung | Verwaltung durch Kunden oder Drittanbieter | Verwaltung durch Kunden oder Drittanbieter |
| Lesen / Schreiben |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
| Erweiterte Vorgänge | Keine | – |
| Anwendungsfälle | Offenes Lakehouse | Vorhandene Spark- und Hive-Arbeitslasten zu einem vollständig verwalteten, serverlosen Metastore migrieren |
BigQuery
| Von BigQuery verwaltetes Iceberg | Externe Tabellen | Standardtabellen | |
|---|---|---|---|
| Metastore | BigQuery | Externer oder selbst gehosteter Metastore | BigQuery |
| Speicher | Cloud Storage | Cloud Storage / Amazon S3 / Azure | BigQuery |
| Speicheroptimierung | Von Google verwaltet | Verwaltung durch Kunden oder Drittanbieter | Von Google verwaltet |
| Lesen / Schreiben |
Open-Source-Engines (nur Lesezugriff mit Iceberg-Bibliotheken, Lese-/Schreibkompatibilität mit BigQuery Storage API) BigQuery (Lese-/Schreibzugriff) |
Open-Source-Engines (Lesen/Schreiben) BigQuery (Lesezugriff) |
Open-Source-Engines (Lese-/Schreibkompatibilität mit der BigQuery Storage API) BigQuery (Lesen/Schreiben) |
| Erweiterte Vorgänge | Streaming mit hohem Durchsatz mit der BigQuery Storage Write API, Change Data Capture (CDC) und Transaktionen mit mehreren Anweisungen | Keine | Streaming mit hohem Durchsatz mit der BigQuery Storage Write API, Change Data Capture (CDC) und Transaktionen mit mehreren Anweisungen |
| Anwendungsfälle | Offenes Lakehouse mit leistungsstarkem Speicher für Unternehmen für erweiterte Analysen, Streaming und KI | Staging-Tabellen für BigQuery-Ladevorgänge, Legacy-Tabellen nur für Abfragen | Speicher auf Unternehmensniveau für erweiterte Analysen, Streaming und KI |