Lakehouse-Tabelle – Übersicht

Lakehouse für Apache Iceberg unterstützt mehrere Tabellentypen und bietet unterschiedliche Verwaltungs-, Leistungs- und Interoperabilitätsstufen für Ihr Lakehouse auf Google Cloud. Je nach Datenquelle, Anforderungen an die Schreib-Engine und Kontrollanforderungen können Sie Tabellenformate auswählen, die entweder vom Lakehouse-Laufzeitkatalog oder von BigQuery unterstützt werden.

Vom Lakehouse-Laufzeitkatalog unterstützt

Empfohlen

Der Lakehouse-Laufzeitkatalog unterstützt Apache Iceberg-Tabellen.

  • Apache Iceberg-Tabellen: Das sind Apache Iceberg-Tabellen, die Sie mit Open-Source-Engines erstellen und in Cloud Storage speichern. Der Lakehouse-Laufzeitkatalog verwaltet Tabellen über den Iceberg-REST-Endpunkt des Lakehouse-Laufzeitkatalogs. Alternativ können Sie BigQuery oder andere Iceberg-kompatible Engines verwenden. Diese Option ist am besten geeignet, wenn Ihr ETL-Workflow von Open-Source-Engines verwaltet werden soll.

    Der Iceberg-REST-Endpunkt des Lakehouse-Laufzeitkatalogs bietet eine standardmäßige REST Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino.

Zu den wichtigsten Funktionen dieser Apache Iceberg-Tabellen gehören:

  • Metastore: Lakehouse-Laufzeitkatalog.
  • Speicher: Cloud Storage.
  • Speicheroptimierung: Wird von Ihnen oder einem Dritten verwaltet.
  • Lese- und Schreibzugriff:
    • Open-Source-Engines: Lese- und Schreibzugriff.
    • BigQuery: Nur Lesezugriff.
  • Anwendungsfälle: Offenes Lakehouse mit leistungsstarkem Speicher der Enterprise-Klasse für erweiterte Analysen, Streaming und KI.

Von BigQuery unterstützt

BigQuery unterstützt Apache Iceberg-Tabellen, native Tabellen und externe Tabellen.

  • Apache Iceberg-Tabellen: Das sind Apache Iceberg-Tabellen, die Sie in BigQuery erstellen und verwalten und in Cloud Storage speichern. Sie können zwar von Open-Source-Engines gelesen werden, aber BigQuery ist die Engine, die die Metadaten verwaltet und in sie schreibt. Diese Option ist am besten geeignet, wenn Ihr Workflow vollständig von BigQuery verwaltet werden soll.

  • Native Tabellen: Das sind native BigQuery-Tabellen. Sie werden vollständig verwaltet und bieten die fortschrittlichsten Analyse- und Verwaltungsfunktionen. Diese Option ist am besten für Arbeitslasten geeignet, die nicht auf Iceberg basieren.

  • Externe Tabellen: Diese Tabellen sind BigQuery-spezifische Konstrukte für Daten, die in Cloud Storage, Amazon S3 oder Azure Blob Storage gespeichert sind. Die Daten und Metadaten werden selbst verwaltet und BigQuery hat nur Lesezugriff. Wählen Sie diese Option für Daten aus, die Sie direkt in einem Drittanbieterkatalog oder -speicher verwalten möchten.

Tabellentypen vergleichen

In der folgenden Tabelle können Sie die Tabellentypen vergleichen:

Apache Iceberg-Tabellen Externe Tabellen Standard-BigQuery-Tabellen
Metastore Lakehouse-Laufzeitkatalog BigQuery Externer oder selbst gehosteter Metastore BigQuery
Speicher Cloud Storage Cloud Storage Cloud Storage / Amazon S3 / Azure BigQuery
Speicheroptimierung Verwaltung durch Kunden oder Dritte Von Google verwaltet Verwaltung durch Kunden oder Dritte Von Google verwaltet
Lesen / Schreiben Open-Source-Engines (Lese- und Schreibzugriff)

BigQuery (nur Lesezugriff)
Open-Source-Engines (nur Lesezugriff mit Iceberg Bibliotheken, Lese- und Schreibzugriff mit der BigQuery Storage API)

BigQuery (Lese- und Schreibzugriff)

Open-Source-Engines (Lese- und Schreibzugriff)

BigQuery (nur Lesezugriff)
Open-Source-Engines (Lese- und Schreibzugriff mit der BigQuery Storage API)

BigQuery (Lese- und Schreibzugriff)

Anwendungsfälle Offenes Lakehouse Offenes Lakehouse mit leistungsstarkem Speicher der Enterprise-Klasse für erweiterte Analysen, Streaming und KI Staging-Tabellen für BigQuery-Ladevorgänge, Legacy-Tabellen nur für Abfragen Speicher der Enterprise-Klasse für erweiterte Analysen, Streaming und KI

Nächste Schritte