Lakehouse-Laufzeitkatalog

Der Lakehouse-Laufzeitkatalog ist ein vollständig verwalteter, serverloser Dienst, der eine zentrale Quelle für Ihr Data Lakehouse bietet. So können mehrere Engines, darunter Apache Spark, Apache Flink und BigQuery, Tabellen und Metadaten gemeinsam nutzen, ohne Dateien zu kopieren.

Der Lakehouse-Laufzeitkatalog unterstützt die Delegierung des Speicherzugriffs (Bereitstellung von Anmeldedaten), was die Sicherheit verbessert, da kein direkter Zugriff auf Cloud Storage-Buckets erforderlich ist. Außerdem ist Knowledge Catalog für einheitliche Governance, Lineage und Datenqualität eingebunden.

Hauptfunktionen

Als Komponente von Google Cloud Lakehouse bietet der Lakehouse-Laufzeitkatalog mehrere Vorteile für die Datenverwaltung und -analyse, darunter eine serverlose Architektur, Engine-Interoperabilität mit offenen APIs, eine einheitliche Benutzeroberfläche und leistungsstarke Analysen, Streaming und KI in Kombination mit BigQuery. Weitere Informationen zu diesen Vorteilen finden Sie unter Was ist Google Cloud Lakehouse?

Unterstützte Engines

Der Lakehouse-Laufzeitkatalog ist mit mehreren Abfrage-Engines kompatibel, darunter (aber nicht beschränkt auf) Apache Spark, Apache Flink und Trino. In der folgenden Tabelle finden Sie Links zur Dokumentation für die einzelnen Engines:

Engine Dokumentation
Apache Spark Kurzanleitung: Mit Spark verwenden
Apache Flink Mit Apache Flink verwenden
Trino Mit Trino verwenden

Konfigurationsoptionen

Der Lakehouse-Laufzeitkatalog kann auf zwei Arten konfiguriert werden: mit dem Apache Iceberg REST-Katalogendpunkt oder dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt. Die beste Option hängt von Ihrem Anwendungsfall ab, wie in der folgenden Tabelle dargestellt:

Anwendungsfall Empfehlung
Neue Nutzer des Lakehouse-Laufzeitkatalogs, die mit ihrer Open-Source-Engine auf Daten in Cloud Storage zugreifen möchten und Interoperabilität mit anderen Engines, einschließlich BigQuery und AlloyDB for PostgreSQL, benötigen. Verwenden Sie den Apache Iceberg REST-Katalogendpunkt.
Vorhandene Nutzer des Lakehouse-Laufzeitkatalogs, die aktuelle Tabellen mit dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery haben. Verwenden Sie weiterhin den benutzerdefinierten Apache Iceberg-Katalog für den BigQuery-Endpunkt, aber verwenden Sie den Apache Iceberg-REST-Katalog für neue Workflows. Tabellen, die mit dem benutzerdefinierten Apache Iceberg-Katalog für den BigQuery-Endpunkt erstellt wurden, sind über die BigQuery-Katalogföderation mit dem Apache Iceberg-REST-Katalog sichtbar.

Unterschiede zum klassischen BigLake-Metastore

Der Lakehouse-Laufzeitkatalog ist der empfohlene Metastore aufGoogle Cloud, während BigLake Metastore (klassisch) als Legacy-Funktion gilt.

Die wichtigsten Unterschiede zwischen dem Lakehouse-Laufzeitkatalog und dem BigLake-Metastore (klassisch) sind:

  • Der Lakehouse-Laufzeitkatalog unterstützt die direkte Integration in Open-Source-Engines wie Spark. So lässt sich Redundanz beim Speichern von Metadaten und Ausführen von Jobs reduzieren. Auf Tabellen im Lakehouse-Laufzeitkatalog kann direkt über mehrere Open-Source-Engines und BigQuery zugegriffen werden.
  • Der Lakehouse-Laufzeitkatalog unterstützt den Apache Iceberg REST-Katalogendpunkt, BigLake Metastore (klassisch) jedoch nicht.

Einschränkungen für Lakehouse-Laufzeitkataloge

Für Tabellen im Lakehouse-Laufzeitkatalog gelten die folgenden Einschränkungen:

Tabellenverwaltung

  • Sie können keine Lakehouse Iceberg REST-Katalogtabellen mit BigQuery-DDL-Anweisungen (Datendefinitionssprache) oder DML-Anweisungen (Datenbearbeitungssprache) erstellen oder ändern. Sie können Lakehouse Iceberg REST-Katalogtabellen mit der BigQuery API (mit dem bq-Befehlszeilentool oder Clientbibliotheken) ändern. Dabei besteht jedoch das Risiko, dass Sie Änderungen vornehmen, die mit der externen Engine inkompatibel sind.
  • Lakehouse-Laufzeitkatalogtabellen unterstützen keine Umbenennungsvorgänge oder die Spark SQL-Anweisung ALTER TABLE ... RENAME TO.
  • Tabellen im Lakehouse-Laufzeitkatalog unterstützen kein Clustering.
  • Tabellen im Lakehouse-Laufzeitkatalog unterstützen keine flexiblen Spaltennamen.
  • Der Lakehouse-Laufzeitkatalog unterstützt keine Apache Iceberg-Ansichten.

Abfragen

  • Die Abfrageleistung für Lakehouse-Laufzeitkatalogtabellen aus der BigQuery-Engine ist möglicherweise geringer als bei der Abfrage von Daten in BigQuery-Standardtabellen. Im Allgemeinen sollte die Abfragegeschwindigkeit dem Lesen von Daten aus Cloud Storage entsprechen.
  • Bei einem BigQuery-Probelauf einer Abfrage, die eine Lakehouse-Laufzeitkatalogtabelle verwendet, kann eine Untergrenze von 0 Byte an Daten gemeldet werden, auch wenn Zeilen zurückgegeben werden. Dieses Ergebnis wird angezeigt, weil die Menge der Daten, die aus der Tabelle verarbeitet werden, erst nach Ausführung der vollständigen Abfrage bestimmt werden kann. Für die Ausführung der Abfrage fallen Kosten für die Verarbeitung dieser Daten an.
  • Sie können in einer Abfrage mit einer Platzhaltertabelle nicht auf eine Tabelle im Lakehouse-Laufzeitkatalog verweisen.

API und Metadaten

  • Sie können die tabledata.list-Methode nicht verwenden, um Daten aus Lakehouse-Laufzeitkatalogtabellen abzurufen. Stattdessen können Sie Abfrageergebnisse in einer BigQuery-Tabelle speichern und dann die Methode tabledata.list für diese Tabelle verwenden.
  • Die Anzeige von Tabellenspeicherstatistiken für Lakehouse-Laufzeitkatalogtabellen wird nicht unterstützt.

Kontingente und Limits

  • Für Lakehouse-Laufzeitkatalogtabellen in BigQuery gelten dieselben Kontingente und Limits wie für Standardtabellen.

Nächste Schritte