Der Lakehouse-Laufzeitkatalog ist ein vollständig verwalteter, serverloser Dienst, der eine zentrale Quelle der Wahrheit für Ihr Data Lakehouse bietet. Er ermöglicht mehreren Engines, darunter Apache Spark, Apache Flink und BigQuery, die gemeinsame Nutzung von Tabellen und Metadaten, ohne Dateien kopieren zu müssen.
Der Lakehouse-Laufzeitkatalog unterstützt die Delegierung des Speicherzugriffs (Anmeldedatenbereitstellung), was die Sicherheit verbessert, da kein direkter Zugriff auf Cloud Storage-Buckets erforderlich ist. Außerdem ist er in Knowledge Catalog eingebunden, um eine einheitliche Verwaltung, Datenherkunft und Datenqualität zu ermöglichen.
Wichtige Funktionen
Als Komponente von Google Cloud Lakehouse bietet der Lakehouse-Laufzeitkatalog mehrere Vorteile für die Datenverwaltung und -analyse, darunter eine serverlose Architektur, Engine-Interoperabilität mit offenen APIs, eine einheitliche Nutzererfahrung und leistungsstarke Analysen, Streaming und KI bei Verwendung mit BigQuery. Weitere Informationen zu diesen Vorteilen finden Sie unter Was ist Google Cloud Lakehouse?
Unterstützte Engines
Der Lakehouse-Laufzeitkatalog ist mit mehreren Abfrage-Engines kompatibel, darunter Apache Spark, Apache Flink und Trino. Die folgende Tabelle enthält Links zur Dokumentation für jede Engine:
| Engine | Dokumentation |
|---|---|
| Apache Spark | Kurzanleitung: Mit Spark verwenden |
| Apache Flink | Mit Apache Flink verwenden |
| Trino | Mit Trino verwenden |
Konfigurationsoptionen
Der Lakehouse-Laufzeitkatalog kann auf zwei Arten konfiguriert werden: mit dem Apache Iceberg REST-Katalogendpunkt oder dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt. Die beste Option hängt von Ihrem Anwendungsfall ab, wie in der folgenden Tabelle dargestellt:
| Anwendungsfall | Empfehlung |
|---|---|
| Neue Nutzer des Lakehouse-Laufzeitkatalogs, die mit ihrer Open-Source-Engine auf Daten in Cloud Storage zugreifen möchten und Interoperabilität mit anderen Engines benötigen, darunter BigQuery und AlloyDB for PostgreSQL. | Verwenden Sie den Apache Iceberg REST-Katalogendpunkt. |
| Vorhandene Nutzer des Lakehouse-Laufzeitkatalogs, die aktuelle Tabellen mit dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt erstellt haben. | Verwenden Sie weiterhin den benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt, aber verwenden Sie den Apache Iceberg REST-Katalog für neue Arbeitsabläufe. Tabellen, die mit dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt erstellt wurden, sind über den Apache Iceberg REST-Katalogendpunkt über die BigQuery-Katalogföderation sichtbar. |
Unterschiede zum BigLake Metastore (klassisch)
Der Lakehouse-Laufzeitkatalog ist der empfohlene Metastore in Google Cloud, während BigLake Metastore (klassisch) als Legacy Funktion gilt.
Die wichtigsten Unterschiede zwischen dem Lakehouse-Laufzeitkatalog und dem BigLake Metastore (klassisch) sind:
- Der Lakehouse-Laufzeitkatalog unterstützt eine direkte Einbindung in Open-Source-Engines wie Spark, was die Redundanz beim Speichern von Metadaten und Ausführen von Jobs reduziert. Tabellen im Lakehouse-Laufzeitkatalog sind direkt über mehrere Open-Source-Engines und BigQuery zugänglich.
- Der Lakehouse-Laufzeitkatalog unterstützt den Apache Iceberg REST-Katalogendpunkt, der BigLake Metastore (klassisch) jedoch nicht.
Einschränkungen des Lakehouse-Laufzeitkatalogs
Für Tabellen im Lakehouse-Laufzeitkatalog gelten die folgenden Einschränkungen:
Tabellenverwaltung
- Sie können mit dem Apache Iceberg REST-Katalogendpunkt keine Tabellen mit DDL-Anweisungen (Datendefinitionssprache) oder DML-Anweisungen (Datenbearbeitungssprache) von BigQuery erstellen oder ändern. Sie können diese Tabellen mit der BigQuery API (mit dem bq-Befehlszeilentool oder Clientbibliotheken) ändern, aber dabei besteht das Risiko, dass Änderungen vorgenommen werden, die mit der externen Engine nicht kompatibel sind.
- Tabellen im Lakehouse-Laufzeitkatalog unterstützen keine Umbenennungsvorgänge oder die
ALTER TABLE ... RENAME TOSpark SQL-Anweisung. - Tabellen im Lakehouse-Laufzeitkatalog unterstützen kein Clustering.
- Tabellen im Lakehouse-Laufzeitkatalog unterstützen keine flexiblen Spalten namen.
- Der Lakehouse-Laufzeitkatalog unterstützt keine Apache Iceberg-Ansichten.
Abfragen
- Die Abfrageleistung für Tabellen im Lakehouse-Laufzeitkatalog aus der BigQuery-Engine ist mitunter langsamer als bei der Abfrage von Daten in BigQuery-Standardtabellen. Im Allgemeinen sollte die Abfragegeschwindigkeit dem Lesen von Daten aus Cloud Storage entsprechen.
- Ein BigQuery-Probelauf einer Abfrage, die eine Tabelle im Lakehouse-Laufzeitkatalog verwendet, kann eine Untergrenze von 0 Byte an Daten melden, auch wenn Zeilen zurückgegeben werden. Dieses Ergebnis tritt auf, weil die Menge der Daten, die aus der Tabelle verarbeitet werden, erst bestimmt werden kann, wenn die vollständige Abfrage ausgeführt wird. Für die Ausführung der Abfrage fallen Kosten für die Verarbeitung dieser Daten an.
- In der Abfrage einer Platzhalter tabelle kann keine Tabelle im Lakehouse-Laufzeitkatalog referenziert werden.
API und Metadaten
- Sie können die
tabledata.listMethode nicht verwenden, um Daten aus Tabellen im Lakehouse-Laufzeitkatalog abzurufen. Stattdessen können Sie Abfrageergebnisse in einer BigQuery-Tabelle speichern und dann die Methodetabledata.listfür diese Tabelle verwenden. - Die Anzeige von Tabellenspeicherstatistiken für Tabellen im Lakehouse-Laufzeitkatalog wird nicht unterstützt.
Kontingente und Limits
- Für Tabellen im Lakehouse-Laufzeitkatalog in BigQuery gelten dieselbe Kontingente und Limits wie für Standardtabellen.
Nächste Schritte
- Informationen zum Apache Iceberg REST-Katalog endpunkt.