Lakehouse-Laufzeitkatalog

Der Lakehouse-Laufzeitkatalog ist ein vollständig verwalteter, serverloser Dienst, der eine zentrale Quelle für Ihr Data Lakehouse bietet. Er ermöglicht es mehreren Engines, darunter Apache Spark, Apache Flink und BigQuery, Tabellen und Metadaten gemeinsam zu nutzen, ohne Dateien zu kopieren.

Der Lakehouse-Laufzeitkatalog unterstützt die Delegierung des Speicherzugriffs (Anmeldedatenbereitstellung), was die Sicherheit verbessert, da kein direkter Zugriff auf Cloud Storage-Buckets erforderlich ist. Außerdem ist er in Knowledge Catalog eingebunden, um eine einheitliche Verwaltung, Datenherkunft und Datenqualität zu ermöglichen.

Wichtige Funktionen

Als Komponente von Google Cloud Lakehouse bietet der Lakehouse-Laufzeitkatalog mehrere Vorteile für die Datenverwaltung und -analyse, darunter eine serverlose Architektur, Engine-Interoperabilität mit offenen APIs, eine einheitliche Nutzererfahrung und leistungsstarke Analysen, Streaming und KI bei Verwendung mit BigQuery. Weitere Informationen zu diesen Vorteilen finden Sie unter Was ist Google Cloud Lakehouse?

Unterstützte Engines

Der Lakehouse-Laufzeitkatalog ist mit mehreren Abfrage-Engines kompatibel, darunter Apache Spark, Apache Flink und Trino. In der folgenden Tabelle finden Sie Links zur Dokumentation für jede Engine:

Engine Dokumentation
Apache Spark Kurzanleitung: Mit Spark verwenden
Apache Flink Mit Apache Flink verwenden
Trino Mit Trino verwenden

Konfigurationsoptionen

Der Lakehouse-Laufzeitkatalog kann auf zwei Arten konfiguriert werden: mit dem Apache Iceberg REST-Katalogendpunkt oder dem *benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt. Die beste Option hängt von Ihrem Anwendungsfall ab, wie in der folgenden Tabelle dargestellt:

Anwendungsfall Empfehlung
Neue Nutzer des Lakehouse-Laufzeitkatalogs, die mit ihrer Open-Source-Engine auf Daten in Cloud Storage zugreifen möchten und Interoperabilität mit anderen Engines benötigen, darunter BigQuery und AlloyDB for PostgreSQL. Verwenden Sie den Apache Iceberg REST-Katalogendpunkt.
Vorhandene Nutzer des Lakehouse-Laufzeitkatalogs, die aktuelle Tabellen mit dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery haben. Verwenden Sie weiterhin den benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt, aber verwenden Sie den Apache Iceberg REST-Katalog für neue Arbeitsabläufe. Tabellen, die mit dem benutzerdefinierten Apache Iceberg-Katalog für BigQuery-Endpunkt erstellt wurden, sind über die BigQuery-Katalogföderation mit dem Apache Iceberg REST-Katalog sichtbar.

Unterschiede zum Google Cloud Lakehouse Metastore (klassisch)

Der Lakehouse-Laufzeitkatalog ist der empfohlene Metastore in Google Cloud, während der Google Cloud Lakehouse Metastore (klassisch) als Legacy-Funktion gilt.

Die wichtigsten Unterschiede zwischen dem Lakehouse-Laufzeitkatalog und dem Google Cloud Lakehouse Metastore (klassisch) sind:

  • Der Lakehouse-Laufzeitkatalog unterstützt eine direkte Einbindung in Open-Source-Engines wie Spark, was die Redundanz beim Speichern von Metadaten und Ausführen von Jobs verringert. Tabellen im Lakehouse-Laufzeitkatalog sind direkt über mehrere Open-Source-Engines und BigQuery zugänglich.
  • Der Lakehouse-Laufzeitkatalog unterstützt den Apache Iceberg REST-Katalogendpunkt, der Google Cloud Lakehouse Metastore (klassisch) jedoch nicht.

Einschränkungen des Lakehouse-Laufzeitkatalogs

Für Tabellen im Lakehouse-Laufzeitkatalog gelten die folgenden Einschränkungen:

Tabellenverwaltung

  • Sie können keine Tabellen im Lakehouse Iceberg REST-Katalog mit DDL-Anweisungen (Datendefinitionssprache) oder DML-Anweisungen (Datenbearbeitungssprache) von BigQuery erstellen oder ändern. Sie können Tabellen im Lakehouse Iceberg REST-Katalog mit der BigQuery API (mit dem bq-Befehlszeilentool oder Clientbibliotheken) ändern. Dabei besteht jedoch das Risiko, dass Änderungen vorgenommen werden, die mit der externen Engine nicht kompatibel sind.
  • Tabellen im Lakehouse-Laufzeitkatalog unterstützen keine Umbenennungsvorgänge oder die ALTER TABLE ... RENAME TO Spark SQL-Anweisung.
  • Tabellen im Lakehouse-Laufzeitkatalog unterstützen kein Clustering.
  • Tabellen im Lakehouse-Laufzeitkatalog unterstützen keine flexiblen Spalten namen.
  • Der Lakehouse-Laufzeitkatalog unterstützt keine Apache Iceberg-Ansichten.

Abfragen

  • Die Abfrageleistung für Tabellen im Lakehouse-Laufzeitkatalog aus der BigQuery-Engine ist mitunter langsamer als bei der Abfrage von Daten in BigQuery-Standardtabellen. Im Allgemeinen sollte die Abfragegeschwindigkeit der Geschwindigkeit beim Lesen von Daten aus Cloud Storage entsprechen.
  • Ein BigQuery-Probelauf einer Abfrage, die eine Tabelle im Lakehouse-Laufzeitkatalog verwendet, kann eine Untergrenze von 0 Byte an Daten melden, auch wenn Zeilen zurückgegeben werden. Dieses Ergebnis tritt auf, weil die Menge der Daten, die aus der Tabelle verarbeitet werden, erst bestimmt werden kann, wenn die vollständige Abfrage ausgeführt wurde. Für die Ausführung der Abfrage fallen Kosten für die Verarbeitung dieser Daten an.
  • In der Abfrage einer Platzhalter tabelle kann keine Tabelle im Lakehouse-Laufzeitkatalog referenziert werden.

API und Metadaten

  • Sie können die tabledata.list Methode nicht verwenden, um Daten aus Tabellen im Lakehouse-Laufzeitkatalog abzurufen. Stattdessen können Sie Abfrageergebnisse in einer BigQuery-Tabelle speichern und dann die Methode tabledata.list für diese Tabelle verwenden.
  • Die Anzeige von Tabellenspeicherstatistiken für Tabellen im Lakehouse-Laufzeitkatalog wird nicht unterstützt.

Kontingente und Limits

  • Für Tabellen im Lakehouse-Laufzeitkatalog in BigQuery gelten dieselbe Kontingente und Limits wie für Standard tabellen.

Nächste Schritte