Einführung in BigLake Metastore

BigLake Metastore ist ein einheitlicher, verwalteter, serverloser und skalierbarer Metastore, der in Google Cloud gespeicherte Lakehouse-Daten mit mehreren Laufzeiten verbindet, einschließlich Open-Source-Engines (z. B. Apache Spark) und BigQuery. Es bietet die Grundlage für die Entwicklung eines offenen, verwalteten und leistungsstarken Lakehouse mit automatisierter Datenverwaltung und integrierter Governance unter Verwendung wichtiger Open-Source-Tabellenformate wie Apache Iceberg.

Der BigLake-Metastore bietet eine zentrale Informationsquelle für Metadaten aus mehreren Quellen. So müssen Daten und Metadaten nicht mehr mit benutzerdefinierten Tools zwischen verschiedenen Analysesystemen und ‑repositories kopiert und synchronisiert werden. Es werden auch Delegierungsmodelle für den Speicherzugriff unterstützt, z. B. die Bereitstellung von Anmeldedaten. Dadurch ist kein direkter Zugriff auf Cloud Storage-Buckets für Katalogbenutzer erforderlich.

Für Workflows, in denen BigLake Iceberg-Tabellen in BigQuery verwendet werden, wird BigLake Metastore auch mit Dataplex Universal Catalog unterstützt. Dieser bietet einheitliche und detaillierte Zugriffssteuerungen für alle unterstützten Engines und ermöglicht eine End-to-End-Governance mit umfassenden Funktionen für Lineage, Datenqualität und Auffindbarkeit.

BigLake Metastore kann auf zwei Arten konfiguriert werden: mit dem Iceberg REST Catalog oder dem benutzerdefinierten Iceberg-Katalog für BigQuery. Die beste Option hängt von Ihrem Anwendungsfall ab, wie in der folgenden Tabelle dargestellt:

Anwendungsfall Empfehlung
Neue BigLake-Metastore-Nutzer, die mit ihrer Open-Source-Engine auf Daten in Cloud Storage zugreifen möchten und Interoperabilität mit anderen Engines benötigen, einschließlich BigQuery und AlloyDB. Verwenden Sie den Iceberg REST-Katalog.
Vorhandene BigLake Metastore-Nutzer, die aktuelle Tabellen mit dem benutzerdefinierten Iceberg-Katalog für BigQuery haben. Verwenden Sie weiterhin den benutzerdefinierten Iceberg-Katalog für BigQuery, aber verwenden Sie den Iceberg-REST-Katalog für neue Workflows. Tabellen, die mit dem benutzerdefinierten Iceberg-Katalog für BigQuery erstellt wurden, sind über die Föderation mit dem Iceberg-REST-Katalog sichtbar.

Hauptmerkmale

BigLake Metastore bietet mehrere wichtige Vorteile für die Datenverwaltung und -analyse:

  • Serverlose Architektur. BigLake-Metastore bietet eine serverlose Architektur, sodass keine Server- oder Clusterverwaltung erforderlich ist. Dadurch wird der operative Aufwand reduziert, die Bereitstellung vereinfacht und eine automatische Skalierung nach Bedarf ermöglicht.
  • Engine-Interoperabilität mit offenen APIs: BigLake Metastore unterstützt die Interoperabilität mit Open-Source- und Drittanbieter-Engines. BigLake Metastore bietet Ihnen direkten Tabellenzugriff über Open-Source-Engines (z. B. Spark und Flink) und BigQuery hinweg. So können Sie Tabellen im offenen Format ohne zusätzliche Verbindungsschritte abfragen. Diese Konfiguration trägt dazu bei, Ihren Analyse-Workflow zu optimieren und den Bedarf an komplexen Datenübertragungs- oder ETL-Prozessen zu reduzieren.
  • Einheitliche Nutzererfahrung: BigLake Metastore bietet einen einheitlichen Workflow für Open-Source-Engines und BigQuery. Diese einheitliche Umgebung bedeutet, dass Sie beispielsweise selbst gehostete Spark-Umgebungen, von Dataproc über den Iceberg-REST-Katalog gehostete Umgebungen oder Umgebungen in einem BigQuery-Notebook konfigurieren können.
  • Hochleistungsanalysen, Streaming und KI mit BigQuery. Mit dem BigLake-Metastore können Sie Iceberg-Daten in Ihren eigenen Cloud Storage-Buckets speichern und die hochgradig skalierbaren Echtzeitfunktionen für die Metadatenverwaltung von BigQuery nutzen. Diese Architektur bietet Ihnen die Offenheit und Datenhoheit von Cloud Storage sowie die vollständig verwalteten Streaming-, Analyse- und KI-Funktionen von BigQuery.

Unterschiede zum klassischen BigLake-Metastore

BigLake Metastore ist der empfohlene Metastore auf Google Cloud, während BigLake Metastore (classic) als Legacy-Funktion gilt.

Die wichtigsten Unterschiede zwischen BigLake Metastore und BigLake Metastore (klassisch) sind:

  • BigLake Metastore unterstützt die direkte Einbindung in Open-Source-Engines wie Spark. So lässt sich Redundanz beim Speichern von Metadaten und Ausführen von Jobs reduzieren. Auf Tabellen im BigLake-Metastore kann direkt über mehrere Open-Source-Engines und BigQuery zugegriffen werden.
  • BigLake Metastore unterstützt den Iceberg REST-Katalog, BigLake Metastore (klassisch) jedoch nicht.

Einschränkungen von BigLake Metastore

Für Tabellen in BigLake Metastore gelten die folgenden Einschränkungen:

  • Sie können BigLake Iceberg-Tabellen nicht mit DDL-Anweisungen (Datendefinitionssprache) oder DML-Anweisungen (Datenbearbeitungssprache) von BigQuery erstellen oder ändern. Sie können BigLake Iceberg-Tabellen mit der BigQuery API (mit dem bq-Befehlszeilentool oder Clientbibliotheken) ändern. Dabei besteht jedoch das Risiko, dass Änderungen vorgenommen werden, die mit der externen Engine inkompatibel sind.
  • BigLake-Metastore-Tabellen unterstützen keine Umbenennungsvorgänge oder die Spark SQL-Anweisung ALTER TABLE ... RENAME TO.
  • Für BigLake Metastore-Tabellen in BigQuery gelten dieselben Kontingente und Limits wie für Standardtabellen.
  • Die Abfrageleistung für BigLake-Metastore-Tabellen über die BigQuery-Engine ist möglicherweise geringer als bei der Abfrage von Daten in BigQuery-Standardtabellen. Im Allgemeinen sollte die Abfragegeschwindigkeit dem Lesen von Daten aus Cloud Storage entsprechen.
  • Ein BigQuery-Probelauf einer Abfrage, die eine BigLake Metastore-Tabelle verwendet, kann eine Untergrenze von 0 Byte an Daten melden, auch wenn Zeilen zurückgegeben werden. Dieses Ergebnis tritt auf, weil die Menge der aus der Tabelle verarbeiteten Daten erst nach Ausführung der gesamten Abfrage bestimmt werden kann. Für die Ausführung der Abfrage fallen Kosten für die Verarbeitung dieser Daten an.
  • Sie können in einer Abfrage mit einer Platzhaltertabelle nicht auf eine BigLake Metastore-Tabelle verweisen.
  • Sie können die tabledata.list-Methode nicht verwenden, um Daten aus BigLake Metastore-Tabellen abzurufen. Stattdessen können Sie Abfrageergebnisse in einer BigQuery-Tabelle speichern und dann die Methode tabledata.list für diese Tabelle verwenden.
  • BigLake Metastore-Tabellen unterstützen kein Clustering.
  • BigLake Metastore-Tabellen unterstützen keine flexiblen Spaltennamen.
  • Die Anzeige von Tabellenspeicherstatistiken für BigLake Metastore-Tabellen wird nicht unterstützt.
  • BigLake Metastore unterstützt keine Iceberg-Ansichten.

Nächste Schritte