Funktionsweise von BigLake

Auf dieser Seite wird die technische Architektur von BigLake beschrieben. Außerdem finden Sie hier Details zur Verarbeitung von Abfragen und zur Unterstützung der Interoperabilität zwischen Engines durch den BigLake-Metastore.

Architektur

Ein mit BigLake erstelltes Data Lakehouse besteht aus den folgenden Komponenten:

Speicher:Cloud Storage und BigQuery Storage dienen als Speicherebene. Apache Iceberg ist das empfohlene offene Tabellenformat für Cloud Storage.
Metastore:BigLake Metastore bietet eine zentrale Quelle für die Verwaltung von Metadaten über mehrere Engines hinweg.
Abfrage-Engine:BigQuery, Apache Spark, Apache Flink, Trino und andere Open-Source-Engines sind mit BigLake kompatibel.
Governance:Knowledge Catalog bietet zentrale Sicherheits- und Governance-Richtlinien.
Tools zum Schreiben und Analysieren von Daten:Engines und Tools, die in BigLake integriert sind, bieten mehrere Möglichkeiten für die Datenerfassung und ‑analyse.

Ressourcenhierarchie

BigLake organisiert Daten mithilfe der standardmäßigen Apache Iceberg-Hierarchie. Diese Struktur ordnet logische Datenbankkonzepte physischen Speicherpfaden zu.

Metastore-Dienst:Die regionale Ressource der obersten Ebene inGoogle Cloud.
Katalog:Ein Container zum Gruppieren von Datenbanken, die Projekten entsprechen.
Namespace:Eine logische Gruppierung von Tabellen. In BigQuery entspricht das einem Dataset.
Tabelle:Die spezifische Entität, die auf Daten in Cloud Storage verweist. Tabellenmetadaten enthalten Informationen wie das Tabellenschema, Partitionierungsinformationen, benutzerdefinierte Eigenschaften und einen Zeiger auf den aktuellen Tabellenstatus über eine metadata.json-Datei.

Reihenfolge der Abfrageverarbeitung

Wenn Sie eine Abfrage für eine BigLake-Tabelle senden, folgt die Anfrage einem bestimmten Pfad, um Richtlinien zu erzwingen, bevor Daten gelesen werden.

Anfrage:Sie senden eine SQL-Abfrage an eine Engine (z. B. Spark).
Metadatensuche:Die Engine sendet eine Anfrage an den BigLake Metastore, um die Tabelle aufzulösen.
Authentifizierung und Richtlinie:Der Metastore authentifiziert Sie und prüft Berechtigungen.
Antwort:Der Metastore gibt die Metadaten und optional ein Speichertoken an die Engine zurück. Speichertokens werden nur verwendet, wenn die Bereitstellung von Anmeldedaten aktiviert ist.
Lesen:Die Engine verwendet das Token, um Dateien direkt aus dem Speicher zu lesen.
Berechnung: Die Engine verarbeitet die Daten und gibt die Ergebnisse zurück.

BigLake-Metastore

BigLake Metastore ist ein vollständig verwalteter und serverloser Metastore für Ihr Lakehouse aufGoogle Cloud. BigLake Metastore bietet eine Single Source of Truth für Metadaten aus mehreren Quellen und ist über BigQuery und verschiedene offene Datenverarbeitungs-Engines zugänglich. So müssen Metadaten nicht mehr zwischen verschiedenen Repositorys synchronisiert werden.

BigLake Metastore wird von Knowledge Catalog unterstützt. Dieser bietet einheitliche und detaillierte Zugriffssteuerungen für alle unterstützten Engines und unterstützt End-to-End-Governance mit Herkunft, Datenqualität und Auffindbarkeit.

Tabellentypen

Wenn Sie ein Lakehouse in BigLake erstellen, haben Sie mehrere Möglichkeiten für das Format und die Verwaltung Ihrer Tabellen:

Empfohlen

BigLake-Iceberg-Tabellen:Iceberg-Tabellen, die mit Open-Source-Engines erstellt und in Cloud Storage gespeichert werden.

Andere Tabellentypen

BigLake Iceberg-Tabellen in BigQuery:Iceberg-Tabellen, die in BigQuery erstellt wurden. Die Metadaten für diese Tabellen werden im BigQuery-Katalog gespeichert und können nur über die BigQuery-Katalogföderation aufgerufen werden. Tabellendaten und physische Metadaten werden in Cloud Storage gespeichert.
BigQuery-Standardtabellen:Tabellen, die vollständig von BigQuery verwaltet werden und mit einem BigLake-Metastore verbunden werden können.
Externe Tabellen:Tabellen außerhalb des BigLake Metastore, in denen Daten und Metadaten selbst verwaltet werden.

Einen detaillierten Vergleich dieser Optionen finden Sie in der Tabellenübersicht.

Nächste Schritte

Erste Schritte mit BigLake Metastore mit Spark und BigQuery und Iceberg REST-Katalog

Funktionsweise von BigLake Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.