Funktionsweise von BigLake

Auf dieser Seite wird die technische Architektur von BigLake beschrieben. Außerdem finden Sie hier Details zur Verarbeitung von Abfragen und dazu, wie der BigLake-Metastore die Interoperabilität zwischen Engines unterstützt.

Architektur

Ein mit BigLake erstelltes Data Lakehouse besteht aus den folgenden Komponenten:

  • Speicher:Cloud Storage und BigQuery Storage dienen als Speicherebene. Apache Iceberg ist das empfohlene offene Tabellenformat für Cloud Storage.
  • Metastore:BigLake Metastore bietet eine Single Source of Truth für die Verwaltung von Metadaten über mehrere Engines hinweg.
  • Abfrage-Engine:BigQuery, Apache Spark, Apache Flink, Trino und andere Open-Source-Engines sind mit BigLake kompatibel.
  • Governance:Dataplex Universal Catalog bietet zentralisierte Sicherheits- und Governance-Richtlinien.
  • Tools zum Schreiben und Analysieren von Daten:In BigLake integrierte Engines und Tools bieten mehrere Möglichkeiten für die Datenerfassung und -analyse.

Ressourcenhierarchie

BigLake organisiert Daten mithilfe der Standardhierarchie von Apache Iceberg. Diese Struktur ordnet logische Datenbankkonzepte physischen Speicherpfaden zu.

  1. Metastore-Dienst:Die regionale Ressource der obersten Ebene inGoogle Cloud.
  2. Katalog:Ein Container zum Gruppieren von Datenbanken, die Projekten entsprechen.
  3. Namespace:Eine logische Gruppierung von Tabellen. In BigQuery entspricht das einem Dataset.
  4. Tabelle:Die spezifische Entität, die auf Daten in Cloud Storage verweist. Tabellenmetadaten enthalten Informationen wie das Tabellenschema, Partitionierungsinformationen, benutzerdefinierte Eigenschaften und einen Zeiger auf den aktuellen Tabellenstatus über eine metadata.json-Datei.

Reihenfolge der Abfrageverarbeitung

Wenn Sie eine Abfrage für eine BigLake-Tabelle senden, folgt die Anfrage einem bestimmten Pfad, um Richtlinien zu erzwingen, bevor Daten gelesen werden.

  1. Anfrage:Sie senden eine SQL-Abfrage an eine Engine (z. B. Spark).
  2. Metadaten-Lookup:Die Engine sendet eine Anfrage an den BigLake Metastore, um die Tabelle aufzulösen.
  3. Authentifizierung und Richtlinie:Der Metastore authentifiziert Sie und prüft Berechtigungen.
  4. Antwort:Der Metastore gibt die Metadaten und optional ein Speichertoken an die Engine zurück. Speichertokens werden nur verwendet, wenn die Bereitstellung von Anmeldedaten aktiviert ist.
  5. Lesen:Die Engine verwendet das Token, um Dateien direkt aus dem Speicher zu lesen.
  6. Berechnung: Die Engine verarbeitet die Daten und gibt die Ergebnisse zurück.

BigLake-Metastore

BigLake Metastore ist ein vollständig verwalteter und serverloser Metastore für Ihr Lakehouse aufGoogle Cloud. BigLake Metastore bietet eine Single Source of Truth für Metadaten aus mehreren Quellen und ist über BigQuery und verschiedene offene Datenverarbeitungs-Engines zugänglich. So müssen Metadaten nicht mehr zwischen verschiedenen Repositorys synchronisiert werden.

Der BigLake-Metastore wird vom Dataplex Universal Catalog unterstützt. Dieser bietet einheitliche und detaillierte Zugriffssteuerungen für alle unterstützten Engines und unterstützt die End-to-End-Governance mit Herkunft, Datenqualität und Auffindbarkeit.

Tabellentypen

Wenn Sie ein Lakehouse in BigLake erstellen, haben Sie mehrere Möglichkeiten für das Format und die Verwaltung Ihrer Tabellen:

  • BigLake-Iceberg-Tabellen:Iceberg-Tabellen, die mit Open-Source-Engines erstellt und in Cloud Storage gespeichert werden.
  • BigLake Iceberg-Tabellen in BigQuery:Iceberg-Tabellen, die in BigQuery erstellt wurden. Die Metadaten für diese Tabellen werden im BigQuery-Katalog gespeichert und können nur über die BigQuery-Katalogföderation aufgerufen werden. Tabellendaten und physische Metadaten werden in Cloud Storage gespeichert.
  • BigQuery-Standardtabellen:Tabellen, die vollständig von BigQuery verwaltet werden und mit einem BigLake-Metastore verbunden werden können.
  • Externe Tabellen:Tabellen außerhalb des BigLake-Metastores, in denen Daten und Metadaten selbst verwaltet werden.

Einen detaillierten Vergleich dieser Optionen finden Sie in der Tabellenübersicht.

Nächste Schritte