Wichtige Konzepte

In diesem Dokument werden die wichtigsten Begriffe und Konzepte für BigLake definiert.

Diese Seite ist keine vollständige Liste der Funktionen, sondern eine allgemeine Referenz für Begriffe und Konzepte, die in der gesamten BigLake-Dokumentation verwendet werden.

Wichtige Konzepte

Die folgenden Konzepte bilden die Grundlage der BigLake-Architektur.

Data Lakehouse

Ein Data Lakehouse ist eine Datenarchitektur, die die Kosteneffizienz und Flexibilität eines Data Lake mit den Datenmanagement- und Leistungsstrukturen eines Data Warehouse kombiniert. BigLake ermöglicht eine Lakehouse-Architektur, da Sie Daten in offenen Formaten in Cloud Storage speichern und gleichzeitig BigQuery-Funktionen wie detaillierte Sicherheit und leistungsstarke Abfragen nutzen können.

Offene Interoperabilität

Offene Interoperabilität bedeutet, dass mehrere Analyse- und Transaktionssysteme wie BigQuery, Spark und Flink mit einer einzigen Kopie von Daten in offenen Formaten wie Apache Iceberg arbeiten können. Dadurch entfällt die Notwendigkeit, Daten zu duplizieren, und es wird eine einheitliche Ansicht der Daten in verschiedenen Tools gewährleistet.

BigLake Metastore

BigLake Metastore ist ein zentralisierter, serverloser Metadatendienst, der als Single Source of Truth für Ihr Lakehouse dient. So können mehrere Engines wie Spark, Flink und BigQuery gleichzeitig dieselben Tabellen erkennen und abfragen.

Katalogtypen

Der BigLake Metastore bietet zwei verschiedene Arten von Katalogen zum Verwalten Ihrer Metadaten. Die Wahl des Katalogs ist eine grundlegende Entscheidung, die sich auf die Interaktion mit Ihren Daten auswirkt.

Iceberg-REST-Katalog

Dies ist ein Katalog, der auf der Apache Iceberg REST-Katalogspezifikation basiert. Es bietet Interoperabilität zwischen Open-Source-Engines und BigQuery und unterstützt Funktionen wie die Bereitstellung von Anmeldedaten und die Notfallwiederherstellung.

Benutzerdefinierter Iceberg-Katalog für BigQuery

Bei dieser Integration wird BigQuery direkt als zugrunde liegender Metastore verwendet.

Tabellenformate

BigLake unterstützt je nach Engine, die zum Verwalten der Daten verwendet wird, verschiedene Tabellenformate.

BigLake Iceberg-Tabellen in BigQuery

Dies sind Iceberg-Tabellen, die Sie in BigQuery erstellen und in Cloud Storage speichern. BigQuery übernimmt das gesamte Datenlayout und die Optimierung. Diese Tabellen können zwar von mehreren Engines gelesen werden, aber BigQuery ist die einzige Engine, die direkt in sie schreiben kann.

BigLake Iceberg-Tabellen

Dies sind Iceberg-Tabellen, die aus Open-Source-Engines erstellt und in Cloud Storage gespeichert werden. Der BigLake-Metastore dient als zentraler Katalog. Nur die Open-Source-Engine, mit der die Tabelle erstellt wurde, kann Daten in die Tabelle schreiben.

Standard-BigQuery-Tabellen

Diese Tabellen werden von BigQuery verwaltet und speichern Daten im BigQuery-Speicher. Sie können diese Tabellen mit BigLake Metastore verbinden.

Externe Tabellen

Externe Tabellen befinden sich außerhalb von BigLake Metastore. Die Daten und Metadaten werden in einem Drittanbieterkatalog selbst verwaltet. BigQuery kann nur aus diesen Tabellen lesen.

Tabellenfunktionen

BigLake bietet mehrere Funktionen, die die Datenverwaltung vereinfachen und die Abfrageleistung für Iceberg-Tabellen verbessern.

Tabellenentwicklung

BigLake unterstützt die Entwicklung von Iceberg-Tabellen. So können Sie das Schema oder die Partitionsspezifikation einer Tabelle im Laufe der Zeit ändern, ohne die Tabellendaten neu zu schreiben oder die Tabelle neu zu erstellen.

Zeitreise

Mit Zeitreisen können Sie die Daten einer Tabelle so abfragen, wie sie zu einem bestimmten Zeitpunkt oder einer bestimmten Snapshot-ID vorhanden waren. Das ist nützlich für Audits, zum Reproduzieren von Tests oder zum Wiederherstellen von Daten nach einem versehentlichen Löschen.

Caching von Metadaten

Das Metadaten-Caching ist ein Feature, das die Abfrageleistung für externe BigLake-Tabellen beschleunigt. Dabei wird eine Kopie der Metadaten der Tabelle im BigQuery-Speicher gespeichert. So müssen während der Abfrageausführung weniger Metadatendateien aus Cloud Storage gelesen werden.

Automatische Tabellenpflege

Die automatische Tabellenwartung vereinfacht die Lakehouse-Verwaltung, indem Aufgaben wie die Komprimierung und die automatische Bereinigung von verwalteten Tabellen automatisiert werden. So wird ohne manuellen Eingriff für optimale Abfrageleistung und Speichereffizienz gesorgt.

Interoperabilitätskonzepte

Interoperabilität ermöglicht den Datenzugriff über Google Cloud und Open-Source-Systeme hinweg.

Katalogföderation

Die Katalogföderation ist ein Feature des Iceberg-REST-Katalogs, mit dem Tabellen verwaltet und abgefragt werden können, die für BigQuery sichtbar sind, einschließlich Tabellen, die mit dem benutzerdefinierten Iceberg-Katalog erstellt wurden.

Namensstruktur für P.C.N.T.

Die P.C.N.T-Namensstruktur ist die vierteilige Konvention, die verwendet wird, um Tabellen im BigLake Metastore eindeutig zu identifizieren und aus BigQuery abzufragen. Es steht für Project.Catalog.Namespace.Table:

  • Projekt: Die Google Cloud Projekt-ID
  • Katalog: Der Name des BigLake Metastore-Katalogs
  • Namespace: Die logische Gruppierung für Tabellen (ähnlich einem Dataset)
  • Tabelle: Der Name der Datentabelle

Sicherheitskonzepte

Sicherheitsfunktionen bieten Mechanismen für die Zugriffsverwaltung und den Datenschutz.

Verbindungen

Eine Verbindung ist eine BigQuery-Ressource, in der Anmeldedaten für den Zugriff auf externe Daten gespeichert werden. In BigLake wird der Zugriff auf Cloud Storage über Verbindungen delegiert. Das Dienstkonto der Verbindung kann in Ihrem Namen auf den Speicher-Bucket zugreifen.

Bereitstellung von Anmeldedaten

Die Bereitstellung von Anmeldedaten ist ein Sicherheitsmechanismus, der dazu beiträgt, die Zugriffskontrolle bei der Verwendung des Iceberg REST-Katalogs zu verschärfen. Wenn diese Option aktiviert ist, generiert BigLake kurzlebige, eingeschränkte Anmeldedaten, die nur Zugriff auf die für eine Abfrage erforderlichen Dateipfade gewähren. Es wird also kein allgemeiner Bucket-Zugriff an Compute Engine übergeben. So wird verhindert, dass Nutzer Sicherheitsrichtlinien auf Tabellenebene umgehen, um Rohdateien direkt zu lesen.

Einheitliche Governance

Mit der einheitlichen Governance können Sie Sicherheits- und Datenverwaltungsrichtlinien zentral über die Integration in Dataplex Universal Catalog definieren und erzwingen.

Zuverlässigkeitskonzepte

Zuverlässigkeitsfunktionen sorgen für Datenresilienz und Katalogverfügbarkeit.

Regionsübergreifende Replikation

Bei der regionsübergreifenden Replikation werden Metadaten in mehreren Regionen repliziert, um die Katalogverfügbarkeit bei regionalen Ausfällen zu gewährleisten.

Failover

Failover ist der Vorgang, bei dem während eines regionalen Ausfalls zwischen primären und sekundären Regionen gewechselt wird, um den Katalogbetrieb aufrechtzuerhalten.