Wichtige Konzepte

In diesem Dokument werden die wichtigsten Begriffe und Konzepte für BigLake definiert.

Wichtige Konzepte

Die folgenden Konzepte bilden die Grundlage der BigLake-Architektur.

Data Lakehouse

Ein Data Lakehouse ist eine Datenarchitektur, die die Kosteneffizienz und Flexibilität eines Data Lake mit den Datenmanagement- und Leistungsstrukturen eines Data Warehouse kombiniert. BigLake ermöglicht eine Lakehouse-Architektur, indem Sie Daten in offenen Formaten in Cloud Storage speichern und gleichzeitig BigQuery-Funktionen wie detaillierte Sicherheit und leistungsstarke Abfragen nutzen können. Weitere Informationen finden Sie unter Funktionsweise von BigLake.

Offene Interoperabilität

Offene Interoperabilität bedeutet, dass mehrere Analyse- und Transaktionssysteme wie BigQuery, Spark und Flink mit einer einzigen Kopie von Daten in offenen Formaten wie Apache Iceberg arbeiten können. Dadurch entfällt die Notwendigkeit, Daten zu duplizieren, und es wird eine einheitliche Ansicht der Daten in verschiedenen Tools gewährleistet. Weitere Informationen finden Sie unter Funktionsweise von BigLake.

BigLake Metastore

BigLake Metastore ist ein zentralisierter, serverloser Metadatendienst, der als Single Source of Truth für Ihr Lakehouse dient. So können mehrere Engines wie Spark, Flink und BigQuery gleichzeitig dieselben Tabellen erkennen und abfragen. Weitere Informationen finden Sie unter BigLake-Metastore.

Katalogtypen

Der BigLake-Metastore bietet zwei verschiedene Arten von Katalogen zum Verwalten Ihrer Metadaten. Die Auswahl des Katalogs ist eine grundlegende Entscheidung, die sich auf die Interaktion mit Ihren Daten auswirkt.

Iceberg-REST-Katalog

Dies ist ein Katalog, der auf der Apache Iceberg-REST-Katalogspezifikation basiert. Es bietet Interoperabilität zwischen Open-Source-Engines und BigQuery und unterstützt Funktionen wie die Bereitstellung von Anmeldedaten und die Notfallwiederherstellung. Weitere Informationen finden Sie unter Apache Iceberg REST-Katalogkonzepte.

Benutzerdefinierter Iceberg-Katalog für BigQuery

Bei dieser Integration wird BigQuery direkt als zugrunde liegender Metastore verwendet. Weitere Informationen finden Sie unter Katalogföderation mit BigQuery.

Tabellenformate

BigLake unterstützt je nach Engine, die zum Verwalten der Daten verwendet wird, verschiedene Tabellenformate.

BigLake Iceberg-Tabellen

Dies sind Iceberg-Tabellen, die mit Open-Source-Engines erstellt und in Cloud Storage gespeichert wurden. Der BigLake-Metastore dient als zentraler Katalog. Nur die Open-Source-Engine, mit der die Tabelle erstellt wurde, kann Daten in die Tabelle schreiben. Weitere Informationen finden Sie unter Einführung in BigLake Iceberg-Tabellen für Apache Iceberg.

BigLake Iceberg-Tabellen in BigQuery

Das sind Iceberg-Tabellen, die Sie in BigQuery erstellen und in Cloud Storage speichern. BigQuery übernimmt das gesamte Datenlayout und die Optimierung. Diese Tabellen können zwar von mehreren Engines gelesen werden, aber BigQuery ist die einzige Engine, die direkt in sie schreiben kann. Weitere Informationen finden Sie unter BigLake Iceberg-Tabellen in BigQuery verwalten.

Standard-BigQuery-Tabellen

Diese Tabellen werden von BigQuery verwaltet und speichern Daten im BigQuery-Speicher. Sie können diese Tabellen mit BigLake Metastore verbinden. Weitere Informationen finden Sie unter BigLake-Tabellen.

Externe Tabellen

Externe Tabellen befinden sich außerhalb von BigLake Metastore. Die Daten und Metadaten werden in einem Drittanbieterkatalog selbst verwaltet. BigQuery kann nur aus diesen Tabellen lesen. Weitere Informationen finden Sie unter BigLake-Tabellen.

Tabellenfunktionen

BigLake bietet mehrere Funktionen, die die Datenverwaltung vereinfachen und die Abfrageleistung für Iceberg-Tabellen verbessern.

Tabellenentwicklung

BigLake unterstützt die Entwicklung von Iceberg-Tabellen. So können Sie das Schema oder die Partitionsspezifikation einer Tabelle im Laufe der Zeit ändern, ohne die Tabellendaten neu zu schreiben oder die Tabelle neu zu erstellen. Weitere Informationen finden Sie unter Zusätzliche BigLake-Metastore-Funktionen.

Zeitreise

Mit Zeitreisen können Sie die Daten einer Tabelle so abfragen, wie sie zu einem bestimmten Zeitpunkt oder mit einer bestimmten Snapshot-ID vorhanden waren. Das ist nützlich für Audits, zum Reproduzieren von Tests oder zum Wiederherstellen von Daten nach einem versehentlichen Löschen. Weitere Informationen finden Sie unter Zusätzliche BigLake-Metastore-Funktionen.

Caching von Metadaten

Das Metadaten-Caching ist ein Feature, mit dem die Abfrageleistung für externe BigLake-Tabellen verbessert wird. Dabei wird eine Kopie der Metadaten der Tabelle im BigQuery-Speicher gespeichert. So müssen während der Abfrageausführung weniger Metadatendateien aus Cloud Storage gelesen werden. Weitere Informationen finden Sie unter BigLake-Tabellen.

Automatische Tabellenpflege

Die automatische Tabellenwartung vereinfacht die Lakehouse-Verwaltung, da Aufgaben wie die Komprimierung und die automatische Speicherbereinigung für verwaltete Tabellen automatisiert werden. So werden ohne manuellen Eingriff eine optimale Abfrageleistung und Speichereffizienz erreicht. Weitere Informationen finden Sie unter Zusätzliche BigLake-Metastore-Funktionen.

Interoperabilitätskonzepte

Interoperabilität ermöglicht den Datenzugriff über Google Cloud und Open-Source-Systeme hinweg.

Katalogföderation

Die Katalogföderation ist ein Feature des Iceberg-REST-Katalogs, mit dem Tabellen verwaltet und abgefragt werden können, die für BigQuery sichtbar sind, einschließlich Tabellen, die mit dem benutzerdefinierten Iceberg-Katalog erstellt wurden. Weitere Informationen finden Sie unter Katalogföderation mit BigQuery.

Namensstruktur für P.C.N.T.

Die Namensstruktur „P.C.N.T“ ist die vierteilige Konvention, die verwendet wird, um Tabellen im BigLake Metastore eindeutig zu identifizieren und aus BigQuery abzufragen. Es steht für Project.Catalog.Namespace.Table:

  • Projekt: Die Google Cloud Projekt-ID
  • Katalog: Der Name des BigLake Metastore-Katalogs
  • Namespace: Die logische Gruppierung für Tabellen (ähnlich einem Dataset)
  • Tabelle: Der Name der Datentabelle

Weitere Informationen finden Sie unter Kataloge abfragen.

Sicherheitskonzepte

Sicherheitsfunktionen bieten Mechanismen für die Zugriffsverwaltung und den Datenschutz.

Verbindungen

Eine Verbindung ist eine BigQuery-Ressource, in der Anmeldedaten für den Zugriff auf externe Daten gespeichert werden. In BigLake wird der Zugriff auf Cloud Storage über Verbindungen delegiert. Das Dienstkonto der Verbindung kann in Ihrem Namen auf den Speicher-Bucket zugreifen. Weitere Informationen finden Sie unter Authentifizierung mit BigQuery.

Anmeldedaten-Vending

Die Bereitstellung von Anmeldedaten ist ein Sicherheitsmechanismus, der dazu beiträgt, die Zugriffskontrolle bei der Verwendung des Iceberg-REST-Katalogs zu verschärfen. Wenn diese Option aktiviert ist, generiert BigLake kurzlebige, eingeschränkte Anmeldedaten, die nur Zugriff auf die für eine Abfrage erforderlichen Dateipfade gewähren. Es wird also kein allgemeiner Bucket-Zugriff an Compute Engine übergeben. So wird verhindert, dass Nutzer Sicherheitsrichtlinien auf Tabellenebene umgehen, um Rohdateien direkt zu lesen. Weitere Informationen finden Sie unter Bereitstellen von Anmeldedaten.

Einheitliche Governance

Mit der einheitlichen Governance können Sie Sicherheits- und Datenverwaltungsrichtlinien zentral über die Integration mit Knowledge Catalog definieren und erzwingen. Weitere Informationen finden Sie unter IAM und Zugriffssteuerung.

Zuverlässigkeitskonzepte

Zuverlässigkeitsfunktionen sorgen für Datenresilienz und Katalogverfügbarkeit.

Regionsübergreifende Replikation

Bei der regionsübergreifenden Replikation werden Metadaten in mehreren Regionen repliziert, um die Katalogverfügbarkeit bei regionalen Ausfällen zu gewährleisten. Weitere Informationen finden Sie unter Verwaltete Notfallwiederherstellung.

Failover

Failover ist der Vorgang, bei dem während eines regionalen Ausfalls zwischen primären und sekundären Regionen gewechselt wird, um den Katalogbetrieb aufrechtzuerhalten. Weitere Informationen finden Sie unter Verwaltete Notfallwiederherstellung.