Wichtige Konzepte

In diesem Dokument werden die wichtigsten Begriffe und Konzepte für Google Cloud Lakehouse definiert.

Diese Seite enthält keine vollständige Liste der Funktionen, sondern dient als allgemeine Referenz für Begriffe und Konzepte, die in der gesamten Google Cloud Lakehouse-Dokumentation verwendet werden.

Wichtige Konzepte

Die folgenden Konzepte bilden die Grundlage der Google Cloud Lakehouse-Architektur.

Data Lakehouse von Google Cloud

Ein Data Lakehouse vereint die Kosteneinsparungen und Flexibilität eines Data Lake mit der Datenverwaltung und Leistung eines Data Warehouse. Sie können Daten in offenen Formaten in Cloud Storage speichern und BigQuery-Funktionen wie präzise Sicherheitskontrollen und schnelle Abfragen verwenden.

Offene Interoperabilität

Offene Interoperabilität bedeutet, dass mehrere Analyse- und Transaktionssysteme wie BigQuery, Apache Spark und Apache Flink mit einer einzigen Datenkopie in offenen Formaten wie Apache Iceberg arbeiten können. Dadurch ist keine Datenduplizierung erforderlich und eine einheitliche Ansicht der Daten in verschiedenen Tools wird gewährleistet.

Lakehouse-Laufzeitkatalog

Der Lakehouse-Laufzeitkatalog ist ein zentralisierter, serverloser Metadatendienst, der als Single Source of Truth für Google Cloud Lakehouse dient. Damit können mehrere Engines wie Apache Spark, Apache Flink und BigQuery gleichzeitig dieselben Tabellen ermitteln und abfragen.

Katalogtypen

Der Lakehouse-Laufzeitkatalog bietet verschiedene Katalogtypen zum Verwalten Ihrer Metadaten.

Apache Iceberg REST-Katalogendpunkt

Dies ist ein Katalog, der auf dem Apache Iceberg REST-Katalogendpunkt basiert. Er bietet Interoperabilität zwischen Open-Source-Engines und BigQuery und unterstützt Funktionen wie die Bereitstellung von Anmeldedaten und die Notfallwiederherstellung.

Benutzerdefinierter Apache Iceberg-Katalog für BigQuery

Dies ist eine Integration, bei der der BigQuery-Katalog direkt als unterstützender Metadatendienst für verwaltete Apache Iceberg-Tabellen verwendet wird.

Tabellenformate

Google Cloud Lakehouse unterstützt je nach Engine, die zum Verwalten der Daten verwendet wird, verschiedene Tabellenformate.

Lakehouse Iceberg REST-Katalogtabellen

Dies sind Apache Iceberg-Tabellen, die aus Open-Source-Engines erstellt und in Cloud Storage gespeichert wurden. Der Lakehouse-Laufzeitkatalog dient als zentraler Katalog. Nur die Open-Source-Engine, mit der die Tabelle erstellt wurde, kann in sie schreiben.

BigQuery-Tabellen

Diese Tabellen werden mit BigQuery verwaltet.

Apache Iceberg-Tabellen

Dies sind Apache Iceberg-Tabellen, die Sie aus BigQuery erstellen und in Cloud Storage speichern. BigQuery verarbeitet das gesamte Datenlayout und die Optimierung. Diese Tabellen können zwar von mehreren Engines gelesen werden, aber nur BigQuery kann direkt in sie schreiben.

Native Tabellen

Diese Tabellen werden von BigQuery verwaltet und speichern Daten im BigQuery-Speicher. Sie können diese Tabellen mit dem Lakehouse-Laufzeitkatalog verbinden.

Externe Tabellen

Externe Tabellen befinden sich außerhalb des Lakehouse-Laufzeitkatalogs. Die Daten und Metadaten werden in einem Drittanbieterkatalog (z. B. Cloud Storage, S3 oder Azure Blob Storage) selbst verwaltet. BigQuery kann nur aus diesen Tabellen lesen.

Tabellenfunktionen

Tabellenentwicklung

Google Cloud Lakehouse unterstützt die Apache Iceberg-Tabellenentwicklung. Damit können Sie das Schema oder die Partitionsspezifikation einer Tabelle im Laufe der Zeit ändern, ohne die Tabellendaten neu zu schreiben oder die Tabelle neu zu erstellen.

Zeitreise

Mit der Zeitreise können Sie die Daten einer Tabelle so abfragen, wie sie zu einem bestimmten Zeitpunkt oder einer bestimmten Snapshot-ID vorhanden waren. Das ist nützlich für Audits, zum Reproduzieren von Tests oder zum Wiederherstellen von Daten nach einer versehentlichen Löschung.

Metadaten-Caching

Das Metadaten-Caching ist eine Funktion, die die Abfrageleistung für externe Tabellen verbessert. Dabei wird eine Kopie der Metadaten der Tabelle im BigQuery-Speicher gespeichert. So müssen bei der Abfrageausführung keine Metadatendateien aus Cloud Storage gelesen werden.

Tabellenverwaltung in Google Cloud Lakehouse

Die Tabellenverwaltung in Google Cloud Lakehouse vereinfacht die Lakehouse-Wartung, indem Aufgaben wie die Komprimierung und die automatische Speicherbereinigung für verwaltete Tabellen automatisiert werden. So sorgen Sie für optimale Abfrageleistung und Speichereffizienz.

Konzepte der Interoperabilität

Lakehouse-Laufzeitkatalogföderation

Die Katalogföderation ist eine Funktion, mit der der Lakehouse-Laufzeitkatalog Tabellen aus externen Katalogen wie AWS Glue oder Unity Catalog verwalten und abfragen kann, die für BigQuery sichtbar sind.

Namensstruktur für P.C.N.T.

Die Namensstruktur für P.C.N.T. ist die vierteilige Konvention, die verwendet wird, um Tabellen im Lakehouse-Laufzeitkatalog eindeutig zu identifizieren und aus BigQuery abzufragen. Sie steht für Project.Catalog.Namespace.Table:

  • Projekt: Die Google Cloud Projekt-ID.
  • Katalog: Der Name des Lakehouse-Laufzeitkatalogs.
  • Namespace: Die logische Gruppierung für Tabellen (ähnlich einem Dataset).
  • Tabelle: Der Name der Datentabelle.

Sicherheitskonzepte

Verbindungen

Eine Verbindung ist eine BigQuery-Ressource, in der Anmeldedaten für den Zugriff auf externe Daten gespeichert sind. In Google Cloud Lakehouse delegieren Verbindungen den Zugriff auf Cloud Storage, indem das Dienstkonto der Verbindung in Ihrem Namen auf den Speicher-Bucket zugreift.

Bereitstellung von Anmeldedaten

Die Bereitstellung von Anmeldedaten ist ein Sicherheitsmechanismus, mit dem die Zugriffssteuerung bei Verwendung des Lakehouse-Laufzeitkatalogs verbessert werden kann. Wenn diese Funktion aktiviert ist, generiert der Dienst kurzlebige, eingeschränkte Anmeldedaten, die nur Zugriff auf die spezifischen Dateipfade gewähren, die für eine Abfrage erforderlich sind.

Einheitliche Governance

Mit der einheitlichen Governance können Sie Sicherheits- und Datenverwaltungs richtlinien zentral definieren und erzwingen, indem Sie sie in Knowledge Catalog einbinden.

Zuverlässigkeitskonzepte

Regionsübergreifende Replikation

Bei der regionsübergreifenden Replikation werden Metadaten in mehreren Regionen repliziert, um die Verfügbarkeit des Katalogs bei regionalen Ausfällen zu gewährleisten.

Failover

Failover ist der Vorgang, bei dem während eines regionalen Ausfalls zwischen primären und sekundären Regionen gewechselt wird, um den Katalogbetrieb aufrechtzuerhalten.