In diesem Dokument werden die wichtigsten Begriffe und Konzepte für Google Cloud Lakehouse definiert.
Diese Seite enthält keine vollständige Liste der Funktionen, sondern dient als allgemeine Referenz für Begriffe und Konzepte, die in der gesamten Google Cloud Lakehouse-Dokumentation verwendet werden.
Wichtige Konzepte
Die folgenden Konzepte bilden die Grundlage der Google Cloud Lakehouse-Architektur.
Data Lakehouse von Google Cloud
Ein Data Lakehouse vereint die Kosteneinsparungen und Flexibilität eines Data Lake mit der Datenverwaltung und Leistung eines Data Warehouse. Sie können Daten in offenen Formaten in Cloud Storage speichern und BigQuery-Funktionen wie präzise Sicherheitskontrollen und schnelle Abfragen verwenden.
Offene Interoperabilität
Offene Interoperabilität bedeutet, dass mehrere Analyse- und Transaktionssysteme wie BigQuery, Apache Spark und Apache Flink mit einer einzigen Datenkopie in offenen Formaten wie Apache Iceberg arbeiten können. Dadurch ist keine Datenduplizierung erforderlich und eine einheitliche Ansicht der Daten in verschiedenen Tools wird gewährleistet.
Lakehouse-Laufzeitkatalog
Der Lakehouse-Laufzeitkatalog ist ein zentralisierter, serverloser Metadatendienst, der als Single Source of Truth für Google Cloud Lakehouse dient. Damit können mehrere Engines wie Apache Spark, Apache Flink und BigQuery gleichzeitig dieselben Tabellen ermitteln und abfragen.
Katalogtypen
Der Lakehouse-Laufzeitkatalog bietet verschiedene Katalogtypen zum Verwalten Ihrer Metadaten.
Apache Iceberg REST-Katalogendpunkt
Dies ist ein Katalog, der auf dem Apache Iceberg REST-Katalogendpunkt basiert. Er bietet Interoperabilität zwischen Open-Source-Engines und BigQuery und unterstützt Funktionen wie die Bereitstellung von Anmeldedaten und die Notfallwiederherstellung.
Benutzerdefinierter Apache Iceberg-Katalog für BigQuery
Dies ist eine Integration, bei der der BigQuery-Katalog direkt als unterstützender Metadatendienst für verwaltete Apache Iceberg-Tabellen verwendet wird.
Tabellenformate
Google Cloud Lakehouse unterstützt je nach Engine, die zum Verwalten der Daten verwendet wird, verschiedene Tabellenformate.
Lakehouse Iceberg REST-Katalogtabellen
Dies sind Apache Iceberg-Tabellen, die aus Open-Source-Engines erstellt und in Cloud Storage gespeichert wurden. Der Lakehouse-Laufzeitkatalog dient als zentraler Katalog. Nur die Open-Source-Engine, mit der die Tabelle erstellt wurde, kann in sie schreiben.
BigQuery-Tabellen
Diese Tabellen werden mit BigQuery verwaltet.
Apache Iceberg-Tabellen
Dies sind Apache Iceberg-Tabellen, die Sie aus BigQuery erstellen und in Cloud Storage speichern. BigQuery verarbeitet das gesamte Datenlayout und die Optimierung. Diese Tabellen können zwar von mehreren Engines gelesen werden, aber nur BigQuery kann direkt in sie schreiben.
Native Tabellen
Diese Tabellen werden von BigQuery verwaltet und speichern Daten im BigQuery-Speicher. Sie können diese Tabellen mit dem Lakehouse-Laufzeitkatalog verbinden.
Externe Tabellen
Externe Tabellen befinden sich außerhalb des Lakehouse-Laufzeitkatalogs. Die Daten und Metadaten werden in einem Drittanbieterkatalog (z. B. Cloud Storage, S3 oder Azure Blob Storage) selbst verwaltet. BigQuery kann nur aus diesen Tabellen lesen.
Tabellenfunktionen
Tabellenentwicklung
Google Cloud Lakehouse unterstützt die Apache Iceberg-Tabellenentwicklung. Damit können Sie das Schema oder die Partitionsspezifikation einer Tabelle im Laufe der Zeit ändern, ohne die Tabellendaten neu zu schreiben oder die Tabelle neu zu erstellen.
Zeitreise
Mit der Zeitreise können Sie die Daten einer Tabelle so abfragen, wie sie zu einem bestimmten Zeitpunkt oder einer bestimmten Snapshot-ID vorhanden waren. Das ist nützlich für Audits, zum Reproduzieren von Tests oder zum Wiederherstellen von Daten nach einer versehentlichen Löschung.
Metadaten-Caching
Das Metadaten-Caching ist eine Funktion, die die Abfrageleistung für externe Tabellen verbessert. Dabei wird eine Kopie der Metadaten der Tabelle im BigQuery-Speicher gespeichert. So müssen bei der Abfrageausführung keine Metadatendateien aus Cloud Storage gelesen werden.
Tabellenverwaltung in Google Cloud Lakehouse
Die Tabellenverwaltung in Google Cloud Lakehouse vereinfacht die Lakehouse-Wartung, indem Aufgaben wie die Komprimierung und die automatische Speicherbereinigung für verwaltete Tabellen automatisiert werden. So sorgen Sie für optimale Abfrageleistung und Speichereffizienz.
Konzepte der Interoperabilität
Lakehouse-Laufzeitkatalogföderation
Die Katalogföderation ist eine Funktion, mit der der Lakehouse-Laufzeitkatalog Tabellen aus externen Katalogen wie AWS Glue oder Unity Catalog verwalten und abfragen kann, die für BigQuery sichtbar sind.
Namensstruktur für P.C.N.T.
Die Namensstruktur für P.C.N.T. ist die vierteilige Konvention, die verwendet wird, um Tabellen im Lakehouse-Laufzeitkatalog eindeutig zu identifizieren und aus BigQuery abzufragen. Sie steht für Project.Catalog.Namespace.Table:
- Projekt: Die Google Cloud Projekt-ID.
- Katalog: Der Name des Lakehouse-Laufzeitkatalogs.
- Namespace: Die logische Gruppierung für Tabellen (ähnlich einem Dataset).
- Tabelle: Der Name der Datentabelle.
Sicherheitskonzepte
Verbindungen
Eine Verbindung ist eine BigQuery-Ressource, in der Anmeldedaten für den Zugriff auf externe Daten gespeichert sind. In Google Cloud Lakehouse delegieren Verbindungen den Zugriff auf Cloud Storage, indem das Dienstkonto der Verbindung in Ihrem Namen auf den Speicher-Bucket zugreift.
Bereitstellung von Anmeldedaten
Die Bereitstellung von Anmeldedaten ist ein Sicherheitsmechanismus, mit dem die Zugriffssteuerung bei Verwendung des Lakehouse-Laufzeitkatalogs verbessert werden kann. Wenn diese Funktion aktiviert ist, generiert der Dienst kurzlebige, eingeschränkte Anmeldedaten, die nur Zugriff auf die spezifischen Dateipfade gewähren, die für eine Abfrage erforderlich sind.
Einheitliche Governance
Mit der einheitlichen Governance können Sie Sicherheits- und Datenverwaltungs richtlinien zentral definieren und erzwingen, indem Sie sie in Knowledge Catalog einbinden.
Zuverlässigkeitskonzepte
Regionsübergreifende Replikation
Bei der regionsübergreifenden Replikation werden Metadaten in mehreren Regionen repliziert, um die Verfügbarkeit des Katalogs bei regionalen Ausfällen zu gewährleisten.
Failover
Failover ist der Vorgang, bei dem während eines regionalen Ausfalls zwischen primären und sekundären Regionen gewechselt wird, um den Katalogbetrieb aufrechtzuerhalten.