Google Cloud Lakehouse ist eine leistungsstarke Speicher-Engine, die für die Entwicklung offener Data Lakehouses entwickelt wurde. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau aufGoogle Cloudwird eine einheitliche Schnittstelle für erweiterte Analysen und KI bereitgestellt.
Durch die Entkopplung von Speicher und Computing sorgt Google Cloud Lakehouse für nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht es mehreren Engines – darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery –, auf eine einzige Quelle zuzugreifen. So werden Datenduplikate vermieden und konsistente Statistiken gewährleistet.
Hauptvorteile
- Serverlose Architektur:Bei Google Cloud Lakehouse ist keine Server- oder Clusterverwaltung erforderlich. Das reduziert den Betriebsaufwand und die Skalierung erfolgt automatisch je nach Bedarf.
- Einheitliche Datenverwaltung und ‑steuerung:Die Integration mit Knowledge Catalog sorgt für die zentrale Definition und Durchsetzung von Governance-Richtlinien für mehrere Engines und ermöglicht semantische Suche, Datenherkunft und Qualitätsprüfungen.
- Speichererweiterungen:Google Cloud Lakehouse erweitert die Cloud Storage-Verwaltungsfunktionen um Features wie Autoclass-Tiering und kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
- Vollständig verwaltete Lösung:Bei der Integration in BigQuery bietet Google Cloud Lakehouse eine vollständig verwaltete Lösung für Streaming, Analysen und KI mit Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung.
- Hochverfügbarkeit und Notfallwiederherstellung:Google Cloud Lakehouse bietet Optionen für die regionenübergreifende Replikation und Notfallwiederherstellung (Vorabversion), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.
Anwendungsfälle
- Offenes Lakehouse:Cloud Storage als Speicherebene verwenden. Google Cloud Lakehouse bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
- Integration von Analyse- und Transaktionsdaten:Greifen Sie direkt in AlloyDB for PostgreSQL (Vorabversion) auf analytische Apache Iceberg-Tabellen zu, um Analysedaten mit Transaktionsarbeitslasten zu kombinieren.
- Einheitlicher Zugriff:Verschiedene Engines (Apache Spark, Apache Flink, BigQuery) können mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten interagieren.
Katalogschnittstellen
Der Lakehouse-Laufzeitkatalog ist ein einzelner Metadatendienst, der mehrere Schnittstellen (Endpunkte) zum Verbinden Ihrer Daten in Cloud Storage und BigQuery bietet. Weitere Informationen finden Sie unter Funktionsweise von Google Cloud Lakehouse.
Apache Iceberg REST-Katalogendpunkt:Bietet eine standardmäßige REST-Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten und bietet vollständige Lese-/Schreibkompatibilität.
Benutzerdefinierter Apache Iceberg-Katalog für BigQuery-Endpunkt:Ermöglicht die direkte Interaktion von Engines mit dem BigQuery-Katalog. Diese Schnittstelle wird hauptsächlich für von BigQuery verwaltete Apache Iceberg-Tabellen und vorhandene Arbeitslasten verwendet, die auf die Google Cloud Lakehouse-Architektur umgestellt werden.
Schnittstellen und Tools
Sie können mit den folgenden Tools mit Google Cloud Lakehouse-Ressourcen interagieren:
- Google Cloud Console: Mit der Console können Sie Kataloge erstellen, Katalogattribute und Audit-Logs ansehen und Berechtigungen konfigurieren.
- BigQuery SQL:Mit Standard-SQL-DDL (Datendefinitionssprache) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
- Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
- Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg-REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg-REST-Spezifikation kompatibel sind.
Nächste Schritte
- Sie kennen die Architektur von Google Cloud Lakehouse.