Google Cloud Lakehouse ist eine leistungsstarke Speicher-Engine, die für die Erstellung offener Data Lakehouses entwickelt wurde. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau in bietet sie eine einheitliche Schnittstelle für erweiterte Analysen und KI.Google Cloud
Durch die Entkopplung von Speicher und Compute sorgt Google Cloud Lakehouse für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht es mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, auf eine einzige Quelle der Wahrheit zuzugreifen. So werden Datenduplikate vermieden und konsistente Analysen gewährleistet.
Hauptvorteile
- Serverlose Architektur:Mit Google Cloud Lakehouse ist keine Server- oder Clusterverwaltung erforderlich. So wird der Betriebsaufwand reduziert und die Skalierung erfolgt automatisch nach Bedarf.
- Einheitliche Datenverwaltung und Governance: Durch die Integration mit Knowledge Catalog können Governance-Richtlinien zentral für mehrere Engines definiert und erzwungen werden. Außerdem sind semantische Suche, Datenherkunft und Qualitätsprüfungen möglich.
- Speichererweiterungen:Google Cloud Lakehouse erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
- Vollständig verwaltete Lösung:Bei der Integration mit BigQuery bietet Google Cloud Lakehouse mit Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung.
- Hochverfügbarkeit und Notfallwiederherstellung: Google Cloud Lakehouse bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu gewährleisten.
Anwendungsfälle
- Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Google Cloud Lakehouse bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
- Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
- Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
- Cloudübergreifende Analysen und KI: Mit Cross-cloud Lakehouse (Vorschau) können Sie Daten bei anderen Cloudanbietern direkt aus abfragen, Google Cloud ohne dass eine Datenmigration erforderlich ist.
- Öffentliche Datasets untersuchen:Fragen Sie ganz einfach hochwertige öffentliche Datasets über den Apache Iceberg REST-Katalogendpunkt ab, ohne die Infrastruktur verwalten zu müssen.
Katalogschnittstellen
Der Lakehouse-Laufzeitkatalog ist ein einzelner Metadatendienst, der mehrere Schnittstellen (Endpunkte) bietet, um Ihre Daten in Cloud Storage und BigQuery zu verbinden. Weitere Informationen finden Sie unter Funktionsweise von Google Cloud Lakehouse.
Apache Iceberg REST-Katalogendpunkt: Bietet eine Standard-REST-Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten und bietet vollständige Lese-/Schreib-Interoperabilität.
.Benutzerdefinierter Apache Iceberg-Katalog für BigQuery-Endpunkt:Ermöglicht die direkte Interaktion von Engines mit dem BigQuery-Katalog. Diese Schnittstelle wird hauptsächlich für von BigQuery verwaltete Apache Iceberg-Tabellen und vorhandene Arbeitslasten verwendet, die zur Google Cloud Lakehouse-Architektur migriert werden.
Schnittstellen und Tools
Sie können mit den folgenden Tools mit Google Cloud Lakehouse-Ressourcen interagieren:
- Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften aufrufen, Audit-Logs ansehen und Berechtigungen konfigurieren.
- BigQuery SQL:Mit der Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
- Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
- Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg REST-Spezifikation kompatibel sind.
Nächste Schritte
- Machen Sie sich mit der Architektur von Google Cloud Lakehouse vertraut.