Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine zum Erstellen offener Data Lakehouses. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau auf Google Cloud, bietet sie eine einheitliche Schnittstelle für erweiterte Analysen und KI.
Durch die Entkopplung von Speicher und Compute sorgt Lakehouse von Google Cloud für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, den Zugriff auf eine einzige Quelle der Wahrheit. So werden Datenduplikate vermieden und konsistente Erkenntnisse gewährleistet.
Hauptvorteile
- Serverlose Architektur:Mit Lakehouse von Google Cloud sind keine Server- oder Clusterverwaltung erforderlich. So wird der Betriebsaufwand gesenkt und die Skalierung erfolgt automatisch nach Bedarf.
- Einheitliche Datenverwaltung und Governance: Durch die Integration mit Knowledge Catalog können Governance-Richtlinien zentral für mehrere Engines definiert und erzwungen werden. Außerdem werden semantische Suche, Datenherkunft und Qualitätsprüfungen ermöglicht.
- Speichererweiterungen:Lakehouse von Google Cloud erweitert die Verwaltungsfunktionen von Cloud Storage um Features wie Autoclass-Tiering und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
- Vollständig verwaltete Lösung:Bei der Integration mit BigQuery verwendet Lakehouse von Google Cloud Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung bereitzustellen.
- Hochverfügbarkeit und Notfallwiederherstellung: Lakehouse von Google Cloud bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.
Anwendungsfälle
- Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
- Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
- Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
- Cloudübergreifende Analysen und KI: Mit dem cloudübergreifenden Lakehouse (Vorschau) können Sie Daten bei anderen Cloudanbietern direkt aus Google Cloud abfragen, ohne dass eine Datenmigration erforderlich ist.
- Öffentliche Datasets untersuchen:Sie können hochwertige öffentliche Datasets ganz einfach über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Infrastruktur verwalten zu müssen.
- Hive Metastore : Verbinden Sie Open-Source-Engines wie Apache Spark und Apache Hive über den Hive-Katalog (Vorschau) mit dem Lakehouse-Laufzeitkatalog. So werden die Betriebskosten für die Wartung eines selbst gehosteten Hive Metastore (HMS) vermieden und gleichzeitig eine nahtlose Datenfreigabe und direkte Tabellenabfragen in BigQuery ermöglicht.
Schnittstellen und Tools
Sie können mit den Lakehouse-Ressourcen von Google Cloud über die folgenden Tools interagieren:
- Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften und Audit-Logs ansehen und Berechtigungen konfigurieren.
- BigQuery SQL:Mit der Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
- Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
- Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg REST-Spezifikation kompatibel sind.
Nächste Schritte
- Machen Sie sich mit der Architektur von Lakehouse von Google Cloud vertraut.