Was ist Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine, die für die Erstellung offener Data Lakehouses entwickelt wurde. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau auf Google Cloudwird eine einheitliche Schnittstelle für erweiterte Analysen und KI bereitgestellt.

Durch die Entkopplung von Speicher und Compute sorgt das Lakehouse von Google Cloud für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht es mehreren Engines – darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery –, auf eine einzige Quelle der Wahrheit zuzugreifen. So wird die Datenduplizierung vermieden und konsistente Statistiken werden gewährleistet.

Hauptvorteile

  • Serverlose Architektur:Mit dem Lakehouse von Google Cloud entfällt die Notwendigkeit der Server- oder Clusterverwaltung. So wird der Betriebsaufwand reduziert und die Skalierung erfolgt automatisch nach Bedarf.
  • Einheitliche Datenverwaltung und ‑steuerung:Die Integration mit Knowledge Catalog sorgt für die zentrale Definition und Durchsetzung von Governance-Richtlinien für mehrere Engines und ermöglicht semantische Suche, Datenherkunft und Qualitätsprüfungen.
  • Speichererweiterungen:Das Lakehouse von Google Cloud erweitert die Cloud Storage-Verwaltungsfunktionen um Features wie Autoclass-Tiering und kundenverwaltete Verschlüsselungsschlüssel (CMEK).
  • Vollständig verwaltete Lösung:Bei der Integration in BigQuery nutzt das Lakehouse von Google Cloud Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung bereitzustellen.
  • Hochverfügbarkeit und Notfallwiederherstellung:Das Lakehouse von Google Cloud bietet Optionen für die regionenübergreifende Replikation und Notfallwiederherstellung (Vorabversion), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.

Anwendungsfälle

  • Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Das Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
  • Integration von Analyse- und Transaktionsdaten:Greifen Sie direkt in AlloyDB for PostgreSQL (Vorabversion) auf analytische Apache Iceberg-Tabellen zu, um Analysedaten mit Transaktionsarbeitslasten zu kombinieren.
  • Einheitlicher Zugriff:Verschiedene Engines (Apache Spark, Apache Flink, BigQuery) können mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten interagieren.
  • Cloudübergreifende Analysen und KI:Mit Cross-cloud Lakehouse (Vorabversion) können Sie Daten bei anderen Cloud-Anbietern direkt über Google Cloud abfragen, ohne dass eine Datenmigration erforderlich ist.
  • Öffentliche Datasets untersuchen:Sie können hochwertige öffentliche Datasets ganz einfach über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Infrastruktur verwalten zu müssen.

Katalogschnittstellen

Der Lakehouse-Laufzeitkatalog ist ein einzelner Metadatendienst, der mehrere Schnittstellen (Endpunkte) bereitstellt, um Ihre Daten in Cloud Storage und BigQuery zu verbinden.

  • Apache Iceberg-REST-Katalogendpunkt:Bietet eine standardmäßige REST-Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten und bietet vollständige Lese-/Schreibkompatibilität.

  • Benutzerdefinierter Apache Iceberg-Katalog für BigQuery-Endpunkt:Ermöglicht die direkte Interoperabilität von Engines mit dem BigQuery-Katalog. Diese Schnittstelle wird hauptsächlich für von BigQuery verwaltete Apache Iceberg-Tabellen und vorhandene Arbeitslasten verwendet, die auf die Lakehouse-Architektur von Google Cloud umgestellt werden.

Schnittstellen und Tools

Sie können mit den Lakehouse-Ressourcen von Google Cloud mit den folgenden Tools interagieren:

  • Google Cloud Console: Mit der Console können Sie Kataloge erstellen, Katalogattribute und Audit-Logs ansehen und Berechtigungen konfigurieren.
  • BigQuery SQL:Mit Standard-SQL-DDL (Datendefinitionssprache) können Sie Apache Iceberg-Tabellen und externe Tabellen erstellen und verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
  • Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
  • Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg-REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg-REST-Spezifikation kompatibel sind.

Nächste Schritte