Was ist Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine zum Erstellen offener Data Lakehouses. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau auf Google Cloud, bietet sie eine einheitliche Schnittstelle für erweiterte Analysen und KI.

Zum Verwalten von Metadaten offener Tabellen verwendet Lakehouse for Apache Iceberg den Lakehouse-Laufzeitkatalog. Dieser vollständig verwaltete, serverlose Metadatendienst bietet eine einzige Quelle der Wahrheit für verschiedene Systeme, zentralisiert die Suche und macht die Synchronisierung von Metadaten zwischen verschiedenen Repositories überflüssig.

Durch die Entkopplung von Speicher und Compute sorgt Lakehouse von Google Cloud für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, den Zugriff auf eine einzige Quelle der Wahrheit. So werden Datenduplikate vermieden und konsistente Erkenntnisse gewährleistet.

Hauptvorteile

  • Serverlose Architektur:Mit Lakehouse von Google Cloud sind keine Server- oder Clusterverwaltung erforderlich. So werden die Betriebskosten gesenkt und die Skalierung erfolgt automatisch nach Bedarf.
  • Einheitliche Datenverwaltung und Governance: Durch die Integration mit Knowledge Catalog können Governance-Richtlinien zentral für mehrere Engines definiert und erzwungen werden. Außerdem werden semantische Suche, Datenherkunft und Qualitätsprüfungen ermöglicht.
  • Speichererweiterungen:Lakehouse von Google Cloud erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
  • Vollständig verwaltete Lösung:Bei der Integration mit BigQuery verwendet Lakehouse von Google Cloud Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung bereitzustellen.
  • Hochverfügbarkeit und Notfallwiederherstellung: Lakehouse von Google Cloud bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu unterstützen.

Anwendungsfälle

  • Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
  • Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
  • Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
  • Cloudübergreifende Analysen und KI: Verwenden Sie das cloudübergreifende Lakehouse (Vorschau), um Metadaten von anderen Cloud-Anbietern zu synchronisieren. So können Sie Daten mit BigQuery oder externen Open-Source-Engines über den Apache Iceberg REST-Katalogendpunkt abfragen, ohne die Daten migrieren zu müssen.
  • Öffentliche Datasets untersuchen:Fragen Sie ganz einfach hochwertige öffentliche Datasets über den Apache Iceberg REST-Katalogendpunkt ab, ohne die Infrastruktur verwalten zu müssen.
  • Hive-Metastore : Verbinden Sie Open-Source-Engines wie Apache Spark und Apache Hive über den Hive-Katalog (Vorschau) mit dem Lakehouse-Laufzeitkatalog. So werden die Betriebskosten für die Verwaltung eines selbst gehosteten Hive-Metastores (HMS) gesenkt und gleichzeitig eine nahtlose Datenfreigabe und direkte Tabellenabfragen in BigQuery ermöglicht.

Schnittstellen und Tools

Sie können mit den Lakehouse-Ressourcen von Google Cloud mit den folgenden Tools interagieren:

  • Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften und Audit-Logs ansehen und Berechtigungen konfigurieren.
  • BigQuery SQL:Verwenden Sie Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache), um Apache Iceberg-Tabellen und externe Tabellen zu erstellen und zu verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
  • Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
  • Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg REST-Spezifikation kompatibel sind.

Nächste Schritte