Was ist Lakehouse for Apache Iceberg?

Lakehouse for Apache Iceberg ist eine leistungsstarke Speicher-Engine, die für die Erstellung offener Data Lakehouses entwickelt wurde. Durch die Integration des offenen Tabellenformats Apache Iceberg mit vollständig verwaltetem Speicher auf Unternehmensniveau in bietet es eine einheitliche Schnittstelle für erweiterte Analysen und KI.Google Cloud

Durch die Entkopplung von Speicher und Compute sorgt Lakehouse von Google Cloud für eine nahtlose Interoperabilität zwischen Analyse- und Transaktionssystemen. Diese Architektur ermöglicht mehreren Engines, darunter Apache Spark, Apache Flink, Apache Hive, Trino und BigQuery, den Zugriff auf eine einzige Quelle der Wahrheit. So werden Datenduplizierungen vermieden und konsistente Erkenntnisse gewährleistet.

Hauptvorteile

  • Serverlose Architektur:Mit Lakehouse von Google Cloud entfällt die Notwendigkeit der Server- oder Clusterverwaltung. So werden der Betriebsaufwand gesenkt und die Skalierung erfolgt automatisch nach Bedarf.
  • Einheitliche Datenverwaltung und ‑governance: Durch die Integration mit Knowledge Catalog können Governance-Richtlinien zentral für mehrere Engines definiert und erzwungen werden. Außerdem werden semantische Suche, Datenherkunft und Qualitätsprüfungen ermöglicht.
  • Speichererweiterungen:Lakehouse von Google Cloud erweitert die Verwaltungsfunktionen von Cloud Storage um Funktionen wie Autoclass-Tiering und vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK).
  • Vollständig verwaltete Lösung:Bei der Integration mit BigQuery verwendet Lakehouse von Google Cloud Streaming mit hohem Durchsatz und Echtzeit-Metadatenverwaltung, um eine vollständig verwaltete Streaming-, Analyse- und KI-Lösung bereitzustellen.
  • Hochverfügbarkeit und Notfallwiederherstellung: Lakehouse von Google Cloud bietet Optionen für die regionsübergreifende Replikation und Notfallwiederherstellung (Vorschau), um die Hochverfügbarkeit Ihrer Daten zu gewährleisten.

Anwendungsfälle

  • Offenes Lakehouse:Verwenden Sie Cloud Storage als Speicherebene. Lakehouse von Google Cloud bietet die Verwaltungs- und Governance-Schnittstelle für Apache Iceberg-Daten.
  • Analytische und transaktionale Integration: Greifen Sie direkt in AlloyDB for PostgreSQL (Vorschau) auf analytische Apache Iceberg-Tabellen zu, um analytische Daten mit transaktionalen Arbeitslasten zu kombinieren.
  • Einheitlicher Zugriff:Ermöglichen Sie verschiedenen Engines (Apache Spark, Apache Flink, BigQuery) die Interaktion mit denselben Apache Iceberg-Tabellen mit konsistenten Metadaten.
  • Cloudübergreifende Analysen und KI: Mit Cross-cloud Lakehouse (Vorschau) können Sie Daten bei anderen Cloudanbietern direkt aus abfragen, Google Cloud ohne dass eine Datenmigration erforderlich ist.
  • Öffentliche Datasets untersuchen:Fragen Sie ganz einfach hochwertige öffentliche Datasets über den Apache Iceberg-REST-Katalogendpunkt ab, ohne die Infrastruktur verwalten zu müssen.

Katalogschnittstellen

Der Lakehouse-Laufzeitkatalog ist ein einzelner Metadatendienst, der mehrere Schnittstellen (Endpunkte) bietet, um Ihre Daten in Cloud Storage und BigQuery zu verbinden.

  • Apache Iceberg-REST-Katalogendpunkt: Bietet eine Standard-REST Schnittstelle für eine breite Kompatibilität mit Open-Source-Engines wie Apache Spark, Apache Flink und Trino. Dies ist die empfohlene Schnittstelle für neue Arbeitslasten und bietet vollständige Lese-/Schreib-Interoperabilität.

  • Benutzerdefinierter Apache Iceberg-Katalog für BigQuery-Endpunkt:Ermöglicht Engines die direkte Interaktion mit dem BigQuery-Katalog. Diese Schnittstelle wird hauptsächlich für von BigQuery verwaltete Apache Iceberg-Tabellen und vorhandene Arbeitslasten verwendet, die zur Lakehouse-Architektur von Google Cloud migriert werden.

Schnittstellen und Tools

Sie können mit den Lakehouse-Ressourcen von Google Cloud mit den folgenden Tools interagieren:

  • Google Cloud Console: In der Console können Sie Kataloge erstellen, Katalogeigenschaften aufrufen, Audit-Logs ansehen und Berechtigungen konfigurieren.
  • BigQuery-SQL:Verwenden Sie Standard-SQL-DDL (Data Definition Language, Datendefinitionssprache), um Apache Iceberg-Tabellen und externe Tabellen zu erstellen und zu verwalten, die in den Lakehouse-Laufzeitkatalog eingebunden sind.
  • Open-Source-Engines:Verwenden Sie Engines wie Apache Spark, Apache Flink und Apache Hive mit dem Lakehouse-Laufzeitkatalog, um Daten zu lesen und zu schreiben.
  • Lakehouse-Laufzeitkatalog-API:Verwenden Sie den Apache Iceberg-REST-Katalogendpunkt, um mit dem Dienst über Tools zu interagieren, die mit der offenen Apache Iceberg-REST-Spezifikation kompatibel sind.

Nächste Schritte